第二十二章 计算语言学:若干最新进展1 recent advances in...

37
- 1 - 第二十二章 计算语言学:若干最新进展 1 Recent advances in computational linguistics 揭春雨 Chunyu Kit 香港城市大学 City University of Hong Kong [内容提要] 本章将介绍近年计算语言学前沿的重大进展,着重介绍一些核心方法 和技术,包括自动分词、自动句法分析、依存句法分析、机器翻译及 其评测、文本情感分析和术语自动识别等。 Abstract This chapter presents a number of significant developments in the frontier of computational linguistics in recent years, focusing on the novel methodolo- gies and technologies in automatic word segmentation, syntactic parsing, dependency parsing, machine translation and evaluation, opinion analysis and automatic term recognition. [关键词] 计算语言学(computational linguistics),自动分词(automatic word seg- mentation) ,自动句法分析(parsing),依存句法分析(dependency pars- ing),机器翻译(machine translation),文本情感分析(sentiment analy- sis),术语自动识别(automatic term recognition) 引言 计算语言学是计算机和语言学两者间的交叉学科,跨涉概率统计、机器学习 和知识工程等领域。最早得名于 1966 年美国国会的 ALPAC 报告。该报告评估机 器翻译的实际需求、实用性以及可预见的前景,其悲观结论阻绝了人们不切实际的 1 本文所涉的研究部分受香港城市大学 SRG 项目 7002267, 7002388 7008003 的资助,特此鸣谢。

Upload: others

Post on 10-Oct-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 1 -

第二十二章 计算语言学若干 新进展1 Recent advances in computational linguistics

揭春雨

Chunyu Kit

香港城市大学 City University of Hong Kong

[内容提要]

本章将介绍近年计算语言学前沿的重大进展着重介绍一些核心方法

和技术包括自动分词自动句法分析依存句法分析机器翻译及

其评测文本情感分析和术语自动识别等 Abstract

This chapter presents a number of significant developments in the frontier of computational linguistics in recent years focusing on the novel methodolo-gies and technologies in automatic word segmentation syntactic parsing dependency parsing machine translation and evaluation opinion analysis and automatic term recognition

[关键词]

计算语言学(computational linguistics)自动分词(automatic word seg-mentation)自动句法分析(parsing)依存句法分析(dependency pars-ing)机器翻译(machine translation)文本情感分析(sentiment analy-sis)术语自动识别(automatic term recognition)

引言

计算语言学是计算机和语言学两者间的交叉学科跨涉概率统计机器学习

和知识工程等领域 早得名于 1966 年美国国会的 ALPAC 报告该报告评估机

器翻译的实际需求实用性以及可预见的前景其悲观结论阻绝了人们不切实际的

1本文所涉的研究部分受香港城市大学 SRG 项目 7002267 7002388 和 7008003 的资助特此鸣谢

- 2 -

热望(以及几乎全部的科研经费)提出应着力于更基础的计算语言学诸问题的研

究经过近 10 年的低潮期该领域以 1970 年前后几个可实用的机器翻译系统(如METEO SYSTRAN)为引信80 年代中期逐步酝酿复苏90 年代初以机器翻译方

法论上的迭代更替为拐点加上语音处理和信息检索等以大规模实际数据评测推动

技术性突破而进入实用开发推波助澜进而蓬勃发展近年更得力于信息社会

特别是万维网等对语言处理技术的强烈需求进入研究开发的兴盛时期纵深发

展无论基础研究还是各个技术应用领域都有长足进步另外一些新兴领域

譬如生物信息学(bioinformatics)等也为计算语言学提供更迫切也更广阔的应用前

景 鉴于此学科涉及面很广分支也越分越细越多在一章的篇幅里很难全面勾

勒我们选择性介绍学科内若干代表性核心课题和富有前景的应用性技术包括自

动分词句法分析依存句法分析机器翻译及其评测文本情感分析和术语自动

识别为读者提供几个可藉以管窥全豹的切入点特别是我们将着重于国际水准

层面上的介绍尤其侧重在各大型国际评测中确认其尖端地位者值得引以为傲的

是其中不少也正是我们研究小组的具体成果故此下面各节特邀几位实际参

与各相应课题研究并获得突破进展的主要研究者来主笔确保技术细节的新颖和准

确到位

一自动分词 2

早也叫自动切词或断词任务非常明确就是识别出输入句子中的一个个

词或词汇层面的文本单元以供后续处理对于书写系统中没有诸如空格那样的分

隔符的语言譬如汉语此问题尤为严重 中文自动分词的一个重要前提是在计算的意义上可以清楚界定真实文本中

每个词的边界纯粹的语言学中词被定义为语言中有意义的可以独立使用的即

能单说的用来造句的 小语言单位然而中文分词技术却一度深受这一传统定

义的困挠因为对于成词与否的判断其实是颇主观的很大程度上有赖于执行

者的语感语言学知识和经验当人们使用这一定义来进行手工分词时其结果也

总难免因人而异即便在以汉语为母语的话者之间中文词的平均认同率其实也只

有 076 左右(Sproat et al 1996)这个定义无法确保人工操作上的一致性在计算上

的可执行性就更成问题 在作为中国国家标准公布的《信息处理用现代汉语分词规范》(国家技术监

督局1993)中计算机文本处理中的词被称为ldquo分词单位rdquo以区别于语言学中更

严格的ldquo词rdquo概念并按词类分别给出了各类分词单位的定义然而在许多地方也

只能把ldquo结合紧密使用稳定rdquo这样模糊的不可操作的描述奉为分词单位的界定准

则和这种模糊的分词标准相伴随的是一些基于词表的操作方法成为自动分词

基本的也是主流的技术可改进空间有限2003 年SIGHAN3举办了首届国际中

文分词评测Bakeoff (Sproat amp Emerson 2003)采用多家标注语料中已有的实际切

2 主笔赵海博士后研究员囊括 近两届 Bakeoff 所有自动分词封闭测试第一名现任职上海交通大学计

算机系副教授 3 SIGHAN 是国际计算语言学会(ACL)下属的汉语处理组的简称 网址 httpwwwsighanorg

- 3 -

分作为操作上的词的定义同时承认多重切分标准的存在得力于这些大规模语料

的支持分词进入了机器学习时代 很长时间以来研究人员一直把未登录(out-of-vocabulary OOV)词和分词歧

义并列为影响分词精度的两大因素在 Bakeoff 数据上用正向 大匹配(forward maximum matchingFMM)算法对每个语料库进行两种切分一种使用不含未登录

词的不完全词表作为基线(baseline)另一种使用涵盖未登录词的完全词表作为

顶线(topline)用作分词系统 起码和 高的两套性能指标惯常用 Fbase 和 Ftop 分

别表示基线和顶线的 F 值即精确率和召回率的调和平均值这样可用两者的

差 Ftop - Fbase 表示未登录词单独给分词系统带来的精度失落(Xue amp Shen 2003)也

可进一步用 1- Ftop表示分词歧义单独造成的分词精度失落(黄amp赵 2007) 下面的表一给出在 Bakeoff-2003 的四个语料库上用不含和已含未登录词的

词表进行 FMM 分词的诸性能对比数据显示未登录词造成的分词精度失落比

歧义切分造成的精度失落至少大 10 倍左右在此后的各届 Bakeoff 数据上也

能得到类似的统计结果在真实切分语料上获取的这些统计数据在很大程度上颠

覆了以往对错切原因的一些想当然的认识具指导性意义

语料库 AS2003 CityU2003 CTB2003 PKU2003顶线 Ftop 0992 0989 0985 0995 基线 Fbase 0915 0867 0725 0867

Ftop-Fbase 0077 0122 0260 0128 1-Ftop 0008 0011 0015 0005 比率 96 111 173 256

表一 Bakeoff-2003 语料库上 FMM 分词性能对比(黄amp赵 2007)

跳出依赖于与已知词进行字符串匹配的旧框框在 Bakeoff 评测活动中研

究者们发展了一种目前居于主流地位的字标注分词方法标注出每个字在一个词中

充当的位置角色例如词头词尾或词中等把切分问题转换成字标注(即分类)问题也即是典型的机器学习问题进而利用各种现行的机器学习模型求解 优答

案 这种方法 早见于 Xue amp Converse (2002)和 Xue amp Shen (2003)他们的分词

系统使用了四种标记并将 大熵机器学习模型运用于字标记的学习和推测后继

的研究者尝试不同的标记集和性能更好的机器学习方法例如条件随机场(CRFs)模型(Peng et al 2004)稍后的第三届 Bakeoff沿用此技术路线的几个分词系统特

别是 Tseng (2005)和 Low(2005) 在切分标准不同的语料上都取得了令人瞩目的结

果几乎囊括所有的第一名前者证明 CRFs 在分词标注学习中是一种更为有效的

学习工具后者发展出多种有效的扩展标注语料的开放学习方法在第三届 Bake-off 上Zhao et al (2006) 对这一技术进行了进一步的探索其六标记的字标注集以

及相应优化的特征模版集的使用将分词精度推进到了一个新的高度在一定程度

上这相当于针对这一任务寻找一种近乎 优化的标注和特征模版集

- 4 -

在 近的第四届 Bakeoff 上此一标注集被各参赛者广泛采用事实上成为

范例性标注集在此基础上Zhao amp Kit (2008 2010) 进一步将无指导(unsupervised)词汇学习方法引入到字标注机器学习的分词方法中来从而创出一种类似半监督

(semi-supervised) 的学习方法实践证明该方法具有极强的适应性在分词标准各

不相同的语料中都取得了极好的效果囊括此届 Bakeoff 全部五项封闭测试的第一

名此外无监督学习方法的引入使得利用大规模未标注语料提高分词精度的设

想成为可能为自动分词技术的发展提供了新的方向

二自动句法分析 4

惯指旨在导出句子的短语或成分结构树的句法分析是自然语言处理的基本

问题之一各种自然语言处理应用技术例如信息抽取机器翻译和语音识别等

在很大程度上都依赖于高精度的句法分析结果近年来在大量人工标记的树库等

有用资源不断涌现的背景下自动句法分析技术取得了引人注目的进展但是若

从高端应用的角度来审视其技术水平进一步的突破对于自然语言处理学者来

说仍是巨大挑战 句法分析首先需要依照某种统一的形式化方法人工构建一套文法

(grammar)通常这套文法的每条规则都可以含有很多附加的选择性限制条件

用以解决或减轻句法分析的一个基本问题结构性歧义但这种方法也有着明

显的缺点当处理大规模多领域的文档时词表数量的激增和位置语法现象的出

现都会使这样一套文法的构建变得十分困难甚至不可能尤有甚者句法分析

中歧义结构的取舍常常不是简单的二值问题往往需要更深层的句法语义信息 为了解决这些问题统计的方法近年被引入句法分析树库数据的出现更

是为概率句法分析提供了必要的训练资源一些早期的研究探索了概率上下文无关

文法(probabilistic context-free grammarPCFG)在自然语言句法分析中的应用希

望利用 PCFG 本身的消解句法分析中结构歧义的能力实现自动的自然语言句法分

析但这尝试并未获得成功Charniak (1997)的实验证明纯粹的 PCFG 模型只能在

英文树库上达到 70左右的精度主要是分析精度无法满足实用需求此后基

于 PCFG 的许多句法分析模型渐渐发展起来并且取得了一些突破以下是一些主要

方法 词汇化的 PCFG 模型

首先Magerman (1995)指出词汇和上下文信息会对句法分析的结果产生重

大影响他的实验结果也证明了引入词汇化信息的模型要远好于之前的基于简单

PCFG 的模型此后Collins (1997)在 Magerman 的基础之上提出了 3 个词汇化

(lexicalized)的概率句法分析模型使得 PCFG 框架下的概率句法分析精度得到显著

的提高Collins 模型引入依存语法(dependency grammar)的概念对句法树进行词

4 主笔陈晓在读博士生在中文信息学会句法分析评测 CIPS-ParsEval-2009 中获句法结构树分析第一名

- 5 -

汇化(lexicalization)在词汇化的句法树库中句法规则的概率被分解成构成该句

法规则的一组依存关系的概率的乘积这种概率估计方法还很大程度上解决了估计

PCFG 模型参数时遇到的数据稀疏问题此外Collins 还在他的模型中为英语句法

分析中一些难点如 PP-attachment 等设计了相应的特征使得他的模型在英文

句法分析方面取得了很高的精度同样值得一提的是后来 Charniak(2000)采用和

Collins 相似的词汇化方法在更高阶的马尔科夫语法和对数线性公式的帮助下

使得基于英文树库上的句法分析结果进一步提高 Bikel (2004)重新实现 Collins 模型并且更深入地探讨了这个模型中一些能

对 终句法分析精度产生较大影响的细节Bikel 在他的博士论文中将 Collins 模型

应用于中文和阿拉伯语的句法分析中同样取得了不错的成绩 Collins 提出的基于词汇化 PCFG 的模型显著地提高了适应能力使得句法

分析器在处理不同领域文档时可以保持较高的精度但是Collins 的模型也有其

不足之处首先Collins 的模型本身十分复杂从而导致实现细节会对句法分析

精度产生较大的影响其次Collins 模型的特征设计有明显的语言依赖性这就

使得模型的一般性略显不足 非词汇化的 PCFG 模型

随着词汇化 PCFG 模型的提出并取得成功词汇化便成为了句法分析的主

流但是一部分学者(Gildea 2001 Bikel 2004)通过实验发现词汇化的依存关

系在 Collins 模型中所起的作用并不像期望中那么大词汇化的做法还带来了模型

复杂度的显著增加在这样的背景下一种改进的非词汇化(unlexicalized)的句法分

析模型开始引起关注 Klein amp Manning (2003a)针对非词汇化的 PCFG 句法分析模型进行了探索

通过对句法树的马尔科夫化以及根据语言学知识对部分句法标记进行拆分等一些

非词汇化方法对句法树库进行改造并且利用简单的 大似然法估计句法规则的概

率他们的实验表明这样可以大幅提高非词汇化句法分析器的精度甚至超越一些

早期的词汇化句法分析器的性能 Matsuzaki (2005)引入了潜在变量的概念对原有树库的句法进行改造这

种改造与(Klein amp Manning2003)在本质上是相通的但是他不利用语言学知识来

指导句法标记的拆分而是采用 EM 算法从句法树库中习得潜在变量用以拆分句

法标记 Petrov et al (2006 2007)在前人工作的基础上提出一套自动改造句法树库的

方法通过拆分合并和平滑三个步骤改造现有树库句法以提高句法对于语料的

解释能力同时还利用句法改造迭代过程中产生的中间句法设计出一种由粗及

细的句法分析算法从而解决句法改造后句法规则的数量明显增加而导致的句法分

析效率低下的问题在英文中文和德文的树库上进行了实验结果表明这种非词

汇化句法分析模型在这三种语言上都可以达到较高的精度 相对于词汇化的句法分析模型非词汇化句法分析模型有一些明显的优势

首先非词汇化模型相对简洁其次非词汇化模型不依赖于短语结构中的中心

词这意味着非词汇化模型可以做到与语言无关用一个统一的模型来处理不同的

- 6 -

语言 后非词汇化的句法分析模型是一个自动化程度较高的模型基本不用人

类的语言知识 因子化的模型

Klein amp Manning (2003b)提出因子化(factored)的句法分析模型这种模型可

以看做是对词汇化句法分析模型的简化有别于 Collins 将依存语法的概念引入到

传统的 PCFG 模型Klein amp Manning(2003b)将 PCFG 模型和依存语法模型分列为

两个因子即 P(T D)=P(T)P(D)其中 P(T)和 P(D)分别表示两个模型估算出的概

率这种方法相对于词汇化的句法分析模型也要简化许多可以提高句法分析的效

率同时提供相近的分析精度

基于分类的句法分析 Ratnaparkhi (1999)首先将分类器引入句法分析形成基于分类(classification

based)的句法分析方法与基于 PCFG 的句法分析方法略有不同一般来说后者

将句法树的概率定义为生成该句法树所用的所有句法规则的概率的乘积而基于分

类器的句法分析方法则采用移进-归约算法来产生句法树因此句法树的概率

相应定义为移进-归约过程中的每一个ldquo动作rdquo的概率的乘积 Sagae amp Lavie (2005)将树库二叉化之后利用 SVM 分类器只实现一个快速产

生 1-best 句法树的句法分析器其精度就已超过 Ratnaparkhi 的句法分析器Wang et al (2006)在中文树库上使用多种分类器进行了实验结果表明 SVM 在中文句法

分析中的表现优于其它分类器 Tsuruoka et al (2009)使用线性链的 CRF 模型来做句法分析其方法与移进-

归约式的句法分析方法很相似但由于模型的不同使用 CRF 的句法分析器将

句法分析视为一系列的串标注问题一层一层自底向上将句中的词规约到句法树的

根节点实验表明这种方法的分析效率很高但是分析精度与比较优秀的词汇化

或非词汇化的 PCFG 句法分析器相比还有一定差距 判别式的重排序

以上的句法分析模型都可以归入一个大类即基于历史(history-based)的模

型因为在这些模型中句法树的产生被描述为一个决策序列句法树的概率就等于

这一系列决策的概率的乘积此类模型在句法分析方面取得了一定的成功但想继

续向其中添加特征时却遇到了困难因为新的特征与这种模型的句法树产生过

程不兼容为了解决这个问题重排序(reranking)的方法被引入作为句法分析的

后处理步骤将更多的上下文信息长距离依存信息甚至浅层语义信息加入到句

法分析的过程中去希望藉此获得更高的分析精度 Collins (2000)首先提出了使用逻辑回归(logistic regression)模型来尝试句法分

析结果的重排序逻辑回归模型的特性决定了我们可以任意设定特征而无需做独立

性假设Collins 同时引入了 Boosting 算法来对重排序模型进行参数优化根据

- 7 -

Collins 在 WSJ 数据集上的实验这种以后处理模式加入的重排序方法可以在

Collins (1999)模型二的基础上将句法分析 F 值提高 15相当显著 Charniak amp Johnson (2005)则采用和 Collins 十分类似的方法进行重排序但

引入了更多更复杂的上下文特征此外他们的贡献还在于他提出了一种两步式由

粗及细的句法分析方法用以降低在模型比较复杂的情况下使用动态规划算法得

到 n-best 输出时效率低下的问题 重排序的方法作为句法分析器的后处理步骤对句法分析器的 n-best 输出结

果进行重新评分和排序又进一步提高精度的效果但是这样做的问题在于 n-best 输出只是一个很小的选择范围通常我们会发现句法分析器的 n-best 输出之

间差距其实很小据统计大约有 41的正确句法树不包含在句法分析器的 30-best 输出中为此Huang (2008)提出了一种新的森林重排序(forest reranking)的方

法用来扩展重排序的施用空间要点是将重排序嵌入到传统的句法分析过程中

重排序的特征分为两种类型即局部特征和非局部特征当整个森林建立起来之

后局部特征可以预先生成而非局部特征则在解码过程中增量地产生为了解决

效率问题 Huang (2008)还设计了一种近似的解码方法使得训练时间缩短到可接

受的范围之内到目前为止采用重排序方法的单一句法分析器在英文树库中取得

了 优秀的成绩

句法分析器的融合 在单一句法分析模型和重排序技术都很难进一步提升句法分析精度的时候

多个句法分析器的系统融合(parser combination)是改进句法分析质量的另一条途

径目前句法分析器的融合有两种方式句法树选择(parse selection)和成分重组

(constituent recombination) Henderson amp Brill (1999)首先提出这两种方法在实验中使用三个句法分析

器的 1-best 输出结果相对于单个句法分析器的 好成绩有 1的提高Sagae amp Lavie(2006)在其成分投票机制的基础之上引入了二次句法分析(re-parsing)的方法

利用投票所得的各个句法成分的权重对测试句进行第二次的句法分析藉此获得一

棵没有括号交叉的合法的句法树在 WSJ 数据集上取得和前者大体相似的成绩 Fossum amp Knight (2009)对以上两种方法进行了扩展前两者都只使用了各

个句法分析器的 1-best 输出结果而他们则利用各个句法分析器的 n-best 输出结果

进行融合同时他们发现成分重组的方法会产生结构上过于平坦的树虽然在

目前的句法分析评测中可以取得比较好的成绩但这种病态结构的树会对后续的应

用造成影响为此提出了另一种产生式重组的方法可视为对成分重组方法的改

进在 WSJ 数据集上实验结果表明相对于其他两种方法成分重组的方法有微

弱的优势针对成分重组方法的这个问题 Chen et al (2009)尝试了另一种解决方

案即利用训练树库中习的句法规则来限制成分重组的过程使得成分重组生成的

句法树完全遵守树库句法 Chen et al (2009)在清华大学汉语树库上的实验结果表明这种受限的成分

重组方法表现略好于传统的成分重组方法同时也能较好地解决句法树树结构过

于平坦的问题

- 8 -

小结

纵观上述主流的句法分析方法我们可以看到单一句法分析模型近年的发展

过程在 PCFG 的框架下词汇化和非词汇化看起来是两条相反的路线但是我

们可以从另一个角度找到这两种方法的共同点自然语言的文法含有递归的句法规

则(recursive rules)这种规则容易在句法分析过程中造成句法树的结构歧义例如

英语中的介词短语附着问题(PP-attachment problem)语言学的研究以及树库的出

现为我们提供了一套形式化的自然语言文法但是依照这一套文法建立的统计模

型不能很好的解决递归规则带来的歧义问题早期的基于简单 PCFG 模型的句法分

析器没能获得令人满意的结果恰好印证了这一点 从 Magerman 开始所有基于 PCFG 的模型都在沿着同样的思路进行即在

树库上进行文法改造(grammar refinement)无论是词汇化的句法分析模型将短语

中心词提升到短语标记中的做法还是非词汇化模型中将父亲节点的句法标记加入

到当前节点的句法标记中的做法或者采用拆分合并的操作将部分节点拆分成多个

次范畴化节点的做法都是出于改造树库句法的目的 至此我们可以得出一个结论提高基于 PCFG 的句法分析模型的分析精

度关键在于找到一套合适的文法使得根据这套句法建立的概率模型能够更好的

解决歧义问题重排序方法的出现让我们有可能在句法分析的过程中引入更多的

上下文有关的语言知识(非局部特征)使得树库文法在更多的细节上逼近原本的语

言文法因此采用重排序的方法可以使单个句法分析器的分析精度得到很大的提

高而句法分析器融合的方法为了解决单一句法分析模型解释能力有限的问题

将不同句法特征的分析器的优点结合起来从而取得更好的分析结果

三依存句法分析 5

依存句法分析(dependency parsing)是自然语言句法分析的另一基本技术其

任务是将句子由一个线性的词序列转化为一棵结构化的依存树(dependency tree)以依存弧反映词与词之间的依存关系弧首指向的词(从属词)依存于弧尾指向的词

(支配词)弧的类别表示两个词之间的依存关系依存句法分析可应用于关系抽取

(Culotta amp Sorensen 2004)机器翻译 (Ding amp Palmer 2005)本体构建 (Snow et al 2005)语义角色标记 (Surdeanu et al 2008)等具有广泛的应用背景国际会议

CoNLL 在 2006-2007 年连续两年举行多语言依存句法分析的国际评测(Buchholz amp Marsi 2006Nivre 2007)涵盖包括汉语在内的十几种语言其英文训练和测试语

料均转换自宾州大学英文树库而在 2008-2009 年则相应举办了依存句法分析与

语义角色标记联合学习的国际评测这些国际评测活动大大推动了依存句法分析技

术的发展 同短语句法分析一样目前依存句法分析模型大都基于数据驱动大体可以

分为两类基于图模式(graph-based)的和基于转换(transition-based)的依存句法分析

5 主笔赵海博士后研究员在近两届 CoNLL 依存句法分析评测中获多个第一和第二名现为上海交通大

学计算机系副教授任晓娜访问硕士研究生在读沈阳航空航天大学计算机系

- 9 -

模型前者将依存分析看成有向图中 大生成树的求解问题后者即将依存树的构

建分解为一序列动作由分类器根据当前状态来决定下一个分析动作 基于图的依存句法分析模型

基于图的依存句法分析模型需要为依存树制定一个权重分布而此整棵树的

权重通常分解为各条弧上的权重值的累计和在训练阶段模型学习从训练数据获

得权重分布函数中各个参数的值在测试阶段对给定的句子使用某种搜索算法

找出 优的依存树即具有 大的权重函数值的依存树各类基于图的依存句法分

析模型的区别主要体现在依存树概率函数的定义和搜索算法的不同上 具代表性工作的是 R McDonald 等人实现的 大跨度树(maximum span-

ning tree MST)模型(McDonald et al 2005 2005 2006)此模型将求解 佳分析转化

为寻找待分析句子 高权重的依存句法树问题参数学习采用在线学习算法(online learning algorithm)测试阶段(一阶生成树模型)则采用 Chu-Liu-Edmonds 大生成

树算法该算法具有 O(n2)的复杂度以宾州大学英文树库转换的依存句法分析语

料库做测试其性能 F 值达到 909 如果考虑高阶的跨度树模型典型的如二阶模型则不存在有效的可行算

法需要用一些近似算法来求解这一方面的典型工作可见 McDonald et al (2006)以及 Carreras (2007)高阶跨度树模型不再假定依存树中的弧之间是相互独立的

而是存在着某种联系在计算依存树权重时采用高阶特征即把相邻弧的信息也

作为特征考虑在内基于 CoNLL-2007 的评测该模型取得英文语料上的 佳性

能 这两种基于图的依存模型中弧(或生成树的边)的权重函数值都局限于局部

特征Nakagawa (2007)进一步利用依存树的全局特征将某一节点的兄弟和儿子

节点的信息同时考虑在内加以利用 基于转换的依存句法分析模型

基于转换的依存句法分析模型通过执行一连串动作(action)或转换(transition)

来构建依存树对一个句子将按特定的方向逐一取词进行分析每一步的分析过

程都根据当前状态作出决策采用哪种动作直至句子的 后一个词这样逐步形成

一个完整的依存树就是说任何一个依存树都可以转换到相应的连续动作串

动作的预测是基于已预测的动作所形成的子树各类基于转换的依存句法分析模型

的区别主要在于动作(或转换)策略的不同和估算动作概率所使用的机器学习模型

的不同例如支持向量机(SVM)和 大熵(ME)模型基于转换的依存句法分析的工

作以下决策式依存分析方法 具代表性 Yamada amp Matsumotoy (2003)给出了一个基于移进mdash规约(shift-reduce)算法

的多遍(multipass)决策式分析模型采用三种动作移进(shift)左弧(left-arc)和右

弧(right-arc)每次扫描整个句子通过 right 和 left 操作建立子树直到所有成分

都被挂在一个节点下面这个节点便是整棵依存树的根节点从而形成一棵依存

树其核心思想是针对当前节点对判断该采用哪种操作(shiftleft 或 right)也

- 10 -

就是看作一个三分类问题采用 SVM 来预测各类动作的概率分布Duan et al (2007)等人进一步扩展 Yamada 的分析动作如动作 left 扩展为 left-label(这里 label为某一依存关系标记)通过此扩展来同时预测两子树的依存关系 Nivre (2003)提出了一种类移进mdash规约的确定性依存句法分析算法该算法

中共有四种动作左弧(letf-arc)右弧(right-arc)规约(reduce)和移进(shift)Nivre (2004)又提出了类似由左向右自底向上的分析算法这是一个标准的自底向上的

移进mdash规约算法Titov amp Henderson (2007)同样使用 Nivre 定义的四种动作通过

使用潜在变量的方法获得条件特征从而更准确的计算各类动作的概率值 已有的工作显示依存句法分析的错误分布与所使用的模型相关包括基于

图的和基于转换的模型为更好地将两模型的优点结合起来Nivre amp McDonald (2008)尝试将两种模型进行融合以求得到更优的依存句法分析器其基本做法

是将其中一种模型(如基于图的模型MSTParser)所产生的特征用于另一个模型(如基于转换的模型MaltParser)实验结果显示相比于单独的 MSTParser往其中

添加 MaltParser 所产生的特征使得用来评估依存关系准确率的度量有标连接分 (labeled attachment score LAS)提高 170而往 MaltParser 中添加 MSTParser 产生

的特征则 LAS 提高 127可见此简单融合策略的功效 中文依存句法分析

CoNLL 评测任务(2006 和 2007)的评测是基于多语言的其使用的中文语料

为台湾中研院 Sinica 提供的中文依存句法分析语料 (Sinica 树库)CoNLL-2007 评

测的 优 LAS 值为 8469无标连接分(unlabeled attachment score UAS)值为

8894此前Jin et al ( 2005)通过扩展 Nivre(2003)的移进-归约算法为二阶段的

移进-归约算法在由宾州大学中文树库转化的中文依存语料上得到的依存准确

率为 8442较 Nivre (2003)算法提高 11 目前较常采用的词信息粒度为词性标记和词本身前者过于笼统而后者往

往过于具体引起数据稀疏问题为此Liu et al (2007)根据动词的语法规则对中

文动词进行分类并将分类后得到的动词子类信息应用于中文依存句法分析实验

显示动词的子类信息提高了依存句法分析的性能 我们的工作

在依存句法分析上我们的工作集中于特征提取在 CoNLL-2008 评测中

我们开始使用一种大规模的特征选择算法应用到基于转换的学习模式这一算法

帮助一个 大熵模型取得了优于 SVM 的分析性能(Zhao amp Kit 2008)在 CoNLL-2009 评测中我们继续采用这一策略并推广到包括语义的依存分析中取得了

联合学习部分的英语项目第一名的成绩并且在语义依存的多语种评测中同样总分

第一(Zhao et al 2009)在扩展特征部分我们考虑使用了双语特征我们在中英

文对齐的词典学习基础上同样针对中文取得了目前为止接近 好的性能

- 11 -

四机器翻译 6 在计算语言学的诸多研究领域中机器翻译可以说是 有特色也 能反映整

个领域研究现状的一个分支从上世纪 50 年代至今机器翻译的研究从朴素的词

典翻译到基于规则(rule-based MT)的方法进而发展到基于实例(example-based MT)和基于统计(statistical MT)的方法无不反映该领域当时 具代表性的研究方

法和手段可以认为机器翻译研究的进步是围绕着两个方面进行的第一是资

源即如何得到有效的语言资源第二是操作即如何利用这些资源进行有效的翻

译随着语料库建设和大规模真实文本的电子化基于统计的机器学习的方法从语

料库中获取语言知识的能力不断增强以及机器翻译模型和算法的发展和优化近

年机器翻译研究有了很大进步下面我们将从几个不同的侧重点来简要描述其当前

的发展状况 统计机器翻译 原理上统计机器翻译将翻译过程定义为一个随机过程用一个概率P来描述

一个源语言(S)句子 7转换或对应到一个目标语言(T)句子的机会也就是每个源

句都以一定的概率与某个目标句转换统计翻译就是求得此概率并在目标文本空间

搜寻能使此概率 大化的译文其基本假设是只要有足够大的语料和足够好的统

计方法我们就可以逼近真实翻译的概率分布整个过程似乎不需传统语言学的介

入可以在任意语言之间进行把翻译从一个语言处理问题转化为了一个数学计算

问题 1990 年IBM公司Watson研究中心的研究员Brown和同事在信息论的基础

上首次提出了信源信道(source-channel)模型 8(Brown et al 1990)把源语言句子

看作是目标语言句子通过某个受扰信道所产生的那么翻译就等于将源句ldquo还原rdquo为目标句的过程统计机器翻译所描述的问题原本形式化为

)|(maxarg STPT = 即求以源句 S 为条件下的概率 大的目标句 T在信源信道模型里通过贝叶斯定

理(Bayes Theorem)进行转换以后可以得到 )()|(maxarg TPTSPT = 9

这样统计翻译过程被拆分为对两个概率模型求 大组合概率的过程其中

P(S|T)称之为翻译模型反映源语言和目标语言的对应关系P(T)称为语言模型

反映的是目标语言的合理性即译文的流畅程度这个翻译框架的建立具有两个

极为深刻的意义一采用两个独立的子模型可以分别对翻译过程和结果生成进

行单独评估能更有效地优化翻译结果二分开不同功能的概率模型在方法论

上启发了后来使用更多特征的翻译框架同时也对译文的搜索过程施行更多的约

6 主笔宋彦在读博士生研究机器翻译应用机器翻译及机器学习方法参加上届音译(Transliteration)国际

评测获全部中文相关项目第一名 7 在统计机器翻译中通常是以句子为单位进行处理 8 因来源于信息论故也被称作噪声通道(noisy-channel)模型 9 在数学形式上这里需要假定 P(T)和 P(S|T)相互独立

- 12 -

束翻译模型和语言模型作为两个 基本的子模型在后来的统计机器翻译框架中

也都一直延用 其中翻译模型用于刻画源语言和目标语言之间的转换这种对应关系通常称之

为对齐(alignment)IBM 的研究者提出的翻译模型是在词对齐(word alignment)的基础上进行的一共有 5 个由简到繁的翻译模型通常称之为 IBM 模型 1~5 (Brown et al 1993)模型 1 中仅考虑了词翻译的概率模型 2 是在 1 的基础上加入

了某个词在句中位置的概率模型 34 和 5 又在前面模型的基础上分别加入了产

出率(Fertility即一个词翻译为多个词的概率)句子长度等信息逐步加入更多可

资利用的信息完善翻译过程 值得注意的是IBM采用的对齐方法它是在大规模句对齐的语料基础上进行

的计算源语和目标语言之间词语的共现关系从而确定源语词和目标语词是否构

成互为翻译的词对这种方法原理上不需要任何语言知识就可以自动地获得两语之

间词与词的对译关系只要已知的双语句子足够多就可以得到足够好的词对齐关

系以及相应的对齐概率IBM采用的对齐算法很自然就成为了统计机器翻译的基

石但由于当时计算机硬件条件的限制别人难以重复IBM小组的工作相关研究

因而也一度显得沉寂1999 年在约翰霍普金斯大学(John Hopkins University)举行

的机器翻译夏季研讨班(summer programs)上研究人员再现了当年IBM的工作并

推出开源的统计机器翻译工具包Egypt极大地推动了机器翻译研究的发展其

中词对齐工具Giza被同行广泛认同之后的升级版Giza++10更成为领域内标准的

词对齐工具对此后机器翻译发展产生了深远的影响

基于短语的和基于句法的翻译模型 机器翻译研究中如何得到较好的翻译模型始终是研究人员 为关注的问题

在研究基于词的方法时人们发现此翻译模型在处理句子结构时往往性能不佳主

要是此中涉及的词序调整存在先天缺陷基于词的简单调序模型仅能有效支持近距

离的调序致使在不同的语系(language families)之间进行翻译时 终译文在词序

上难免有较大的偏差无法生成合理词序的译文因此人们考虑将某些翻译片段

捆绑成相对固定的短语以避免一些无谓的调序错误这里所谓的短语不是通常

意义上的句法结构短语 11而是一些简单的多个词语组合因此也称之为非句法短

语采用非句法短语作为翻译单元具有非常高的鲁棒性(robustness)由于更大的

翻译颗粒度或者说更大的处理基元的引入使得对齐结果的再调整更可靠即

便短语内部出现错误的词对齐只要短语的边界识别正确整个短语的对齐仍然是

正确的另一方面已对齐的短语本身也可用作翻译实例在统计方面增强数据关

联除此之外由于翻译颗粒度的增大每次搜索翻译候选项时可以覆盖更大范围

的源文本因此通过调整合适的参数就可以显著提高翻译效率德国亚琛工业

大学的Och (2004)Zens (2002)以及美国南加州大学的Koehn (2003)等学者的研究

是这方面的代表

10 httpcodegooglecompgiza-pp 11 通常定义为可以作为一个完整句法子结构的短语

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 2: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 2 -

热望(以及几乎全部的科研经费)提出应着力于更基础的计算语言学诸问题的研

究经过近 10 年的低潮期该领域以 1970 年前后几个可实用的机器翻译系统(如METEO SYSTRAN)为引信80 年代中期逐步酝酿复苏90 年代初以机器翻译方

法论上的迭代更替为拐点加上语音处理和信息检索等以大规模实际数据评测推动

技术性突破而进入实用开发推波助澜进而蓬勃发展近年更得力于信息社会

特别是万维网等对语言处理技术的强烈需求进入研究开发的兴盛时期纵深发

展无论基础研究还是各个技术应用领域都有长足进步另外一些新兴领域

譬如生物信息学(bioinformatics)等也为计算语言学提供更迫切也更广阔的应用前

景 鉴于此学科涉及面很广分支也越分越细越多在一章的篇幅里很难全面勾

勒我们选择性介绍学科内若干代表性核心课题和富有前景的应用性技术包括自

动分词句法分析依存句法分析机器翻译及其评测文本情感分析和术语自动

识别为读者提供几个可藉以管窥全豹的切入点特别是我们将着重于国际水准

层面上的介绍尤其侧重在各大型国际评测中确认其尖端地位者值得引以为傲的

是其中不少也正是我们研究小组的具体成果故此下面各节特邀几位实际参

与各相应课题研究并获得突破进展的主要研究者来主笔确保技术细节的新颖和准

确到位

一自动分词 2

早也叫自动切词或断词任务非常明确就是识别出输入句子中的一个个

词或词汇层面的文本单元以供后续处理对于书写系统中没有诸如空格那样的分

隔符的语言譬如汉语此问题尤为严重 中文自动分词的一个重要前提是在计算的意义上可以清楚界定真实文本中

每个词的边界纯粹的语言学中词被定义为语言中有意义的可以独立使用的即

能单说的用来造句的 小语言单位然而中文分词技术却一度深受这一传统定

义的困挠因为对于成词与否的判断其实是颇主观的很大程度上有赖于执行

者的语感语言学知识和经验当人们使用这一定义来进行手工分词时其结果也

总难免因人而异即便在以汉语为母语的话者之间中文词的平均认同率其实也只

有 076 左右(Sproat et al 1996)这个定义无法确保人工操作上的一致性在计算上

的可执行性就更成问题 在作为中国国家标准公布的《信息处理用现代汉语分词规范》(国家技术监

督局1993)中计算机文本处理中的词被称为ldquo分词单位rdquo以区别于语言学中更

严格的ldquo词rdquo概念并按词类分别给出了各类分词单位的定义然而在许多地方也

只能把ldquo结合紧密使用稳定rdquo这样模糊的不可操作的描述奉为分词单位的界定准

则和这种模糊的分词标准相伴随的是一些基于词表的操作方法成为自动分词

基本的也是主流的技术可改进空间有限2003 年SIGHAN3举办了首届国际中

文分词评测Bakeoff (Sproat amp Emerson 2003)采用多家标注语料中已有的实际切

2 主笔赵海博士后研究员囊括 近两届 Bakeoff 所有自动分词封闭测试第一名现任职上海交通大学计

算机系副教授 3 SIGHAN 是国际计算语言学会(ACL)下属的汉语处理组的简称 网址 httpwwwsighanorg

- 3 -

分作为操作上的词的定义同时承认多重切分标准的存在得力于这些大规模语料

的支持分词进入了机器学习时代 很长时间以来研究人员一直把未登录(out-of-vocabulary OOV)词和分词歧

义并列为影响分词精度的两大因素在 Bakeoff 数据上用正向 大匹配(forward maximum matchingFMM)算法对每个语料库进行两种切分一种使用不含未登录

词的不完全词表作为基线(baseline)另一种使用涵盖未登录词的完全词表作为

顶线(topline)用作分词系统 起码和 高的两套性能指标惯常用 Fbase 和 Ftop 分

别表示基线和顶线的 F 值即精确率和召回率的调和平均值这样可用两者的

差 Ftop - Fbase 表示未登录词单独给分词系统带来的精度失落(Xue amp Shen 2003)也

可进一步用 1- Ftop表示分词歧义单独造成的分词精度失落(黄amp赵 2007) 下面的表一给出在 Bakeoff-2003 的四个语料库上用不含和已含未登录词的

词表进行 FMM 分词的诸性能对比数据显示未登录词造成的分词精度失落比

歧义切分造成的精度失落至少大 10 倍左右在此后的各届 Bakeoff 数据上也

能得到类似的统计结果在真实切分语料上获取的这些统计数据在很大程度上颠

覆了以往对错切原因的一些想当然的认识具指导性意义

语料库 AS2003 CityU2003 CTB2003 PKU2003顶线 Ftop 0992 0989 0985 0995 基线 Fbase 0915 0867 0725 0867

Ftop-Fbase 0077 0122 0260 0128 1-Ftop 0008 0011 0015 0005 比率 96 111 173 256

表一 Bakeoff-2003 语料库上 FMM 分词性能对比(黄amp赵 2007)

跳出依赖于与已知词进行字符串匹配的旧框框在 Bakeoff 评测活动中研

究者们发展了一种目前居于主流地位的字标注分词方法标注出每个字在一个词中

充当的位置角色例如词头词尾或词中等把切分问题转换成字标注(即分类)问题也即是典型的机器学习问题进而利用各种现行的机器学习模型求解 优答

案 这种方法 早见于 Xue amp Converse (2002)和 Xue amp Shen (2003)他们的分词

系统使用了四种标记并将 大熵机器学习模型运用于字标记的学习和推测后继

的研究者尝试不同的标记集和性能更好的机器学习方法例如条件随机场(CRFs)模型(Peng et al 2004)稍后的第三届 Bakeoff沿用此技术路线的几个分词系统特

别是 Tseng (2005)和 Low(2005) 在切分标准不同的语料上都取得了令人瞩目的结

果几乎囊括所有的第一名前者证明 CRFs 在分词标注学习中是一种更为有效的

学习工具后者发展出多种有效的扩展标注语料的开放学习方法在第三届 Bake-off 上Zhao et al (2006) 对这一技术进行了进一步的探索其六标记的字标注集以

及相应优化的特征模版集的使用将分词精度推进到了一个新的高度在一定程度

上这相当于针对这一任务寻找一种近乎 优化的标注和特征模版集

- 4 -

在 近的第四届 Bakeoff 上此一标注集被各参赛者广泛采用事实上成为

范例性标注集在此基础上Zhao amp Kit (2008 2010) 进一步将无指导(unsupervised)词汇学习方法引入到字标注机器学习的分词方法中来从而创出一种类似半监督

(semi-supervised) 的学习方法实践证明该方法具有极强的适应性在分词标准各

不相同的语料中都取得了极好的效果囊括此届 Bakeoff 全部五项封闭测试的第一

名此外无监督学习方法的引入使得利用大规模未标注语料提高分词精度的设

想成为可能为自动分词技术的发展提供了新的方向

二自动句法分析 4

惯指旨在导出句子的短语或成分结构树的句法分析是自然语言处理的基本

问题之一各种自然语言处理应用技术例如信息抽取机器翻译和语音识别等

在很大程度上都依赖于高精度的句法分析结果近年来在大量人工标记的树库等

有用资源不断涌现的背景下自动句法分析技术取得了引人注目的进展但是若

从高端应用的角度来审视其技术水平进一步的突破对于自然语言处理学者来

说仍是巨大挑战 句法分析首先需要依照某种统一的形式化方法人工构建一套文法

(grammar)通常这套文法的每条规则都可以含有很多附加的选择性限制条件

用以解决或减轻句法分析的一个基本问题结构性歧义但这种方法也有着明

显的缺点当处理大规模多领域的文档时词表数量的激增和位置语法现象的出

现都会使这样一套文法的构建变得十分困难甚至不可能尤有甚者句法分析

中歧义结构的取舍常常不是简单的二值问题往往需要更深层的句法语义信息 为了解决这些问题统计的方法近年被引入句法分析树库数据的出现更

是为概率句法分析提供了必要的训练资源一些早期的研究探索了概率上下文无关

文法(probabilistic context-free grammarPCFG)在自然语言句法分析中的应用希

望利用 PCFG 本身的消解句法分析中结构歧义的能力实现自动的自然语言句法分

析但这尝试并未获得成功Charniak (1997)的实验证明纯粹的 PCFG 模型只能在

英文树库上达到 70左右的精度主要是分析精度无法满足实用需求此后基

于 PCFG 的许多句法分析模型渐渐发展起来并且取得了一些突破以下是一些主要

方法 词汇化的 PCFG 模型

首先Magerman (1995)指出词汇和上下文信息会对句法分析的结果产生重

大影响他的实验结果也证明了引入词汇化信息的模型要远好于之前的基于简单

PCFG 的模型此后Collins (1997)在 Magerman 的基础之上提出了 3 个词汇化

(lexicalized)的概率句法分析模型使得 PCFG 框架下的概率句法分析精度得到显著

的提高Collins 模型引入依存语法(dependency grammar)的概念对句法树进行词

4 主笔陈晓在读博士生在中文信息学会句法分析评测 CIPS-ParsEval-2009 中获句法结构树分析第一名

- 5 -

汇化(lexicalization)在词汇化的句法树库中句法规则的概率被分解成构成该句

法规则的一组依存关系的概率的乘积这种概率估计方法还很大程度上解决了估计

PCFG 模型参数时遇到的数据稀疏问题此外Collins 还在他的模型中为英语句法

分析中一些难点如 PP-attachment 等设计了相应的特征使得他的模型在英文

句法分析方面取得了很高的精度同样值得一提的是后来 Charniak(2000)采用和

Collins 相似的词汇化方法在更高阶的马尔科夫语法和对数线性公式的帮助下

使得基于英文树库上的句法分析结果进一步提高 Bikel (2004)重新实现 Collins 模型并且更深入地探讨了这个模型中一些能

对 终句法分析精度产生较大影响的细节Bikel 在他的博士论文中将 Collins 模型

应用于中文和阿拉伯语的句法分析中同样取得了不错的成绩 Collins 提出的基于词汇化 PCFG 的模型显著地提高了适应能力使得句法

分析器在处理不同领域文档时可以保持较高的精度但是Collins 的模型也有其

不足之处首先Collins 的模型本身十分复杂从而导致实现细节会对句法分析

精度产生较大的影响其次Collins 模型的特征设计有明显的语言依赖性这就

使得模型的一般性略显不足 非词汇化的 PCFG 模型

随着词汇化 PCFG 模型的提出并取得成功词汇化便成为了句法分析的主

流但是一部分学者(Gildea 2001 Bikel 2004)通过实验发现词汇化的依存关

系在 Collins 模型中所起的作用并不像期望中那么大词汇化的做法还带来了模型

复杂度的显著增加在这样的背景下一种改进的非词汇化(unlexicalized)的句法分

析模型开始引起关注 Klein amp Manning (2003a)针对非词汇化的 PCFG 句法分析模型进行了探索

通过对句法树的马尔科夫化以及根据语言学知识对部分句法标记进行拆分等一些

非词汇化方法对句法树库进行改造并且利用简单的 大似然法估计句法规则的概

率他们的实验表明这样可以大幅提高非词汇化句法分析器的精度甚至超越一些

早期的词汇化句法分析器的性能 Matsuzaki (2005)引入了潜在变量的概念对原有树库的句法进行改造这

种改造与(Klein amp Manning2003)在本质上是相通的但是他不利用语言学知识来

指导句法标记的拆分而是采用 EM 算法从句法树库中习得潜在变量用以拆分句

法标记 Petrov et al (2006 2007)在前人工作的基础上提出一套自动改造句法树库的

方法通过拆分合并和平滑三个步骤改造现有树库句法以提高句法对于语料的

解释能力同时还利用句法改造迭代过程中产生的中间句法设计出一种由粗及

细的句法分析算法从而解决句法改造后句法规则的数量明显增加而导致的句法分

析效率低下的问题在英文中文和德文的树库上进行了实验结果表明这种非词

汇化句法分析模型在这三种语言上都可以达到较高的精度 相对于词汇化的句法分析模型非词汇化句法分析模型有一些明显的优势

首先非词汇化模型相对简洁其次非词汇化模型不依赖于短语结构中的中心

词这意味着非词汇化模型可以做到与语言无关用一个统一的模型来处理不同的

- 6 -

语言 后非词汇化的句法分析模型是一个自动化程度较高的模型基本不用人

类的语言知识 因子化的模型

Klein amp Manning (2003b)提出因子化(factored)的句法分析模型这种模型可

以看做是对词汇化句法分析模型的简化有别于 Collins 将依存语法的概念引入到

传统的 PCFG 模型Klein amp Manning(2003b)将 PCFG 模型和依存语法模型分列为

两个因子即 P(T D)=P(T)P(D)其中 P(T)和 P(D)分别表示两个模型估算出的概

率这种方法相对于词汇化的句法分析模型也要简化许多可以提高句法分析的效

率同时提供相近的分析精度

基于分类的句法分析 Ratnaparkhi (1999)首先将分类器引入句法分析形成基于分类(classification

based)的句法分析方法与基于 PCFG 的句法分析方法略有不同一般来说后者

将句法树的概率定义为生成该句法树所用的所有句法规则的概率的乘积而基于分

类器的句法分析方法则采用移进-归约算法来产生句法树因此句法树的概率

相应定义为移进-归约过程中的每一个ldquo动作rdquo的概率的乘积 Sagae amp Lavie (2005)将树库二叉化之后利用 SVM 分类器只实现一个快速产

生 1-best 句法树的句法分析器其精度就已超过 Ratnaparkhi 的句法分析器Wang et al (2006)在中文树库上使用多种分类器进行了实验结果表明 SVM 在中文句法

分析中的表现优于其它分类器 Tsuruoka et al (2009)使用线性链的 CRF 模型来做句法分析其方法与移进-

归约式的句法分析方法很相似但由于模型的不同使用 CRF 的句法分析器将

句法分析视为一系列的串标注问题一层一层自底向上将句中的词规约到句法树的

根节点实验表明这种方法的分析效率很高但是分析精度与比较优秀的词汇化

或非词汇化的 PCFG 句法分析器相比还有一定差距 判别式的重排序

以上的句法分析模型都可以归入一个大类即基于历史(history-based)的模

型因为在这些模型中句法树的产生被描述为一个决策序列句法树的概率就等于

这一系列决策的概率的乘积此类模型在句法分析方面取得了一定的成功但想继

续向其中添加特征时却遇到了困难因为新的特征与这种模型的句法树产生过

程不兼容为了解决这个问题重排序(reranking)的方法被引入作为句法分析的

后处理步骤将更多的上下文信息长距离依存信息甚至浅层语义信息加入到句

法分析的过程中去希望藉此获得更高的分析精度 Collins (2000)首先提出了使用逻辑回归(logistic regression)模型来尝试句法分

析结果的重排序逻辑回归模型的特性决定了我们可以任意设定特征而无需做独立

性假设Collins 同时引入了 Boosting 算法来对重排序模型进行参数优化根据

- 7 -

Collins 在 WSJ 数据集上的实验这种以后处理模式加入的重排序方法可以在

Collins (1999)模型二的基础上将句法分析 F 值提高 15相当显著 Charniak amp Johnson (2005)则采用和 Collins 十分类似的方法进行重排序但

引入了更多更复杂的上下文特征此外他们的贡献还在于他提出了一种两步式由

粗及细的句法分析方法用以降低在模型比较复杂的情况下使用动态规划算法得

到 n-best 输出时效率低下的问题 重排序的方法作为句法分析器的后处理步骤对句法分析器的 n-best 输出结

果进行重新评分和排序又进一步提高精度的效果但是这样做的问题在于 n-best 输出只是一个很小的选择范围通常我们会发现句法分析器的 n-best 输出之

间差距其实很小据统计大约有 41的正确句法树不包含在句法分析器的 30-best 输出中为此Huang (2008)提出了一种新的森林重排序(forest reranking)的方

法用来扩展重排序的施用空间要点是将重排序嵌入到传统的句法分析过程中

重排序的特征分为两种类型即局部特征和非局部特征当整个森林建立起来之

后局部特征可以预先生成而非局部特征则在解码过程中增量地产生为了解决

效率问题 Huang (2008)还设计了一种近似的解码方法使得训练时间缩短到可接

受的范围之内到目前为止采用重排序方法的单一句法分析器在英文树库中取得

了 优秀的成绩

句法分析器的融合 在单一句法分析模型和重排序技术都很难进一步提升句法分析精度的时候

多个句法分析器的系统融合(parser combination)是改进句法分析质量的另一条途

径目前句法分析器的融合有两种方式句法树选择(parse selection)和成分重组

(constituent recombination) Henderson amp Brill (1999)首先提出这两种方法在实验中使用三个句法分析

器的 1-best 输出结果相对于单个句法分析器的 好成绩有 1的提高Sagae amp Lavie(2006)在其成分投票机制的基础之上引入了二次句法分析(re-parsing)的方法

利用投票所得的各个句法成分的权重对测试句进行第二次的句法分析藉此获得一

棵没有括号交叉的合法的句法树在 WSJ 数据集上取得和前者大体相似的成绩 Fossum amp Knight (2009)对以上两种方法进行了扩展前两者都只使用了各

个句法分析器的 1-best 输出结果而他们则利用各个句法分析器的 n-best 输出结果

进行融合同时他们发现成分重组的方法会产生结构上过于平坦的树虽然在

目前的句法分析评测中可以取得比较好的成绩但这种病态结构的树会对后续的应

用造成影响为此提出了另一种产生式重组的方法可视为对成分重组方法的改

进在 WSJ 数据集上实验结果表明相对于其他两种方法成分重组的方法有微

弱的优势针对成分重组方法的这个问题 Chen et al (2009)尝试了另一种解决方

案即利用训练树库中习的句法规则来限制成分重组的过程使得成分重组生成的

句法树完全遵守树库句法 Chen et al (2009)在清华大学汉语树库上的实验结果表明这种受限的成分

重组方法表现略好于传统的成分重组方法同时也能较好地解决句法树树结构过

于平坦的问题

- 8 -

小结

纵观上述主流的句法分析方法我们可以看到单一句法分析模型近年的发展

过程在 PCFG 的框架下词汇化和非词汇化看起来是两条相反的路线但是我

们可以从另一个角度找到这两种方法的共同点自然语言的文法含有递归的句法规

则(recursive rules)这种规则容易在句法分析过程中造成句法树的结构歧义例如

英语中的介词短语附着问题(PP-attachment problem)语言学的研究以及树库的出

现为我们提供了一套形式化的自然语言文法但是依照这一套文法建立的统计模

型不能很好的解决递归规则带来的歧义问题早期的基于简单 PCFG 模型的句法分

析器没能获得令人满意的结果恰好印证了这一点 从 Magerman 开始所有基于 PCFG 的模型都在沿着同样的思路进行即在

树库上进行文法改造(grammar refinement)无论是词汇化的句法分析模型将短语

中心词提升到短语标记中的做法还是非词汇化模型中将父亲节点的句法标记加入

到当前节点的句法标记中的做法或者采用拆分合并的操作将部分节点拆分成多个

次范畴化节点的做法都是出于改造树库句法的目的 至此我们可以得出一个结论提高基于 PCFG 的句法分析模型的分析精

度关键在于找到一套合适的文法使得根据这套句法建立的概率模型能够更好的

解决歧义问题重排序方法的出现让我们有可能在句法分析的过程中引入更多的

上下文有关的语言知识(非局部特征)使得树库文法在更多的细节上逼近原本的语

言文法因此采用重排序的方法可以使单个句法分析器的分析精度得到很大的提

高而句法分析器融合的方法为了解决单一句法分析模型解释能力有限的问题

将不同句法特征的分析器的优点结合起来从而取得更好的分析结果

三依存句法分析 5

依存句法分析(dependency parsing)是自然语言句法分析的另一基本技术其

任务是将句子由一个线性的词序列转化为一棵结构化的依存树(dependency tree)以依存弧反映词与词之间的依存关系弧首指向的词(从属词)依存于弧尾指向的词

(支配词)弧的类别表示两个词之间的依存关系依存句法分析可应用于关系抽取

(Culotta amp Sorensen 2004)机器翻译 (Ding amp Palmer 2005)本体构建 (Snow et al 2005)语义角色标记 (Surdeanu et al 2008)等具有广泛的应用背景国际会议

CoNLL 在 2006-2007 年连续两年举行多语言依存句法分析的国际评测(Buchholz amp Marsi 2006Nivre 2007)涵盖包括汉语在内的十几种语言其英文训练和测试语

料均转换自宾州大学英文树库而在 2008-2009 年则相应举办了依存句法分析与

语义角色标记联合学习的国际评测这些国际评测活动大大推动了依存句法分析技

术的发展 同短语句法分析一样目前依存句法分析模型大都基于数据驱动大体可以

分为两类基于图模式(graph-based)的和基于转换(transition-based)的依存句法分析

5 主笔赵海博士后研究员在近两届 CoNLL 依存句法分析评测中获多个第一和第二名现为上海交通大

学计算机系副教授任晓娜访问硕士研究生在读沈阳航空航天大学计算机系

- 9 -

模型前者将依存分析看成有向图中 大生成树的求解问题后者即将依存树的构

建分解为一序列动作由分类器根据当前状态来决定下一个分析动作 基于图的依存句法分析模型

基于图的依存句法分析模型需要为依存树制定一个权重分布而此整棵树的

权重通常分解为各条弧上的权重值的累计和在训练阶段模型学习从训练数据获

得权重分布函数中各个参数的值在测试阶段对给定的句子使用某种搜索算法

找出 优的依存树即具有 大的权重函数值的依存树各类基于图的依存句法分

析模型的区别主要体现在依存树概率函数的定义和搜索算法的不同上 具代表性工作的是 R McDonald 等人实现的 大跨度树(maximum span-

ning tree MST)模型(McDonald et al 2005 2005 2006)此模型将求解 佳分析转化

为寻找待分析句子 高权重的依存句法树问题参数学习采用在线学习算法(online learning algorithm)测试阶段(一阶生成树模型)则采用 Chu-Liu-Edmonds 大生成

树算法该算法具有 O(n2)的复杂度以宾州大学英文树库转换的依存句法分析语

料库做测试其性能 F 值达到 909 如果考虑高阶的跨度树模型典型的如二阶模型则不存在有效的可行算

法需要用一些近似算法来求解这一方面的典型工作可见 McDonald et al (2006)以及 Carreras (2007)高阶跨度树模型不再假定依存树中的弧之间是相互独立的

而是存在着某种联系在计算依存树权重时采用高阶特征即把相邻弧的信息也

作为特征考虑在内基于 CoNLL-2007 的评测该模型取得英文语料上的 佳性

能 这两种基于图的依存模型中弧(或生成树的边)的权重函数值都局限于局部

特征Nakagawa (2007)进一步利用依存树的全局特征将某一节点的兄弟和儿子

节点的信息同时考虑在内加以利用 基于转换的依存句法分析模型

基于转换的依存句法分析模型通过执行一连串动作(action)或转换(transition)

来构建依存树对一个句子将按特定的方向逐一取词进行分析每一步的分析过

程都根据当前状态作出决策采用哪种动作直至句子的 后一个词这样逐步形成

一个完整的依存树就是说任何一个依存树都可以转换到相应的连续动作串

动作的预测是基于已预测的动作所形成的子树各类基于转换的依存句法分析模型

的区别主要在于动作(或转换)策略的不同和估算动作概率所使用的机器学习模型

的不同例如支持向量机(SVM)和 大熵(ME)模型基于转换的依存句法分析的工

作以下决策式依存分析方法 具代表性 Yamada amp Matsumotoy (2003)给出了一个基于移进mdash规约(shift-reduce)算法

的多遍(multipass)决策式分析模型采用三种动作移进(shift)左弧(left-arc)和右

弧(right-arc)每次扫描整个句子通过 right 和 left 操作建立子树直到所有成分

都被挂在一个节点下面这个节点便是整棵依存树的根节点从而形成一棵依存

树其核心思想是针对当前节点对判断该采用哪种操作(shiftleft 或 right)也

- 10 -

就是看作一个三分类问题采用 SVM 来预测各类动作的概率分布Duan et al (2007)等人进一步扩展 Yamada 的分析动作如动作 left 扩展为 left-label(这里 label为某一依存关系标记)通过此扩展来同时预测两子树的依存关系 Nivre (2003)提出了一种类移进mdash规约的确定性依存句法分析算法该算法

中共有四种动作左弧(letf-arc)右弧(right-arc)规约(reduce)和移进(shift)Nivre (2004)又提出了类似由左向右自底向上的分析算法这是一个标准的自底向上的

移进mdash规约算法Titov amp Henderson (2007)同样使用 Nivre 定义的四种动作通过

使用潜在变量的方法获得条件特征从而更准确的计算各类动作的概率值 已有的工作显示依存句法分析的错误分布与所使用的模型相关包括基于

图的和基于转换的模型为更好地将两模型的优点结合起来Nivre amp McDonald (2008)尝试将两种模型进行融合以求得到更优的依存句法分析器其基本做法

是将其中一种模型(如基于图的模型MSTParser)所产生的特征用于另一个模型(如基于转换的模型MaltParser)实验结果显示相比于单独的 MSTParser往其中

添加 MaltParser 所产生的特征使得用来评估依存关系准确率的度量有标连接分 (labeled attachment score LAS)提高 170而往 MaltParser 中添加 MSTParser 产生

的特征则 LAS 提高 127可见此简单融合策略的功效 中文依存句法分析

CoNLL 评测任务(2006 和 2007)的评测是基于多语言的其使用的中文语料

为台湾中研院 Sinica 提供的中文依存句法分析语料 (Sinica 树库)CoNLL-2007 评

测的 优 LAS 值为 8469无标连接分(unlabeled attachment score UAS)值为

8894此前Jin et al ( 2005)通过扩展 Nivre(2003)的移进-归约算法为二阶段的

移进-归约算法在由宾州大学中文树库转化的中文依存语料上得到的依存准确

率为 8442较 Nivre (2003)算法提高 11 目前较常采用的词信息粒度为词性标记和词本身前者过于笼统而后者往

往过于具体引起数据稀疏问题为此Liu et al (2007)根据动词的语法规则对中

文动词进行分类并将分类后得到的动词子类信息应用于中文依存句法分析实验

显示动词的子类信息提高了依存句法分析的性能 我们的工作

在依存句法分析上我们的工作集中于特征提取在 CoNLL-2008 评测中

我们开始使用一种大规模的特征选择算法应用到基于转换的学习模式这一算法

帮助一个 大熵模型取得了优于 SVM 的分析性能(Zhao amp Kit 2008)在 CoNLL-2009 评测中我们继续采用这一策略并推广到包括语义的依存分析中取得了

联合学习部分的英语项目第一名的成绩并且在语义依存的多语种评测中同样总分

第一(Zhao et al 2009)在扩展特征部分我们考虑使用了双语特征我们在中英

文对齐的词典学习基础上同样针对中文取得了目前为止接近 好的性能

- 11 -

四机器翻译 6 在计算语言学的诸多研究领域中机器翻译可以说是 有特色也 能反映整

个领域研究现状的一个分支从上世纪 50 年代至今机器翻译的研究从朴素的词

典翻译到基于规则(rule-based MT)的方法进而发展到基于实例(example-based MT)和基于统计(statistical MT)的方法无不反映该领域当时 具代表性的研究方

法和手段可以认为机器翻译研究的进步是围绕着两个方面进行的第一是资

源即如何得到有效的语言资源第二是操作即如何利用这些资源进行有效的翻

译随着语料库建设和大规模真实文本的电子化基于统计的机器学习的方法从语

料库中获取语言知识的能力不断增强以及机器翻译模型和算法的发展和优化近

年机器翻译研究有了很大进步下面我们将从几个不同的侧重点来简要描述其当前

的发展状况 统计机器翻译 原理上统计机器翻译将翻译过程定义为一个随机过程用一个概率P来描述

一个源语言(S)句子 7转换或对应到一个目标语言(T)句子的机会也就是每个源

句都以一定的概率与某个目标句转换统计翻译就是求得此概率并在目标文本空间

搜寻能使此概率 大化的译文其基本假设是只要有足够大的语料和足够好的统

计方法我们就可以逼近真实翻译的概率分布整个过程似乎不需传统语言学的介

入可以在任意语言之间进行把翻译从一个语言处理问题转化为了一个数学计算

问题 1990 年IBM公司Watson研究中心的研究员Brown和同事在信息论的基础

上首次提出了信源信道(source-channel)模型 8(Brown et al 1990)把源语言句子

看作是目标语言句子通过某个受扰信道所产生的那么翻译就等于将源句ldquo还原rdquo为目标句的过程统计机器翻译所描述的问题原本形式化为

)|(maxarg STPT = 即求以源句 S 为条件下的概率 大的目标句 T在信源信道模型里通过贝叶斯定

理(Bayes Theorem)进行转换以后可以得到 )()|(maxarg TPTSPT = 9

这样统计翻译过程被拆分为对两个概率模型求 大组合概率的过程其中

P(S|T)称之为翻译模型反映源语言和目标语言的对应关系P(T)称为语言模型

反映的是目标语言的合理性即译文的流畅程度这个翻译框架的建立具有两个

极为深刻的意义一采用两个独立的子模型可以分别对翻译过程和结果生成进

行单独评估能更有效地优化翻译结果二分开不同功能的概率模型在方法论

上启发了后来使用更多特征的翻译框架同时也对译文的搜索过程施行更多的约

6 主笔宋彦在读博士生研究机器翻译应用机器翻译及机器学习方法参加上届音译(Transliteration)国际

评测获全部中文相关项目第一名 7 在统计机器翻译中通常是以句子为单位进行处理 8 因来源于信息论故也被称作噪声通道(noisy-channel)模型 9 在数学形式上这里需要假定 P(T)和 P(S|T)相互独立

- 12 -

束翻译模型和语言模型作为两个 基本的子模型在后来的统计机器翻译框架中

也都一直延用 其中翻译模型用于刻画源语言和目标语言之间的转换这种对应关系通常称之

为对齐(alignment)IBM 的研究者提出的翻译模型是在词对齐(word alignment)的基础上进行的一共有 5 个由简到繁的翻译模型通常称之为 IBM 模型 1~5 (Brown et al 1993)模型 1 中仅考虑了词翻译的概率模型 2 是在 1 的基础上加入

了某个词在句中位置的概率模型 34 和 5 又在前面模型的基础上分别加入了产

出率(Fertility即一个词翻译为多个词的概率)句子长度等信息逐步加入更多可

资利用的信息完善翻译过程 值得注意的是IBM采用的对齐方法它是在大规模句对齐的语料基础上进行

的计算源语和目标语言之间词语的共现关系从而确定源语词和目标语词是否构

成互为翻译的词对这种方法原理上不需要任何语言知识就可以自动地获得两语之

间词与词的对译关系只要已知的双语句子足够多就可以得到足够好的词对齐关

系以及相应的对齐概率IBM采用的对齐算法很自然就成为了统计机器翻译的基

石但由于当时计算机硬件条件的限制别人难以重复IBM小组的工作相关研究

因而也一度显得沉寂1999 年在约翰霍普金斯大学(John Hopkins University)举行

的机器翻译夏季研讨班(summer programs)上研究人员再现了当年IBM的工作并

推出开源的统计机器翻译工具包Egypt极大地推动了机器翻译研究的发展其

中词对齐工具Giza被同行广泛认同之后的升级版Giza++10更成为领域内标准的

词对齐工具对此后机器翻译发展产生了深远的影响

基于短语的和基于句法的翻译模型 机器翻译研究中如何得到较好的翻译模型始终是研究人员 为关注的问题

在研究基于词的方法时人们发现此翻译模型在处理句子结构时往往性能不佳主

要是此中涉及的词序调整存在先天缺陷基于词的简单调序模型仅能有效支持近距

离的调序致使在不同的语系(language families)之间进行翻译时 终译文在词序

上难免有较大的偏差无法生成合理词序的译文因此人们考虑将某些翻译片段

捆绑成相对固定的短语以避免一些无谓的调序错误这里所谓的短语不是通常

意义上的句法结构短语 11而是一些简单的多个词语组合因此也称之为非句法短

语采用非句法短语作为翻译单元具有非常高的鲁棒性(robustness)由于更大的

翻译颗粒度或者说更大的处理基元的引入使得对齐结果的再调整更可靠即

便短语内部出现错误的词对齐只要短语的边界识别正确整个短语的对齐仍然是

正确的另一方面已对齐的短语本身也可用作翻译实例在统计方面增强数据关

联除此之外由于翻译颗粒度的增大每次搜索翻译候选项时可以覆盖更大范围

的源文本因此通过调整合适的参数就可以显著提高翻译效率德国亚琛工业

大学的Och (2004)Zens (2002)以及美国南加州大学的Koehn (2003)等学者的研究

是这方面的代表

10 httpcodegooglecompgiza-pp 11 通常定义为可以作为一个完整句法子结构的短语

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 3: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 3 -

分作为操作上的词的定义同时承认多重切分标准的存在得力于这些大规模语料

的支持分词进入了机器学习时代 很长时间以来研究人员一直把未登录(out-of-vocabulary OOV)词和分词歧

义并列为影响分词精度的两大因素在 Bakeoff 数据上用正向 大匹配(forward maximum matchingFMM)算法对每个语料库进行两种切分一种使用不含未登录

词的不完全词表作为基线(baseline)另一种使用涵盖未登录词的完全词表作为

顶线(topline)用作分词系统 起码和 高的两套性能指标惯常用 Fbase 和 Ftop 分

别表示基线和顶线的 F 值即精确率和召回率的调和平均值这样可用两者的

差 Ftop - Fbase 表示未登录词单独给分词系统带来的精度失落(Xue amp Shen 2003)也

可进一步用 1- Ftop表示分词歧义单独造成的分词精度失落(黄amp赵 2007) 下面的表一给出在 Bakeoff-2003 的四个语料库上用不含和已含未登录词的

词表进行 FMM 分词的诸性能对比数据显示未登录词造成的分词精度失落比

歧义切分造成的精度失落至少大 10 倍左右在此后的各届 Bakeoff 数据上也

能得到类似的统计结果在真实切分语料上获取的这些统计数据在很大程度上颠

覆了以往对错切原因的一些想当然的认识具指导性意义

语料库 AS2003 CityU2003 CTB2003 PKU2003顶线 Ftop 0992 0989 0985 0995 基线 Fbase 0915 0867 0725 0867

Ftop-Fbase 0077 0122 0260 0128 1-Ftop 0008 0011 0015 0005 比率 96 111 173 256

表一 Bakeoff-2003 语料库上 FMM 分词性能对比(黄amp赵 2007)

跳出依赖于与已知词进行字符串匹配的旧框框在 Bakeoff 评测活动中研

究者们发展了一种目前居于主流地位的字标注分词方法标注出每个字在一个词中

充当的位置角色例如词头词尾或词中等把切分问题转换成字标注(即分类)问题也即是典型的机器学习问题进而利用各种现行的机器学习模型求解 优答

案 这种方法 早见于 Xue amp Converse (2002)和 Xue amp Shen (2003)他们的分词

系统使用了四种标记并将 大熵机器学习模型运用于字标记的学习和推测后继

的研究者尝试不同的标记集和性能更好的机器学习方法例如条件随机场(CRFs)模型(Peng et al 2004)稍后的第三届 Bakeoff沿用此技术路线的几个分词系统特

别是 Tseng (2005)和 Low(2005) 在切分标准不同的语料上都取得了令人瞩目的结

果几乎囊括所有的第一名前者证明 CRFs 在分词标注学习中是一种更为有效的

学习工具后者发展出多种有效的扩展标注语料的开放学习方法在第三届 Bake-off 上Zhao et al (2006) 对这一技术进行了进一步的探索其六标记的字标注集以

及相应优化的特征模版集的使用将分词精度推进到了一个新的高度在一定程度

上这相当于针对这一任务寻找一种近乎 优化的标注和特征模版集

- 4 -

在 近的第四届 Bakeoff 上此一标注集被各参赛者广泛采用事实上成为

范例性标注集在此基础上Zhao amp Kit (2008 2010) 进一步将无指导(unsupervised)词汇学习方法引入到字标注机器学习的分词方法中来从而创出一种类似半监督

(semi-supervised) 的学习方法实践证明该方法具有极强的适应性在分词标准各

不相同的语料中都取得了极好的效果囊括此届 Bakeoff 全部五项封闭测试的第一

名此外无监督学习方法的引入使得利用大规模未标注语料提高分词精度的设

想成为可能为自动分词技术的发展提供了新的方向

二自动句法分析 4

惯指旨在导出句子的短语或成分结构树的句法分析是自然语言处理的基本

问题之一各种自然语言处理应用技术例如信息抽取机器翻译和语音识别等

在很大程度上都依赖于高精度的句法分析结果近年来在大量人工标记的树库等

有用资源不断涌现的背景下自动句法分析技术取得了引人注目的进展但是若

从高端应用的角度来审视其技术水平进一步的突破对于自然语言处理学者来

说仍是巨大挑战 句法分析首先需要依照某种统一的形式化方法人工构建一套文法

(grammar)通常这套文法的每条规则都可以含有很多附加的选择性限制条件

用以解决或减轻句法分析的一个基本问题结构性歧义但这种方法也有着明

显的缺点当处理大规模多领域的文档时词表数量的激增和位置语法现象的出

现都会使这样一套文法的构建变得十分困难甚至不可能尤有甚者句法分析

中歧义结构的取舍常常不是简单的二值问题往往需要更深层的句法语义信息 为了解决这些问题统计的方法近年被引入句法分析树库数据的出现更

是为概率句法分析提供了必要的训练资源一些早期的研究探索了概率上下文无关

文法(probabilistic context-free grammarPCFG)在自然语言句法分析中的应用希

望利用 PCFG 本身的消解句法分析中结构歧义的能力实现自动的自然语言句法分

析但这尝试并未获得成功Charniak (1997)的实验证明纯粹的 PCFG 模型只能在

英文树库上达到 70左右的精度主要是分析精度无法满足实用需求此后基

于 PCFG 的许多句法分析模型渐渐发展起来并且取得了一些突破以下是一些主要

方法 词汇化的 PCFG 模型

首先Magerman (1995)指出词汇和上下文信息会对句法分析的结果产生重

大影响他的实验结果也证明了引入词汇化信息的模型要远好于之前的基于简单

PCFG 的模型此后Collins (1997)在 Magerman 的基础之上提出了 3 个词汇化

(lexicalized)的概率句法分析模型使得 PCFG 框架下的概率句法分析精度得到显著

的提高Collins 模型引入依存语法(dependency grammar)的概念对句法树进行词

4 主笔陈晓在读博士生在中文信息学会句法分析评测 CIPS-ParsEval-2009 中获句法结构树分析第一名

- 5 -

汇化(lexicalization)在词汇化的句法树库中句法规则的概率被分解成构成该句

法规则的一组依存关系的概率的乘积这种概率估计方法还很大程度上解决了估计

PCFG 模型参数时遇到的数据稀疏问题此外Collins 还在他的模型中为英语句法

分析中一些难点如 PP-attachment 等设计了相应的特征使得他的模型在英文

句法分析方面取得了很高的精度同样值得一提的是后来 Charniak(2000)采用和

Collins 相似的词汇化方法在更高阶的马尔科夫语法和对数线性公式的帮助下

使得基于英文树库上的句法分析结果进一步提高 Bikel (2004)重新实现 Collins 模型并且更深入地探讨了这个模型中一些能

对 终句法分析精度产生较大影响的细节Bikel 在他的博士论文中将 Collins 模型

应用于中文和阿拉伯语的句法分析中同样取得了不错的成绩 Collins 提出的基于词汇化 PCFG 的模型显著地提高了适应能力使得句法

分析器在处理不同领域文档时可以保持较高的精度但是Collins 的模型也有其

不足之处首先Collins 的模型本身十分复杂从而导致实现细节会对句法分析

精度产生较大的影响其次Collins 模型的特征设计有明显的语言依赖性这就

使得模型的一般性略显不足 非词汇化的 PCFG 模型

随着词汇化 PCFG 模型的提出并取得成功词汇化便成为了句法分析的主

流但是一部分学者(Gildea 2001 Bikel 2004)通过实验发现词汇化的依存关

系在 Collins 模型中所起的作用并不像期望中那么大词汇化的做法还带来了模型

复杂度的显著增加在这样的背景下一种改进的非词汇化(unlexicalized)的句法分

析模型开始引起关注 Klein amp Manning (2003a)针对非词汇化的 PCFG 句法分析模型进行了探索

通过对句法树的马尔科夫化以及根据语言学知识对部分句法标记进行拆分等一些

非词汇化方法对句法树库进行改造并且利用简单的 大似然法估计句法规则的概

率他们的实验表明这样可以大幅提高非词汇化句法分析器的精度甚至超越一些

早期的词汇化句法分析器的性能 Matsuzaki (2005)引入了潜在变量的概念对原有树库的句法进行改造这

种改造与(Klein amp Manning2003)在本质上是相通的但是他不利用语言学知识来

指导句法标记的拆分而是采用 EM 算法从句法树库中习得潜在变量用以拆分句

法标记 Petrov et al (2006 2007)在前人工作的基础上提出一套自动改造句法树库的

方法通过拆分合并和平滑三个步骤改造现有树库句法以提高句法对于语料的

解释能力同时还利用句法改造迭代过程中产生的中间句法设计出一种由粗及

细的句法分析算法从而解决句法改造后句法规则的数量明显增加而导致的句法分

析效率低下的问题在英文中文和德文的树库上进行了实验结果表明这种非词

汇化句法分析模型在这三种语言上都可以达到较高的精度 相对于词汇化的句法分析模型非词汇化句法分析模型有一些明显的优势

首先非词汇化模型相对简洁其次非词汇化模型不依赖于短语结构中的中心

词这意味着非词汇化模型可以做到与语言无关用一个统一的模型来处理不同的

- 6 -

语言 后非词汇化的句法分析模型是一个自动化程度较高的模型基本不用人

类的语言知识 因子化的模型

Klein amp Manning (2003b)提出因子化(factored)的句法分析模型这种模型可

以看做是对词汇化句法分析模型的简化有别于 Collins 将依存语法的概念引入到

传统的 PCFG 模型Klein amp Manning(2003b)将 PCFG 模型和依存语法模型分列为

两个因子即 P(T D)=P(T)P(D)其中 P(T)和 P(D)分别表示两个模型估算出的概

率这种方法相对于词汇化的句法分析模型也要简化许多可以提高句法分析的效

率同时提供相近的分析精度

基于分类的句法分析 Ratnaparkhi (1999)首先将分类器引入句法分析形成基于分类(classification

based)的句法分析方法与基于 PCFG 的句法分析方法略有不同一般来说后者

将句法树的概率定义为生成该句法树所用的所有句法规则的概率的乘积而基于分

类器的句法分析方法则采用移进-归约算法来产生句法树因此句法树的概率

相应定义为移进-归约过程中的每一个ldquo动作rdquo的概率的乘积 Sagae amp Lavie (2005)将树库二叉化之后利用 SVM 分类器只实现一个快速产

生 1-best 句法树的句法分析器其精度就已超过 Ratnaparkhi 的句法分析器Wang et al (2006)在中文树库上使用多种分类器进行了实验结果表明 SVM 在中文句法

分析中的表现优于其它分类器 Tsuruoka et al (2009)使用线性链的 CRF 模型来做句法分析其方法与移进-

归约式的句法分析方法很相似但由于模型的不同使用 CRF 的句法分析器将

句法分析视为一系列的串标注问题一层一层自底向上将句中的词规约到句法树的

根节点实验表明这种方法的分析效率很高但是分析精度与比较优秀的词汇化

或非词汇化的 PCFG 句法分析器相比还有一定差距 判别式的重排序

以上的句法分析模型都可以归入一个大类即基于历史(history-based)的模

型因为在这些模型中句法树的产生被描述为一个决策序列句法树的概率就等于

这一系列决策的概率的乘积此类模型在句法分析方面取得了一定的成功但想继

续向其中添加特征时却遇到了困难因为新的特征与这种模型的句法树产生过

程不兼容为了解决这个问题重排序(reranking)的方法被引入作为句法分析的

后处理步骤将更多的上下文信息长距离依存信息甚至浅层语义信息加入到句

法分析的过程中去希望藉此获得更高的分析精度 Collins (2000)首先提出了使用逻辑回归(logistic regression)模型来尝试句法分

析结果的重排序逻辑回归模型的特性决定了我们可以任意设定特征而无需做独立

性假设Collins 同时引入了 Boosting 算法来对重排序模型进行参数优化根据

- 7 -

Collins 在 WSJ 数据集上的实验这种以后处理模式加入的重排序方法可以在

Collins (1999)模型二的基础上将句法分析 F 值提高 15相当显著 Charniak amp Johnson (2005)则采用和 Collins 十分类似的方法进行重排序但

引入了更多更复杂的上下文特征此外他们的贡献还在于他提出了一种两步式由

粗及细的句法分析方法用以降低在模型比较复杂的情况下使用动态规划算法得

到 n-best 输出时效率低下的问题 重排序的方法作为句法分析器的后处理步骤对句法分析器的 n-best 输出结

果进行重新评分和排序又进一步提高精度的效果但是这样做的问题在于 n-best 输出只是一个很小的选择范围通常我们会发现句法分析器的 n-best 输出之

间差距其实很小据统计大约有 41的正确句法树不包含在句法分析器的 30-best 输出中为此Huang (2008)提出了一种新的森林重排序(forest reranking)的方

法用来扩展重排序的施用空间要点是将重排序嵌入到传统的句法分析过程中

重排序的特征分为两种类型即局部特征和非局部特征当整个森林建立起来之

后局部特征可以预先生成而非局部特征则在解码过程中增量地产生为了解决

效率问题 Huang (2008)还设计了一种近似的解码方法使得训练时间缩短到可接

受的范围之内到目前为止采用重排序方法的单一句法分析器在英文树库中取得

了 优秀的成绩

句法分析器的融合 在单一句法分析模型和重排序技术都很难进一步提升句法分析精度的时候

多个句法分析器的系统融合(parser combination)是改进句法分析质量的另一条途

径目前句法分析器的融合有两种方式句法树选择(parse selection)和成分重组

(constituent recombination) Henderson amp Brill (1999)首先提出这两种方法在实验中使用三个句法分析

器的 1-best 输出结果相对于单个句法分析器的 好成绩有 1的提高Sagae amp Lavie(2006)在其成分投票机制的基础之上引入了二次句法分析(re-parsing)的方法

利用投票所得的各个句法成分的权重对测试句进行第二次的句法分析藉此获得一

棵没有括号交叉的合法的句法树在 WSJ 数据集上取得和前者大体相似的成绩 Fossum amp Knight (2009)对以上两种方法进行了扩展前两者都只使用了各

个句法分析器的 1-best 输出结果而他们则利用各个句法分析器的 n-best 输出结果

进行融合同时他们发现成分重组的方法会产生结构上过于平坦的树虽然在

目前的句法分析评测中可以取得比较好的成绩但这种病态结构的树会对后续的应

用造成影响为此提出了另一种产生式重组的方法可视为对成分重组方法的改

进在 WSJ 数据集上实验结果表明相对于其他两种方法成分重组的方法有微

弱的优势针对成分重组方法的这个问题 Chen et al (2009)尝试了另一种解决方

案即利用训练树库中习的句法规则来限制成分重组的过程使得成分重组生成的

句法树完全遵守树库句法 Chen et al (2009)在清华大学汉语树库上的实验结果表明这种受限的成分

重组方法表现略好于传统的成分重组方法同时也能较好地解决句法树树结构过

于平坦的问题

- 8 -

小结

纵观上述主流的句法分析方法我们可以看到单一句法分析模型近年的发展

过程在 PCFG 的框架下词汇化和非词汇化看起来是两条相反的路线但是我

们可以从另一个角度找到这两种方法的共同点自然语言的文法含有递归的句法规

则(recursive rules)这种规则容易在句法分析过程中造成句法树的结构歧义例如

英语中的介词短语附着问题(PP-attachment problem)语言学的研究以及树库的出

现为我们提供了一套形式化的自然语言文法但是依照这一套文法建立的统计模

型不能很好的解决递归规则带来的歧义问题早期的基于简单 PCFG 模型的句法分

析器没能获得令人满意的结果恰好印证了这一点 从 Magerman 开始所有基于 PCFG 的模型都在沿着同样的思路进行即在

树库上进行文法改造(grammar refinement)无论是词汇化的句法分析模型将短语

中心词提升到短语标记中的做法还是非词汇化模型中将父亲节点的句法标记加入

到当前节点的句法标记中的做法或者采用拆分合并的操作将部分节点拆分成多个

次范畴化节点的做法都是出于改造树库句法的目的 至此我们可以得出一个结论提高基于 PCFG 的句法分析模型的分析精

度关键在于找到一套合适的文法使得根据这套句法建立的概率模型能够更好的

解决歧义问题重排序方法的出现让我们有可能在句法分析的过程中引入更多的

上下文有关的语言知识(非局部特征)使得树库文法在更多的细节上逼近原本的语

言文法因此采用重排序的方法可以使单个句法分析器的分析精度得到很大的提

高而句法分析器融合的方法为了解决单一句法分析模型解释能力有限的问题

将不同句法特征的分析器的优点结合起来从而取得更好的分析结果

三依存句法分析 5

依存句法分析(dependency parsing)是自然语言句法分析的另一基本技术其

任务是将句子由一个线性的词序列转化为一棵结构化的依存树(dependency tree)以依存弧反映词与词之间的依存关系弧首指向的词(从属词)依存于弧尾指向的词

(支配词)弧的类别表示两个词之间的依存关系依存句法分析可应用于关系抽取

(Culotta amp Sorensen 2004)机器翻译 (Ding amp Palmer 2005)本体构建 (Snow et al 2005)语义角色标记 (Surdeanu et al 2008)等具有广泛的应用背景国际会议

CoNLL 在 2006-2007 年连续两年举行多语言依存句法分析的国际评测(Buchholz amp Marsi 2006Nivre 2007)涵盖包括汉语在内的十几种语言其英文训练和测试语

料均转换自宾州大学英文树库而在 2008-2009 年则相应举办了依存句法分析与

语义角色标记联合学习的国际评测这些国际评测活动大大推动了依存句法分析技

术的发展 同短语句法分析一样目前依存句法分析模型大都基于数据驱动大体可以

分为两类基于图模式(graph-based)的和基于转换(transition-based)的依存句法分析

5 主笔赵海博士后研究员在近两届 CoNLL 依存句法分析评测中获多个第一和第二名现为上海交通大

学计算机系副教授任晓娜访问硕士研究生在读沈阳航空航天大学计算机系

- 9 -

模型前者将依存分析看成有向图中 大生成树的求解问题后者即将依存树的构

建分解为一序列动作由分类器根据当前状态来决定下一个分析动作 基于图的依存句法分析模型

基于图的依存句法分析模型需要为依存树制定一个权重分布而此整棵树的

权重通常分解为各条弧上的权重值的累计和在训练阶段模型学习从训练数据获

得权重分布函数中各个参数的值在测试阶段对给定的句子使用某种搜索算法

找出 优的依存树即具有 大的权重函数值的依存树各类基于图的依存句法分

析模型的区别主要体现在依存树概率函数的定义和搜索算法的不同上 具代表性工作的是 R McDonald 等人实现的 大跨度树(maximum span-

ning tree MST)模型(McDonald et al 2005 2005 2006)此模型将求解 佳分析转化

为寻找待分析句子 高权重的依存句法树问题参数学习采用在线学习算法(online learning algorithm)测试阶段(一阶生成树模型)则采用 Chu-Liu-Edmonds 大生成

树算法该算法具有 O(n2)的复杂度以宾州大学英文树库转换的依存句法分析语

料库做测试其性能 F 值达到 909 如果考虑高阶的跨度树模型典型的如二阶模型则不存在有效的可行算

法需要用一些近似算法来求解这一方面的典型工作可见 McDonald et al (2006)以及 Carreras (2007)高阶跨度树模型不再假定依存树中的弧之间是相互独立的

而是存在着某种联系在计算依存树权重时采用高阶特征即把相邻弧的信息也

作为特征考虑在内基于 CoNLL-2007 的评测该模型取得英文语料上的 佳性

能 这两种基于图的依存模型中弧(或生成树的边)的权重函数值都局限于局部

特征Nakagawa (2007)进一步利用依存树的全局特征将某一节点的兄弟和儿子

节点的信息同时考虑在内加以利用 基于转换的依存句法分析模型

基于转换的依存句法分析模型通过执行一连串动作(action)或转换(transition)

来构建依存树对一个句子将按特定的方向逐一取词进行分析每一步的分析过

程都根据当前状态作出决策采用哪种动作直至句子的 后一个词这样逐步形成

一个完整的依存树就是说任何一个依存树都可以转换到相应的连续动作串

动作的预测是基于已预测的动作所形成的子树各类基于转换的依存句法分析模型

的区别主要在于动作(或转换)策略的不同和估算动作概率所使用的机器学习模型

的不同例如支持向量机(SVM)和 大熵(ME)模型基于转换的依存句法分析的工

作以下决策式依存分析方法 具代表性 Yamada amp Matsumotoy (2003)给出了一个基于移进mdash规约(shift-reduce)算法

的多遍(multipass)决策式分析模型采用三种动作移进(shift)左弧(left-arc)和右

弧(right-arc)每次扫描整个句子通过 right 和 left 操作建立子树直到所有成分

都被挂在一个节点下面这个节点便是整棵依存树的根节点从而形成一棵依存

树其核心思想是针对当前节点对判断该采用哪种操作(shiftleft 或 right)也

- 10 -

就是看作一个三分类问题采用 SVM 来预测各类动作的概率分布Duan et al (2007)等人进一步扩展 Yamada 的分析动作如动作 left 扩展为 left-label(这里 label为某一依存关系标记)通过此扩展来同时预测两子树的依存关系 Nivre (2003)提出了一种类移进mdash规约的确定性依存句法分析算法该算法

中共有四种动作左弧(letf-arc)右弧(right-arc)规约(reduce)和移进(shift)Nivre (2004)又提出了类似由左向右自底向上的分析算法这是一个标准的自底向上的

移进mdash规约算法Titov amp Henderson (2007)同样使用 Nivre 定义的四种动作通过

使用潜在变量的方法获得条件特征从而更准确的计算各类动作的概率值 已有的工作显示依存句法分析的错误分布与所使用的模型相关包括基于

图的和基于转换的模型为更好地将两模型的优点结合起来Nivre amp McDonald (2008)尝试将两种模型进行融合以求得到更优的依存句法分析器其基本做法

是将其中一种模型(如基于图的模型MSTParser)所产生的特征用于另一个模型(如基于转换的模型MaltParser)实验结果显示相比于单独的 MSTParser往其中

添加 MaltParser 所产生的特征使得用来评估依存关系准确率的度量有标连接分 (labeled attachment score LAS)提高 170而往 MaltParser 中添加 MSTParser 产生

的特征则 LAS 提高 127可见此简单融合策略的功效 中文依存句法分析

CoNLL 评测任务(2006 和 2007)的评测是基于多语言的其使用的中文语料

为台湾中研院 Sinica 提供的中文依存句法分析语料 (Sinica 树库)CoNLL-2007 评

测的 优 LAS 值为 8469无标连接分(unlabeled attachment score UAS)值为

8894此前Jin et al ( 2005)通过扩展 Nivre(2003)的移进-归约算法为二阶段的

移进-归约算法在由宾州大学中文树库转化的中文依存语料上得到的依存准确

率为 8442较 Nivre (2003)算法提高 11 目前较常采用的词信息粒度为词性标记和词本身前者过于笼统而后者往

往过于具体引起数据稀疏问题为此Liu et al (2007)根据动词的语法规则对中

文动词进行分类并将分类后得到的动词子类信息应用于中文依存句法分析实验

显示动词的子类信息提高了依存句法分析的性能 我们的工作

在依存句法分析上我们的工作集中于特征提取在 CoNLL-2008 评测中

我们开始使用一种大规模的特征选择算法应用到基于转换的学习模式这一算法

帮助一个 大熵模型取得了优于 SVM 的分析性能(Zhao amp Kit 2008)在 CoNLL-2009 评测中我们继续采用这一策略并推广到包括语义的依存分析中取得了

联合学习部分的英语项目第一名的成绩并且在语义依存的多语种评测中同样总分

第一(Zhao et al 2009)在扩展特征部分我们考虑使用了双语特征我们在中英

文对齐的词典学习基础上同样针对中文取得了目前为止接近 好的性能

- 11 -

四机器翻译 6 在计算语言学的诸多研究领域中机器翻译可以说是 有特色也 能反映整

个领域研究现状的一个分支从上世纪 50 年代至今机器翻译的研究从朴素的词

典翻译到基于规则(rule-based MT)的方法进而发展到基于实例(example-based MT)和基于统计(statistical MT)的方法无不反映该领域当时 具代表性的研究方

法和手段可以认为机器翻译研究的进步是围绕着两个方面进行的第一是资

源即如何得到有效的语言资源第二是操作即如何利用这些资源进行有效的翻

译随着语料库建设和大规模真实文本的电子化基于统计的机器学习的方法从语

料库中获取语言知识的能力不断增强以及机器翻译模型和算法的发展和优化近

年机器翻译研究有了很大进步下面我们将从几个不同的侧重点来简要描述其当前

的发展状况 统计机器翻译 原理上统计机器翻译将翻译过程定义为一个随机过程用一个概率P来描述

一个源语言(S)句子 7转换或对应到一个目标语言(T)句子的机会也就是每个源

句都以一定的概率与某个目标句转换统计翻译就是求得此概率并在目标文本空间

搜寻能使此概率 大化的译文其基本假设是只要有足够大的语料和足够好的统

计方法我们就可以逼近真实翻译的概率分布整个过程似乎不需传统语言学的介

入可以在任意语言之间进行把翻译从一个语言处理问题转化为了一个数学计算

问题 1990 年IBM公司Watson研究中心的研究员Brown和同事在信息论的基础

上首次提出了信源信道(source-channel)模型 8(Brown et al 1990)把源语言句子

看作是目标语言句子通过某个受扰信道所产生的那么翻译就等于将源句ldquo还原rdquo为目标句的过程统计机器翻译所描述的问题原本形式化为

)|(maxarg STPT = 即求以源句 S 为条件下的概率 大的目标句 T在信源信道模型里通过贝叶斯定

理(Bayes Theorem)进行转换以后可以得到 )()|(maxarg TPTSPT = 9

这样统计翻译过程被拆分为对两个概率模型求 大组合概率的过程其中

P(S|T)称之为翻译模型反映源语言和目标语言的对应关系P(T)称为语言模型

反映的是目标语言的合理性即译文的流畅程度这个翻译框架的建立具有两个

极为深刻的意义一采用两个独立的子模型可以分别对翻译过程和结果生成进

行单独评估能更有效地优化翻译结果二分开不同功能的概率模型在方法论

上启发了后来使用更多特征的翻译框架同时也对译文的搜索过程施行更多的约

6 主笔宋彦在读博士生研究机器翻译应用机器翻译及机器学习方法参加上届音译(Transliteration)国际

评测获全部中文相关项目第一名 7 在统计机器翻译中通常是以句子为单位进行处理 8 因来源于信息论故也被称作噪声通道(noisy-channel)模型 9 在数学形式上这里需要假定 P(T)和 P(S|T)相互独立

- 12 -

束翻译模型和语言模型作为两个 基本的子模型在后来的统计机器翻译框架中

也都一直延用 其中翻译模型用于刻画源语言和目标语言之间的转换这种对应关系通常称之

为对齐(alignment)IBM 的研究者提出的翻译模型是在词对齐(word alignment)的基础上进行的一共有 5 个由简到繁的翻译模型通常称之为 IBM 模型 1~5 (Brown et al 1993)模型 1 中仅考虑了词翻译的概率模型 2 是在 1 的基础上加入

了某个词在句中位置的概率模型 34 和 5 又在前面模型的基础上分别加入了产

出率(Fertility即一个词翻译为多个词的概率)句子长度等信息逐步加入更多可

资利用的信息完善翻译过程 值得注意的是IBM采用的对齐方法它是在大规模句对齐的语料基础上进行

的计算源语和目标语言之间词语的共现关系从而确定源语词和目标语词是否构

成互为翻译的词对这种方法原理上不需要任何语言知识就可以自动地获得两语之

间词与词的对译关系只要已知的双语句子足够多就可以得到足够好的词对齐关

系以及相应的对齐概率IBM采用的对齐算法很自然就成为了统计机器翻译的基

石但由于当时计算机硬件条件的限制别人难以重复IBM小组的工作相关研究

因而也一度显得沉寂1999 年在约翰霍普金斯大学(John Hopkins University)举行

的机器翻译夏季研讨班(summer programs)上研究人员再现了当年IBM的工作并

推出开源的统计机器翻译工具包Egypt极大地推动了机器翻译研究的发展其

中词对齐工具Giza被同行广泛认同之后的升级版Giza++10更成为领域内标准的

词对齐工具对此后机器翻译发展产生了深远的影响

基于短语的和基于句法的翻译模型 机器翻译研究中如何得到较好的翻译模型始终是研究人员 为关注的问题

在研究基于词的方法时人们发现此翻译模型在处理句子结构时往往性能不佳主

要是此中涉及的词序调整存在先天缺陷基于词的简单调序模型仅能有效支持近距

离的调序致使在不同的语系(language families)之间进行翻译时 终译文在词序

上难免有较大的偏差无法生成合理词序的译文因此人们考虑将某些翻译片段

捆绑成相对固定的短语以避免一些无谓的调序错误这里所谓的短语不是通常

意义上的句法结构短语 11而是一些简单的多个词语组合因此也称之为非句法短

语采用非句法短语作为翻译单元具有非常高的鲁棒性(robustness)由于更大的

翻译颗粒度或者说更大的处理基元的引入使得对齐结果的再调整更可靠即

便短语内部出现错误的词对齐只要短语的边界识别正确整个短语的对齐仍然是

正确的另一方面已对齐的短语本身也可用作翻译实例在统计方面增强数据关

联除此之外由于翻译颗粒度的增大每次搜索翻译候选项时可以覆盖更大范围

的源文本因此通过调整合适的参数就可以显著提高翻译效率德国亚琛工业

大学的Och (2004)Zens (2002)以及美国南加州大学的Koehn (2003)等学者的研究

是这方面的代表

10 httpcodegooglecompgiza-pp 11 通常定义为可以作为一个完整句法子结构的短语

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 4: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 4 -

在 近的第四届 Bakeoff 上此一标注集被各参赛者广泛采用事实上成为

范例性标注集在此基础上Zhao amp Kit (2008 2010) 进一步将无指导(unsupervised)词汇学习方法引入到字标注机器学习的分词方法中来从而创出一种类似半监督

(semi-supervised) 的学习方法实践证明该方法具有极强的适应性在分词标准各

不相同的语料中都取得了极好的效果囊括此届 Bakeoff 全部五项封闭测试的第一

名此外无监督学习方法的引入使得利用大规模未标注语料提高分词精度的设

想成为可能为自动分词技术的发展提供了新的方向

二自动句法分析 4

惯指旨在导出句子的短语或成分结构树的句法分析是自然语言处理的基本

问题之一各种自然语言处理应用技术例如信息抽取机器翻译和语音识别等

在很大程度上都依赖于高精度的句法分析结果近年来在大量人工标记的树库等

有用资源不断涌现的背景下自动句法分析技术取得了引人注目的进展但是若

从高端应用的角度来审视其技术水平进一步的突破对于自然语言处理学者来

说仍是巨大挑战 句法分析首先需要依照某种统一的形式化方法人工构建一套文法

(grammar)通常这套文法的每条规则都可以含有很多附加的选择性限制条件

用以解决或减轻句法分析的一个基本问题结构性歧义但这种方法也有着明

显的缺点当处理大规模多领域的文档时词表数量的激增和位置语法现象的出

现都会使这样一套文法的构建变得十分困难甚至不可能尤有甚者句法分析

中歧义结构的取舍常常不是简单的二值问题往往需要更深层的句法语义信息 为了解决这些问题统计的方法近年被引入句法分析树库数据的出现更

是为概率句法分析提供了必要的训练资源一些早期的研究探索了概率上下文无关

文法(probabilistic context-free grammarPCFG)在自然语言句法分析中的应用希

望利用 PCFG 本身的消解句法分析中结构歧义的能力实现自动的自然语言句法分

析但这尝试并未获得成功Charniak (1997)的实验证明纯粹的 PCFG 模型只能在

英文树库上达到 70左右的精度主要是分析精度无法满足实用需求此后基

于 PCFG 的许多句法分析模型渐渐发展起来并且取得了一些突破以下是一些主要

方法 词汇化的 PCFG 模型

首先Magerman (1995)指出词汇和上下文信息会对句法分析的结果产生重

大影响他的实验结果也证明了引入词汇化信息的模型要远好于之前的基于简单

PCFG 的模型此后Collins (1997)在 Magerman 的基础之上提出了 3 个词汇化

(lexicalized)的概率句法分析模型使得 PCFG 框架下的概率句法分析精度得到显著

的提高Collins 模型引入依存语法(dependency grammar)的概念对句法树进行词

4 主笔陈晓在读博士生在中文信息学会句法分析评测 CIPS-ParsEval-2009 中获句法结构树分析第一名

- 5 -

汇化(lexicalization)在词汇化的句法树库中句法规则的概率被分解成构成该句

法规则的一组依存关系的概率的乘积这种概率估计方法还很大程度上解决了估计

PCFG 模型参数时遇到的数据稀疏问题此外Collins 还在他的模型中为英语句法

分析中一些难点如 PP-attachment 等设计了相应的特征使得他的模型在英文

句法分析方面取得了很高的精度同样值得一提的是后来 Charniak(2000)采用和

Collins 相似的词汇化方法在更高阶的马尔科夫语法和对数线性公式的帮助下

使得基于英文树库上的句法分析结果进一步提高 Bikel (2004)重新实现 Collins 模型并且更深入地探讨了这个模型中一些能

对 终句法分析精度产生较大影响的细节Bikel 在他的博士论文中将 Collins 模型

应用于中文和阿拉伯语的句法分析中同样取得了不错的成绩 Collins 提出的基于词汇化 PCFG 的模型显著地提高了适应能力使得句法

分析器在处理不同领域文档时可以保持较高的精度但是Collins 的模型也有其

不足之处首先Collins 的模型本身十分复杂从而导致实现细节会对句法分析

精度产生较大的影响其次Collins 模型的特征设计有明显的语言依赖性这就

使得模型的一般性略显不足 非词汇化的 PCFG 模型

随着词汇化 PCFG 模型的提出并取得成功词汇化便成为了句法分析的主

流但是一部分学者(Gildea 2001 Bikel 2004)通过实验发现词汇化的依存关

系在 Collins 模型中所起的作用并不像期望中那么大词汇化的做法还带来了模型

复杂度的显著增加在这样的背景下一种改进的非词汇化(unlexicalized)的句法分

析模型开始引起关注 Klein amp Manning (2003a)针对非词汇化的 PCFG 句法分析模型进行了探索

通过对句法树的马尔科夫化以及根据语言学知识对部分句法标记进行拆分等一些

非词汇化方法对句法树库进行改造并且利用简单的 大似然法估计句法规则的概

率他们的实验表明这样可以大幅提高非词汇化句法分析器的精度甚至超越一些

早期的词汇化句法分析器的性能 Matsuzaki (2005)引入了潜在变量的概念对原有树库的句法进行改造这

种改造与(Klein amp Manning2003)在本质上是相通的但是他不利用语言学知识来

指导句法标记的拆分而是采用 EM 算法从句法树库中习得潜在变量用以拆分句

法标记 Petrov et al (2006 2007)在前人工作的基础上提出一套自动改造句法树库的

方法通过拆分合并和平滑三个步骤改造现有树库句法以提高句法对于语料的

解释能力同时还利用句法改造迭代过程中产生的中间句法设计出一种由粗及

细的句法分析算法从而解决句法改造后句法规则的数量明显增加而导致的句法分

析效率低下的问题在英文中文和德文的树库上进行了实验结果表明这种非词

汇化句法分析模型在这三种语言上都可以达到较高的精度 相对于词汇化的句法分析模型非词汇化句法分析模型有一些明显的优势

首先非词汇化模型相对简洁其次非词汇化模型不依赖于短语结构中的中心

词这意味着非词汇化模型可以做到与语言无关用一个统一的模型来处理不同的

- 6 -

语言 后非词汇化的句法分析模型是一个自动化程度较高的模型基本不用人

类的语言知识 因子化的模型

Klein amp Manning (2003b)提出因子化(factored)的句法分析模型这种模型可

以看做是对词汇化句法分析模型的简化有别于 Collins 将依存语法的概念引入到

传统的 PCFG 模型Klein amp Manning(2003b)将 PCFG 模型和依存语法模型分列为

两个因子即 P(T D)=P(T)P(D)其中 P(T)和 P(D)分别表示两个模型估算出的概

率这种方法相对于词汇化的句法分析模型也要简化许多可以提高句法分析的效

率同时提供相近的分析精度

基于分类的句法分析 Ratnaparkhi (1999)首先将分类器引入句法分析形成基于分类(classification

based)的句法分析方法与基于 PCFG 的句法分析方法略有不同一般来说后者

将句法树的概率定义为生成该句法树所用的所有句法规则的概率的乘积而基于分

类器的句法分析方法则采用移进-归约算法来产生句法树因此句法树的概率

相应定义为移进-归约过程中的每一个ldquo动作rdquo的概率的乘积 Sagae amp Lavie (2005)将树库二叉化之后利用 SVM 分类器只实现一个快速产

生 1-best 句法树的句法分析器其精度就已超过 Ratnaparkhi 的句法分析器Wang et al (2006)在中文树库上使用多种分类器进行了实验结果表明 SVM 在中文句法

分析中的表现优于其它分类器 Tsuruoka et al (2009)使用线性链的 CRF 模型来做句法分析其方法与移进-

归约式的句法分析方法很相似但由于模型的不同使用 CRF 的句法分析器将

句法分析视为一系列的串标注问题一层一层自底向上将句中的词规约到句法树的

根节点实验表明这种方法的分析效率很高但是分析精度与比较优秀的词汇化

或非词汇化的 PCFG 句法分析器相比还有一定差距 判别式的重排序

以上的句法分析模型都可以归入一个大类即基于历史(history-based)的模

型因为在这些模型中句法树的产生被描述为一个决策序列句法树的概率就等于

这一系列决策的概率的乘积此类模型在句法分析方面取得了一定的成功但想继

续向其中添加特征时却遇到了困难因为新的特征与这种模型的句法树产生过

程不兼容为了解决这个问题重排序(reranking)的方法被引入作为句法分析的

后处理步骤将更多的上下文信息长距离依存信息甚至浅层语义信息加入到句

法分析的过程中去希望藉此获得更高的分析精度 Collins (2000)首先提出了使用逻辑回归(logistic regression)模型来尝试句法分

析结果的重排序逻辑回归模型的特性决定了我们可以任意设定特征而无需做独立

性假设Collins 同时引入了 Boosting 算法来对重排序模型进行参数优化根据

- 7 -

Collins 在 WSJ 数据集上的实验这种以后处理模式加入的重排序方法可以在

Collins (1999)模型二的基础上将句法分析 F 值提高 15相当显著 Charniak amp Johnson (2005)则采用和 Collins 十分类似的方法进行重排序但

引入了更多更复杂的上下文特征此外他们的贡献还在于他提出了一种两步式由

粗及细的句法分析方法用以降低在模型比较复杂的情况下使用动态规划算法得

到 n-best 输出时效率低下的问题 重排序的方法作为句法分析器的后处理步骤对句法分析器的 n-best 输出结

果进行重新评分和排序又进一步提高精度的效果但是这样做的问题在于 n-best 输出只是一个很小的选择范围通常我们会发现句法分析器的 n-best 输出之

间差距其实很小据统计大约有 41的正确句法树不包含在句法分析器的 30-best 输出中为此Huang (2008)提出了一种新的森林重排序(forest reranking)的方

法用来扩展重排序的施用空间要点是将重排序嵌入到传统的句法分析过程中

重排序的特征分为两种类型即局部特征和非局部特征当整个森林建立起来之

后局部特征可以预先生成而非局部特征则在解码过程中增量地产生为了解决

效率问题 Huang (2008)还设计了一种近似的解码方法使得训练时间缩短到可接

受的范围之内到目前为止采用重排序方法的单一句法分析器在英文树库中取得

了 优秀的成绩

句法分析器的融合 在单一句法分析模型和重排序技术都很难进一步提升句法分析精度的时候

多个句法分析器的系统融合(parser combination)是改进句法分析质量的另一条途

径目前句法分析器的融合有两种方式句法树选择(parse selection)和成分重组

(constituent recombination) Henderson amp Brill (1999)首先提出这两种方法在实验中使用三个句法分析

器的 1-best 输出结果相对于单个句法分析器的 好成绩有 1的提高Sagae amp Lavie(2006)在其成分投票机制的基础之上引入了二次句法分析(re-parsing)的方法

利用投票所得的各个句法成分的权重对测试句进行第二次的句法分析藉此获得一

棵没有括号交叉的合法的句法树在 WSJ 数据集上取得和前者大体相似的成绩 Fossum amp Knight (2009)对以上两种方法进行了扩展前两者都只使用了各

个句法分析器的 1-best 输出结果而他们则利用各个句法分析器的 n-best 输出结果

进行融合同时他们发现成分重组的方法会产生结构上过于平坦的树虽然在

目前的句法分析评测中可以取得比较好的成绩但这种病态结构的树会对后续的应

用造成影响为此提出了另一种产生式重组的方法可视为对成分重组方法的改

进在 WSJ 数据集上实验结果表明相对于其他两种方法成分重组的方法有微

弱的优势针对成分重组方法的这个问题 Chen et al (2009)尝试了另一种解决方

案即利用训练树库中习的句法规则来限制成分重组的过程使得成分重组生成的

句法树完全遵守树库句法 Chen et al (2009)在清华大学汉语树库上的实验结果表明这种受限的成分

重组方法表现略好于传统的成分重组方法同时也能较好地解决句法树树结构过

于平坦的问题

- 8 -

小结

纵观上述主流的句法分析方法我们可以看到单一句法分析模型近年的发展

过程在 PCFG 的框架下词汇化和非词汇化看起来是两条相反的路线但是我

们可以从另一个角度找到这两种方法的共同点自然语言的文法含有递归的句法规

则(recursive rules)这种规则容易在句法分析过程中造成句法树的结构歧义例如

英语中的介词短语附着问题(PP-attachment problem)语言学的研究以及树库的出

现为我们提供了一套形式化的自然语言文法但是依照这一套文法建立的统计模

型不能很好的解决递归规则带来的歧义问题早期的基于简单 PCFG 模型的句法分

析器没能获得令人满意的结果恰好印证了这一点 从 Magerman 开始所有基于 PCFG 的模型都在沿着同样的思路进行即在

树库上进行文法改造(grammar refinement)无论是词汇化的句法分析模型将短语

中心词提升到短语标记中的做法还是非词汇化模型中将父亲节点的句法标记加入

到当前节点的句法标记中的做法或者采用拆分合并的操作将部分节点拆分成多个

次范畴化节点的做法都是出于改造树库句法的目的 至此我们可以得出一个结论提高基于 PCFG 的句法分析模型的分析精

度关键在于找到一套合适的文法使得根据这套句法建立的概率模型能够更好的

解决歧义问题重排序方法的出现让我们有可能在句法分析的过程中引入更多的

上下文有关的语言知识(非局部特征)使得树库文法在更多的细节上逼近原本的语

言文法因此采用重排序的方法可以使单个句法分析器的分析精度得到很大的提

高而句法分析器融合的方法为了解决单一句法分析模型解释能力有限的问题

将不同句法特征的分析器的优点结合起来从而取得更好的分析结果

三依存句法分析 5

依存句法分析(dependency parsing)是自然语言句法分析的另一基本技术其

任务是将句子由一个线性的词序列转化为一棵结构化的依存树(dependency tree)以依存弧反映词与词之间的依存关系弧首指向的词(从属词)依存于弧尾指向的词

(支配词)弧的类别表示两个词之间的依存关系依存句法分析可应用于关系抽取

(Culotta amp Sorensen 2004)机器翻译 (Ding amp Palmer 2005)本体构建 (Snow et al 2005)语义角色标记 (Surdeanu et al 2008)等具有广泛的应用背景国际会议

CoNLL 在 2006-2007 年连续两年举行多语言依存句法分析的国际评测(Buchholz amp Marsi 2006Nivre 2007)涵盖包括汉语在内的十几种语言其英文训练和测试语

料均转换自宾州大学英文树库而在 2008-2009 年则相应举办了依存句法分析与

语义角色标记联合学习的国际评测这些国际评测活动大大推动了依存句法分析技

术的发展 同短语句法分析一样目前依存句法分析模型大都基于数据驱动大体可以

分为两类基于图模式(graph-based)的和基于转换(transition-based)的依存句法分析

5 主笔赵海博士后研究员在近两届 CoNLL 依存句法分析评测中获多个第一和第二名现为上海交通大

学计算机系副教授任晓娜访问硕士研究生在读沈阳航空航天大学计算机系

- 9 -

模型前者将依存分析看成有向图中 大生成树的求解问题后者即将依存树的构

建分解为一序列动作由分类器根据当前状态来决定下一个分析动作 基于图的依存句法分析模型

基于图的依存句法分析模型需要为依存树制定一个权重分布而此整棵树的

权重通常分解为各条弧上的权重值的累计和在训练阶段模型学习从训练数据获

得权重分布函数中各个参数的值在测试阶段对给定的句子使用某种搜索算法

找出 优的依存树即具有 大的权重函数值的依存树各类基于图的依存句法分

析模型的区别主要体现在依存树概率函数的定义和搜索算法的不同上 具代表性工作的是 R McDonald 等人实现的 大跨度树(maximum span-

ning tree MST)模型(McDonald et al 2005 2005 2006)此模型将求解 佳分析转化

为寻找待分析句子 高权重的依存句法树问题参数学习采用在线学习算法(online learning algorithm)测试阶段(一阶生成树模型)则采用 Chu-Liu-Edmonds 大生成

树算法该算法具有 O(n2)的复杂度以宾州大学英文树库转换的依存句法分析语

料库做测试其性能 F 值达到 909 如果考虑高阶的跨度树模型典型的如二阶模型则不存在有效的可行算

法需要用一些近似算法来求解这一方面的典型工作可见 McDonald et al (2006)以及 Carreras (2007)高阶跨度树模型不再假定依存树中的弧之间是相互独立的

而是存在着某种联系在计算依存树权重时采用高阶特征即把相邻弧的信息也

作为特征考虑在内基于 CoNLL-2007 的评测该模型取得英文语料上的 佳性

能 这两种基于图的依存模型中弧(或生成树的边)的权重函数值都局限于局部

特征Nakagawa (2007)进一步利用依存树的全局特征将某一节点的兄弟和儿子

节点的信息同时考虑在内加以利用 基于转换的依存句法分析模型

基于转换的依存句法分析模型通过执行一连串动作(action)或转换(transition)

来构建依存树对一个句子将按特定的方向逐一取词进行分析每一步的分析过

程都根据当前状态作出决策采用哪种动作直至句子的 后一个词这样逐步形成

一个完整的依存树就是说任何一个依存树都可以转换到相应的连续动作串

动作的预测是基于已预测的动作所形成的子树各类基于转换的依存句法分析模型

的区别主要在于动作(或转换)策略的不同和估算动作概率所使用的机器学习模型

的不同例如支持向量机(SVM)和 大熵(ME)模型基于转换的依存句法分析的工

作以下决策式依存分析方法 具代表性 Yamada amp Matsumotoy (2003)给出了一个基于移进mdash规约(shift-reduce)算法

的多遍(multipass)决策式分析模型采用三种动作移进(shift)左弧(left-arc)和右

弧(right-arc)每次扫描整个句子通过 right 和 left 操作建立子树直到所有成分

都被挂在一个节点下面这个节点便是整棵依存树的根节点从而形成一棵依存

树其核心思想是针对当前节点对判断该采用哪种操作(shiftleft 或 right)也

- 10 -

就是看作一个三分类问题采用 SVM 来预测各类动作的概率分布Duan et al (2007)等人进一步扩展 Yamada 的分析动作如动作 left 扩展为 left-label(这里 label为某一依存关系标记)通过此扩展来同时预测两子树的依存关系 Nivre (2003)提出了一种类移进mdash规约的确定性依存句法分析算法该算法

中共有四种动作左弧(letf-arc)右弧(right-arc)规约(reduce)和移进(shift)Nivre (2004)又提出了类似由左向右自底向上的分析算法这是一个标准的自底向上的

移进mdash规约算法Titov amp Henderson (2007)同样使用 Nivre 定义的四种动作通过

使用潜在变量的方法获得条件特征从而更准确的计算各类动作的概率值 已有的工作显示依存句法分析的错误分布与所使用的模型相关包括基于

图的和基于转换的模型为更好地将两模型的优点结合起来Nivre amp McDonald (2008)尝试将两种模型进行融合以求得到更优的依存句法分析器其基本做法

是将其中一种模型(如基于图的模型MSTParser)所产生的特征用于另一个模型(如基于转换的模型MaltParser)实验结果显示相比于单独的 MSTParser往其中

添加 MaltParser 所产生的特征使得用来评估依存关系准确率的度量有标连接分 (labeled attachment score LAS)提高 170而往 MaltParser 中添加 MSTParser 产生

的特征则 LAS 提高 127可见此简单融合策略的功效 中文依存句法分析

CoNLL 评测任务(2006 和 2007)的评测是基于多语言的其使用的中文语料

为台湾中研院 Sinica 提供的中文依存句法分析语料 (Sinica 树库)CoNLL-2007 评

测的 优 LAS 值为 8469无标连接分(unlabeled attachment score UAS)值为

8894此前Jin et al ( 2005)通过扩展 Nivre(2003)的移进-归约算法为二阶段的

移进-归约算法在由宾州大学中文树库转化的中文依存语料上得到的依存准确

率为 8442较 Nivre (2003)算法提高 11 目前较常采用的词信息粒度为词性标记和词本身前者过于笼统而后者往

往过于具体引起数据稀疏问题为此Liu et al (2007)根据动词的语法规则对中

文动词进行分类并将分类后得到的动词子类信息应用于中文依存句法分析实验

显示动词的子类信息提高了依存句法分析的性能 我们的工作

在依存句法分析上我们的工作集中于特征提取在 CoNLL-2008 评测中

我们开始使用一种大规模的特征选择算法应用到基于转换的学习模式这一算法

帮助一个 大熵模型取得了优于 SVM 的分析性能(Zhao amp Kit 2008)在 CoNLL-2009 评测中我们继续采用这一策略并推广到包括语义的依存分析中取得了

联合学习部分的英语项目第一名的成绩并且在语义依存的多语种评测中同样总分

第一(Zhao et al 2009)在扩展特征部分我们考虑使用了双语特征我们在中英

文对齐的词典学习基础上同样针对中文取得了目前为止接近 好的性能

- 11 -

四机器翻译 6 在计算语言学的诸多研究领域中机器翻译可以说是 有特色也 能反映整

个领域研究现状的一个分支从上世纪 50 年代至今机器翻译的研究从朴素的词

典翻译到基于规则(rule-based MT)的方法进而发展到基于实例(example-based MT)和基于统计(statistical MT)的方法无不反映该领域当时 具代表性的研究方

法和手段可以认为机器翻译研究的进步是围绕着两个方面进行的第一是资

源即如何得到有效的语言资源第二是操作即如何利用这些资源进行有效的翻

译随着语料库建设和大规模真实文本的电子化基于统计的机器学习的方法从语

料库中获取语言知识的能力不断增强以及机器翻译模型和算法的发展和优化近

年机器翻译研究有了很大进步下面我们将从几个不同的侧重点来简要描述其当前

的发展状况 统计机器翻译 原理上统计机器翻译将翻译过程定义为一个随机过程用一个概率P来描述

一个源语言(S)句子 7转换或对应到一个目标语言(T)句子的机会也就是每个源

句都以一定的概率与某个目标句转换统计翻译就是求得此概率并在目标文本空间

搜寻能使此概率 大化的译文其基本假设是只要有足够大的语料和足够好的统

计方法我们就可以逼近真实翻译的概率分布整个过程似乎不需传统语言学的介

入可以在任意语言之间进行把翻译从一个语言处理问题转化为了一个数学计算

问题 1990 年IBM公司Watson研究中心的研究员Brown和同事在信息论的基础

上首次提出了信源信道(source-channel)模型 8(Brown et al 1990)把源语言句子

看作是目标语言句子通过某个受扰信道所产生的那么翻译就等于将源句ldquo还原rdquo为目标句的过程统计机器翻译所描述的问题原本形式化为

)|(maxarg STPT = 即求以源句 S 为条件下的概率 大的目标句 T在信源信道模型里通过贝叶斯定

理(Bayes Theorem)进行转换以后可以得到 )()|(maxarg TPTSPT = 9

这样统计翻译过程被拆分为对两个概率模型求 大组合概率的过程其中

P(S|T)称之为翻译模型反映源语言和目标语言的对应关系P(T)称为语言模型

反映的是目标语言的合理性即译文的流畅程度这个翻译框架的建立具有两个

极为深刻的意义一采用两个独立的子模型可以分别对翻译过程和结果生成进

行单独评估能更有效地优化翻译结果二分开不同功能的概率模型在方法论

上启发了后来使用更多特征的翻译框架同时也对译文的搜索过程施行更多的约

6 主笔宋彦在读博士生研究机器翻译应用机器翻译及机器学习方法参加上届音译(Transliteration)国际

评测获全部中文相关项目第一名 7 在统计机器翻译中通常是以句子为单位进行处理 8 因来源于信息论故也被称作噪声通道(noisy-channel)模型 9 在数学形式上这里需要假定 P(T)和 P(S|T)相互独立

- 12 -

束翻译模型和语言模型作为两个 基本的子模型在后来的统计机器翻译框架中

也都一直延用 其中翻译模型用于刻画源语言和目标语言之间的转换这种对应关系通常称之

为对齐(alignment)IBM 的研究者提出的翻译模型是在词对齐(word alignment)的基础上进行的一共有 5 个由简到繁的翻译模型通常称之为 IBM 模型 1~5 (Brown et al 1993)模型 1 中仅考虑了词翻译的概率模型 2 是在 1 的基础上加入

了某个词在句中位置的概率模型 34 和 5 又在前面模型的基础上分别加入了产

出率(Fertility即一个词翻译为多个词的概率)句子长度等信息逐步加入更多可

资利用的信息完善翻译过程 值得注意的是IBM采用的对齐方法它是在大规模句对齐的语料基础上进行

的计算源语和目标语言之间词语的共现关系从而确定源语词和目标语词是否构

成互为翻译的词对这种方法原理上不需要任何语言知识就可以自动地获得两语之

间词与词的对译关系只要已知的双语句子足够多就可以得到足够好的词对齐关

系以及相应的对齐概率IBM采用的对齐算法很自然就成为了统计机器翻译的基

石但由于当时计算机硬件条件的限制别人难以重复IBM小组的工作相关研究

因而也一度显得沉寂1999 年在约翰霍普金斯大学(John Hopkins University)举行

的机器翻译夏季研讨班(summer programs)上研究人员再现了当年IBM的工作并

推出开源的统计机器翻译工具包Egypt极大地推动了机器翻译研究的发展其

中词对齐工具Giza被同行广泛认同之后的升级版Giza++10更成为领域内标准的

词对齐工具对此后机器翻译发展产生了深远的影响

基于短语的和基于句法的翻译模型 机器翻译研究中如何得到较好的翻译模型始终是研究人员 为关注的问题

在研究基于词的方法时人们发现此翻译模型在处理句子结构时往往性能不佳主

要是此中涉及的词序调整存在先天缺陷基于词的简单调序模型仅能有效支持近距

离的调序致使在不同的语系(language families)之间进行翻译时 终译文在词序

上难免有较大的偏差无法生成合理词序的译文因此人们考虑将某些翻译片段

捆绑成相对固定的短语以避免一些无谓的调序错误这里所谓的短语不是通常

意义上的句法结构短语 11而是一些简单的多个词语组合因此也称之为非句法短

语采用非句法短语作为翻译单元具有非常高的鲁棒性(robustness)由于更大的

翻译颗粒度或者说更大的处理基元的引入使得对齐结果的再调整更可靠即

便短语内部出现错误的词对齐只要短语的边界识别正确整个短语的对齐仍然是

正确的另一方面已对齐的短语本身也可用作翻译实例在统计方面增强数据关

联除此之外由于翻译颗粒度的增大每次搜索翻译候选项时可以覆盖更大范围

的源文本因此通过调整合适的参数就可以显著提高翻译效率德国亚琛工业

大学的Och (2004)Zens (2002)以及美国南加州大学的Koehn (2003)等学者的研究

是这方面的代表

10 httpcodegooglecompgiza-pp 11 通常定义为可以作为一个完整句法子结构的短语

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 5: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 5 -

汇化(lexicalization)在词汇化的句法树库中句法规则的概率被分解成构成该句

法规则的一组依存关系的概率的乘积这种概率估计方法还很大程度上解决了估计

PCFG 模型参数时遇到的数据稀疏问题此外Collins 还在他的模型中为英语句法

分析中一些难点如 PP-attachment 等设计了相应的特征使得他的模型在英文

句法分析方面取得了很高的精度同样值得一提的是后来 Charniak(2000)采用和

Collins 相似的词汇化方法在更高阶的马尔科夫语法和对数线性公式的帮助下

使得基于英文树库上的句法分析结果进一步提高 Bikel (2004)重新实现 Collins 模型并且更深入地探讨了这个模型中一些能

对 终句法分析精度产生较大影响的细节Bikel 在他的博士论文中将 Collins 模型

应用于中文和阿拉伯语的句法分析中同样取得了不错的成绩 Collins 提出的基于词汇化 PCFG 的模型显著地提高了适应能力使得句法

分析器在处理不同领域文档时可以保持较高的精度但是Collins 的模型也有其

不足之处首先Collins 的模型本身十分复杂从而导致实现细节会对句法分析

精度产生较大的影响其次Collins 模型的特征设计有明显的语言依赖性这就

使得模型的一般性略显不足 非词汇化的 PCFG 模型

随着词汇化 PCFG 模型的提出并取得成功词汇化便成为了句法分析的主

流但是一部分学者(Gildea 2001 Bikel 2004)通过实验发现词汇化的依存关

系在 Collins 模型中所起的作用并不像期望中那么大词汇化的做法还带来了模型

复杂度的显著增加在这样的背景下一种改进的非词汇化(unlexicalized)的句法分

析模型开始引起关注 Klein amp Manning (2003a)针对非词汇化的 PCFG 句法分析模型进行了探索

通过对句法树的马尔科夫化以及根据语言学知识对部分句法标记进行拆分等一些

非词汇化方法对句法树库进行改造并且利用简单的 大似然法估计句法规则的概

率他们的实验表明这样可以大幅提高非词汇化句法分析器的精度甚至超越一些

早期的词汇化句法分析器的性能 Matsuzaki (2005)引入了潜在变量的概念对原有树库的句法进行改造这

种改造与(Klein amp Manning2003)在本质上是相通的但是他不利用语言学知识来

指导句法标记的拆分而是采用 EM 算法从句法树库中习得潜在变量用以拆分句

法标记 Petrov et al (2006 2007)在前人工作的基础上提出一套自动改造句法树库的

方法通过拆分合并和平滑三个步骤改造现有树库句法以提高句法对于语料的

解释能力同时还利用句法改造迭代过程中产生的中间句法设计出一种由粗及

细的句法分析算法从而解决句法改造后句法规则的数量明显增加而导致的句法分

析效率低下的问题在英文中文和德文的树库上进行了实验结果表明这种非词

汇化句法分析模型在这三种语言上都可以达到较高的精度 相对于词汇化的句法分析模型非词汇化句法分析模型有一些明显的优势

首先非词汇化模型相对简洁其次非词汇化模型不依赖于短语结构中的中心

词这意味着非词汇化模型可以做到与语言无关用一个统一的模型来处理不同的

- 6 -

语言 后非词汇化的句法分析模型是一个自动化程度较高的模型基本不用人

类的语言知识 因子化的模型

Klein amp Manning (2003b)提出因子化(factored)的句法分析模型这种模型可

以看做是对词汇化句法分析模型的简化有别于 Collins 将依存语法的概念引入到

传统的 PCFG 模型Klein amp Manning(2003b)将 PCFG 模型和依存语法模型分列为

两个因子即 P(T D)=P(T)P(D)其中 P(T)和 P(D)分别表示两个模型估算出的概

率这种方法相对于词汇化的句法分析模型也要简化许多可以提高句法分析的效

率同时提供相近的分析精度

基于分类的句法分析 Ratnaparkhi (1999)首先将分类器引入句法分析形成基于分类(classification

based)的句法分析方法与基于 PCFG 的句法分析方法略有不同一般来说后者

将句法树的概率定义为生成该句法树所用的所有句法规则的概率的乘积而基于分

类器的句法分析方法则采用移进-归约算法来产生句法树因此句法树的概率

相应定义为移进-归约过程中的每一个ldquo动作rdquo的概率的乘积 Sagae amp Lavie (2005)将树库二叉化之后利用 SVM 分类器只实现一个快速产

生 1-best 句法树的句法分析器其精度就已超过 Ratnaparkhi 的句法分析器Wang et al (2006)在中文树库上使用多种分类器进行了实验结果表明 SVM 在中文句法

分析中的表现优于其它分类器 Tsuruoka et al (2009)使用线性链的 CRF 模型来做句法分析其方法与移进-

归约式的句法分析方法很相似但由于模型的不同使用 CRF 的句法分析器将

句法分析视为一系列的串标注问题一层一层自底向上将句中的词规约到句法树的

根节点实验表明这种方法的分析效率很高但是分析精度与比较优秀的词汇化

或非词汇化的 PCFG 句法分析器相比还有一定差距 判别式的重排序

以上的句法分析模型都可以归入一个大类即基于历史(history-based)的模

型因为在这些模型中句法树的产生被描述为一个决策序列句法树的概率就等于

这一系列决策的概率的乘积此类模型在句法分析方面取得了一定的成功但想继

续向其中添加特征时却遇到了困难因为新的特征与这种模型的句法树产生过

程不兼容为了解决这个问题重排序(reranking)的方法被引入作为句法分析的

后处理步骤将更多的上下文信息长距离依存信息甚至浅层语义信息加入到句

法分析的过程中去希望藉此获得更高的分析精度 Collins (2000)首先提出了使用逻辑回归(logistic regression)模型来尝试句法分

析结果的重排序逻辑回归模型的特性决定了我们可以任意设定特征而无需做独立

性假设Collins 同时引入了 Boosting 算法来对重排序模型进行参数优化根据

- 7 -

Collins 在 WSJ 数据集上的实验这种以后处理模式加入的重排序方法可以在

Collins (1999)模型二的基础上将句法分析 F 值提高 15相当显著 Charniak amp Johnson (2005)则采用和 Collins 十分类似的方法进行重排序但

引入了更多更复杂的上下文特征此外他们的贡献还在于他提出了一种两步式由

粗及细的句法分析方法用以降低在模型比较复杂的情况下使用动态规划算法得

到 n-best 输出时效率低下的问题 重排序的方法作为句法分析器的后处理步骤对句法分析器的 n-best 输出结

果进行重新评分和排序又进一步提高精度的效果但是这样做的问题在于 n-best 输出只是一个很小的选择范围通常我们会发现句法分析器的 n-best 输出之

间差距其实很小据统计大约有 41的正确句法树不包含在句法分析器的 30-best 输出中为此Huang (2008)提出了一种新的森林重排序(forest reranking)的方

法用来扩展重排序的施用空间要点是将重排序嵌入到传统的句法分析过程中

重排序的特征分为两种类型即局部特征和非局部特征当整个森林建立起来之

后局部特征可以预先生成而非局部特征则在解码过程中增量地产生为了解决

效率问题 Huang (2008)还设计了一种近似的解码方法使得训练时间缩短到可接

受的范围之内到目前为止采用重排序方法的单一句法分析器在英文树库中取得

了 优秀的成绩

句法分析器的融合 在单一句法分析模型和重排序技术都很难进一步提升句法分析精度的时候

多个句法分析器的系统融合(parser combination)是改进句法分析质量的另一条途

径目前句法分析器的融合有两种方式句法树选择(parse selection)和成分重组

(constituent recombination) Henderson amp Brill (1999)首先提出这两种方法在实验中使用三个句法分析

器的 1-best 输出结果相对于单个句法分析器的 好成绩有 1的提高Sagae amp Lavie(2006)在其成分投票机制的基础之上引入了二次句法分析(re-parsing)的方法

利用投票所得的各个句法成分的权重对测试句进行第二次的句法分析藉此获得一

棵没有括号交叉的合法的句法树在 WSJ 数据集上取得和前者大体相似的成绩 Fossum amp Knight (2009)对以上两种方法进行了扩展前两者都只使用了各

个句法分析器的 1-best 输出结果而他们则利用各个句法分析器的 n-best 输出结果

进行融合同时他们发现成分重组的方法会产生结构上过于平坦的树虽然在

目前的句法分析评测中可以取得比较好的成绩但这种病态结构的树会对后续的应

用造成影响为此提出了另一种产生式重组的方法可视为对成分重组方法的改

进在 WSJ 数据集上实验结果表明相对于其他两种方法成分重组的方法有微

弱的优势针对成分重组方法的这个问题 Chen et al (2009)尝试了另一种解决方

案即利用训练树库中习的句法规则来限制成分重组的过程使得成分重组生成的

句法树完全遵守树库句法 Chen et al (2009)在清华大学汉语树库上的实验结果表明这种受限的成分

重组方法表现略好于传统的成分重组方法同时也能较好地解决句法树树结构过

于平坦的问题

- 8 -

小结

纵观上述主流的句法分析方法我们可以看到单一句法分析模型近年的发展

过程在 PCFG 的框架下词汇化和非词汇化看起来是两条相反的路线但是我

们可以从另一个角度找到这两种方法的共同点自然语言的文法含有递归的句法规

则(recursive rules)这种规则容易在句法分析过程中造成句法树的结构歧义例如

英语中的介词短语附着问题(PP-attachment problem)语言学的研究以及树库的出

现为我们提供了一套形式化的自然语言文法但是依照这一套文法建立的统计模

型不能很好的解决递归规则带来的歧义问题早期的基于简单 PCFG 模型的句法分

析器没能获得令人满意的结果恰好印证了这一点 从 Magerman 开始所有基于 PCFG 的模型都在沿着同样的思路进行即在

树库上进行文法改造(grammar refinement)无论是词汇化的句法分析模型将短语

中心词提升到短语标记中的做法还是非词汇化模型中将父亲节点的句法标记加入

到当前节点的句法标记中的做法或者采用拆分合并的操作将部分节点拆分成多个

次范畴化节点的做法都是出于改造树库句法的目的 至此我们可以得出一个结论提高基于 PCFG 的句法分析模型的分析精

度关键在于找到一套合适的文法使得根据这套句法建立的概率模型能够更好的

解决歧义问题重排序方法的出现让我们有可能在句法分析的过程中引入更多的

上下文有关的语言知识(非局部特征)使得树库文法在更多的细节上逼近原本的语

言文法因此采用重排序的方法可以使单个句法分析器的分析精度得到很大的提

高而句法分析器融合的方法为了解决单一句法分析模型解释能力有限的问题

将不同句法特征的分析器的优点结合起来从而取得更好的分析结果

三依存句法分析 5

依存句法分析(dependency parsing)是自然语言句法分析的另一基本技术其

任务是将句子由一个线性的词序列转化为一棵结构化的依存树(dependency tree)以依存弧反映词与词之间的依存关系弧首指向的词(从属词)依存于弧尾指向的词

(支配词)弧的类别表示两个词之间的依存关系依存句法分析可应用于关系抽取

(Culotta amp Sorensen 2004)机器翻译 (Ding amp Palmer 2005)本体构建 (Snow et al 2005)语义角色标记 (Surdeanu et al 2008)等具有广泛的应用背景国际会议

CoNLL 在 2006-2007 年连续两年举行多语言依存句法分析的国际评测(Buchholz amp Marsi 2006Nivre 2007)涵盖包括汉语在内的十几种语言其英文训练和测试语

料均转换自宾州大学英文树库而在 2008-2009 年则相应举办了依存句法分析与

语义角色标记联合学习的国际评测这些国际评测活动大大推动了依存句法分析技

术的发展 同短语句法分析一样目前依存句法分析模型大都基于数据驱动大体可以

分为两类基于图模式(graph-based)的和基于转换(transition-based)的依存句法分析

5 主笔赵海博士后研究员在近两届 CoNLL 依存句法分析评测中获多个第一和第二名现为上海交通大

学计算机系副教授任晓娜访问硕士研究生在读沈阳航空航天大学计算机系

- 9 -

模型前者将依存分析看成有向图中 大生成树的求解问题后者即将依存树的构

建分解为一序列动作由分类器根据当前状态来决定下一个分析动作 基于图的依存句法分析模型

基于图的依存句法分析模型需要为依存树制定一个权重分布而此整棵树的

权重通常分解为各条弧上的权重值的累计和在训练阶段模型学习从训练数据获

得权重分布函数中各个参数的值在测试阶段对给定的句子使用某种搜索算法

找出 优的依存树即具有 大的权重函数值的依存树各类基于图的依存句法分

析模型的区别主要体现在依存树概率函数的定义和搜索算法的不同上 具代表性工作的是 R McDonald 等人实现的 大跨度树(maximum span-

ning tree MST)模型(McDonald et al 2005 2005 2006)此模型将求解 佳分析转化

为寻找待分析句子 高权重的依存句法树问题参数学习采用在线学习算法(online learning algorithm)测试阶段(一阶生成树模型)则采用 Chu-Liu-Edmonds 大生成

树算法该算法具有 O(n2)的复杂度以宾州大学英文树库转换的依存句法分析语

料库做测试其性能 F 值达到 909 如果考虑高阶的跨度树模型典型的如二阶模型则不存在有效的可行算

法需要用一些近似算法来求解这一方面的典型工作可见 McDonald et al (2006)以及 Carreras (2007)高阶跨度树模型不再假定依存树中的弧之间是相互独立的

而是存在着某种联系在计算依存树权重时采用高阶特征即把相邻弧的信息也

作为特征考虑在内基于 CoNLL-2007 的评测该模型取得英文语料上的 佳性

能 这两种基于图的依存模型中弧(或生成树的边)的权重函数值都局限于局部

特征Nakagawa (2007)进一步利用依存树的全局特征将某一节点的兄弟和儿子

节点的信息同时考虑在内加以利用 基于转换的依存句法分析模型

基于转换的依存句法分析模型通过执行一连串动作(action)或转换(transition)

来构建依存树对一个句子将按特定的方向逐一取词进行分析每一步的分析过

程都根据当前状态作出决策采用哪种动作直至句子的 后一个词这样逐步形成

一个完整的依存树就是说任何一个依存树都可以转换到相应的连续动作串

动作的预测是基于已预测的动作所形成的子树各类基于转换的依存句法分析模型

的区别主要在于动作(或转换)策略的不同和估算动作概率所使用的机器学习模型

的不同例如支持向量机(SVM)和 大熵(ME)模型基于转换的依存句法分析的工

作以下决策式依存分析方法 具代表性 Yamada amp Matsumotoy (2003)给出了一个基于移进mdash规约(shift-reduce)算法

的多遍(multipass)决策式分析模型采用三种动作移进(shift)左弧(left-arc)和右

弧(right-arc)每次扫描整个句子通过 right 和 left 操作建立子树直到所有成分

都被挂在一个节点下面这个节点便是整棵依存树的根节点从而形成一棵依存

树其核心思想是针对当前节点对判断该采用哪种操作(shiftleft 或 right)也

- 10 -

就是看作一个三分类问题采用 SVM 来预测各类动作的概率分布Duan et al (2007)等人进一步扩展 Yamada 的分析动作如动作 left 扩展为 left-label(这里 label为某一依存关系标记)通过此扩展来同时预测两子树的依存关系 Nivre (2003)提出了一种类移进mdash规约的确定性依存句法分析算法该算法

中共有四种动作左弧(letf-arc)右弧(right-arc)规约(reduce)和移进(shift)Nivre (2004)又提出了类似由左向右自底向上的分析算法这是一个标准的自底向上的

移进mdash规约算法Titov amp Henderson (2007)同样使用 Nivre 定义的四种动作通过

使用潜在变量的方法获得条件特征从而更准确的计算各类动作的概率值 已有的工作显示依存句法分析的错误分布与所使用的模型相关包括基于

图的和基于转换的模型为更好地将两模型的优点结合起来Nivre amp McDonald (2008)尝试将两种模型进行融合以求得到更优的依存句法分析器其基本做法

是将其中一种模型(如基于图的模型MSTParser)所产生的特征用于另一个模型(如基于转换的模型MaltParser)实验结果显示相比于单独的 MSTParser往其中

添加 MaltParser 所产生的特征使得用来评估依存关系准确率的度量有标连接分 (labeled attachment score LAS)提高 170而往 MaltParser 中添加 MSTParser 产生

的特征则 LAS 提高 127可见此简单融合策略的功效 中文依存句法分析

CoNLL 评测任务(2006 和 2007)的评测是基于多语言的其使用的中文语料

为台湾中研院 Sinica 提供的中文依存句法分析语料 (Sinica 树库)CoNLL-2007 评

测的 优 LAS 值为 8469无标连接分(unlabeled attachment score UAS)值为

8894此前Jin et al ( 2005)通过扩展 Nivre(2003)的移进-归约算法为二阶段的

移进-归约算法在由宾州大学中文树库转化的中文依存语料上得到的依存准确

率为 8442较 Nivre (2003)算法提高 11 目前较常采用的词信息粒度为词性标记和词本身前者过于笼统而后者往

往过于具体引起数据稀疏问题为此Liu et al (2007)根据动词的语法规则对中

文动词进行分类并将分类后得到的动词子类信息应用于中文依存句法分析实验

显示动词的子类信息提高了依存句法分析的性能 我们的工作

在依存句法分析上我们的工作集中于特征提取在 CoNLL-2008 评测中

我们开始使用一种大规模的特征选择算法应用到基于转换的学习模式这一算法

帮助一个 大熵模型取得了优于 SVM 的分析性能(Zhao amp Kit 2008)在 CoNLL-2009 评测中我们继续采用这一策略并推广到包括语义的依存分析中取得了

联合学习部分的英语项目第一名的成绩并且在语义依存的多语种评测中同样总分

第一(Zhao et al 2009)在扩展特征部分我们考虑使用了双语特征我们在中英

文对齐的词典学习基础上同样针对中文取得了目前为止接近 好的性能

- 11 -

四机器翻译 6 在计算语言学的诸多研究领域中机器翻译可以说是 有特色也 能反映整

个领域研究现状的一个分支从上世纪 50 年代至今机器翻译的研究从朴素的词

典翻译到基于规则(rule-based MT)的方法进而发展到基于实例(example-based MT)和基于统计(statistical MT)的方法无不反映该领域当时 具代表性的研究方

法和手段可以认为机器翻译研究的进步是围绕着两个方面进行的第一是资

源即如何得到有效的语言资源第二是操作即如何利用这些资源进行有效的翻

译随着语料库建设和大规模真实文本的电子化基于统计的机器学习的方法从语

料库中获取语言知识的能力不断增强以及机器翻译模型和算法的发展和优化近

年机器翻译研究有了很大进步下面我们将从几个不同的侧重点来简要描述其当前

的发展状况 统计机器翻译 原理上统计机器翻译将翻译过程定义为一个随机过程用一个概率P来描述

一个源语言(S)句子 7转换或对应到一个目标语言(T)句子的机会也就是每个源

句都以一定的概率与某个目标句转换统计翻译就是求得此概率并在目标文本空间

搜寻能使此概率 大化的译文其基本假设是只要有足够大的语料和足够好的统

计方法我们就可以逼近真实翻译的概率分布整个过程似乎不需传统语言学的介

入可以在任意语言之间进行把翻译从一个语言处理问题转化为了一个数学计算

问题 1990 年IBM公司Watson研究中心的研究员Brown和同事在信息论的基础

上首次提出了信源信道(source-channel)模型 8(Brown et al 1990)把源语言句子

看作是目标语言句子通过某个受扰信道所产生的那么翻译就等于将源句ldquo还原rdquo为目标句的过程统计机器翻译所描述的问题原本形式化为

)|(maxarg STPT = 即求以源句 S 为条件下的概率 大的目标句 T在信源信道模型里通过贝叶斯定

理(Bayes Theorem)进行转换以后可以得到 )()|(maxarg TPTSPT = 9

这样统计翻译过程被拆分为对两个概率模型求 大组合概率的过程其中

P(S|T)称之为翻译模型反映源语言和目标语言的对应关系P(T)称为语言模型

反映的是目标语言的合理性即译文的流畅程度这个翻译框架的建立具有两个

极为深刻的意义一采用两个独立的子模型可以分别对翻译过程和结果生成进

行单独评估能更有效地优化翻译结果二分开不同功能的概率模型在方法论

上启发了后来使用更多特征的翻译框架同时也对译文的搜索过程施行更多的约

6 主笔宋彦在读博士生研究机器翻译应用机器翻译及机器学习方法参加上届音译(Transliteration)国际

评测获全部中文相关项目第一名 7 在统计机器翻译中通常是以句子为单位进行处理 8 因来源于信息论故也被称作噪声通道(noisy-channel)模型 9 在数学形式上这里需要假定 P(T)和 P(S|T)相互独立

- 12 -

束翻译模型和语言模型作为两个 基本的子模型在后来的统计机器翻译框架中

也都一直延用 其中翻译模型用于刻画源语言和目标语言之间的转换这种对应关系通常称之

为对齐(alignment)IBM 的研究者提出的翻译模型是在词对齐(word alignment)的基础上进行的一共有 5 个由简到繁的翻译模型通常称之为 IBM 模型 1~5 (Brown et al 1993)模型 1 中仅考虑了词翻译的概率模型 2 是在 1 的基础上加入

了某个词在句中位置的概率模型 34 和 5 又在前面模型的基础上分别加入了产

出率(Fertility即一个词翻译为多个词的概率)句子长度等信息逐步加入更多可

资利用的信息完善翻译过程 值得注意的是IBM采用的对齐方法它是在大规模句对齐的语料基础上进行

的计算源语和目标语言之间词语的共现关系从而确定源语词和目标语词是否构

成互为翻译的词对这种方法原理上不需要任何语言知识就可以自动地获得两语之

间词与词的对译关系只要已知的双语句子足够多就可以得到足够好的词对齐关

系以及相应的对齐概率IBM采用的对齐算法很自然就成为了统计机器翻译的基

石但由于当时计算机硬件条件的限制别人难以重复IBM小组的工作相关研究

因而也一度显得沉寂1999 年在约翰霍普金斯大学(John Hopkins University)举行

的机器翻译夏季研讨班(summer programs)上研究人员再现了当年IBM的工作并

推出开源的统计机器翻译工具包Egypt极大地推动了机器翻译研究的发展其

中词对齐工具Giza被同行广泛认同之后的升级版Giza++10更成为领域内标准的

词对齐工具对此后机器翻译发展产生了深远的影响

基于短语的和基于句法的翻译模型 机器翻译研究中如何得到较好的翻译模型始终是研究人员 为关注的问题

在研究基于词的方法时人们发现此翻译模型在处理句子结构时往往性能不佳主

要是此中涉及的词序调整存在先天缺陷基于词的简单调序模型仅能有效支持近距

离的调序致使在不同的语系(language families)之间进行翻译时 终译文在词序

上难免有较大的偏差无法生成合理词序的译文因此人们考虑将某些翻译片段

捆绑成相对固定的短语以避免一些无谓的调序错误这里所谓的短语不是通常

意义上的句法结构短语 11而是一些简单的多个词语组合因此也称之为非句法短

语采用非句法短语作为翻译单元具有非常高的鲁棒性(robustness)由于更大的

翻译颗粒度或者说更大的处理基元的引入使得对齐结果的再调整更可靠即

便短语内部出现错误的词对齐只要短语的边界识别正确整个短语的对齐仍然是

正确的另一方面已对齐的短语本身也可用作翻译实例在统计方面增强数据关

联除此之外由于翻译颗粒度的增大每次搜索翻译候选项时可以覆盖更大范围

的源文本因此通过调整合适的参数就可以显著提高翻译效率德国亚琛工业

大学的Och (2004)Zens (2002)以及美国南加州大学的Koehn (2003)等学者的研究

是这方面的代表

10 httpcodegooglecompgiza-pp 11 通常定义为可以作为一个完整句法子结构的短语

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 6: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 6 -

语言 后非词汇化的句法分析模型是一个自动化程度较高的模型基本不用人

类的语言知识 因子化的模型

Klein amp Manning (2003b)提出因子化(factored)的句法分析模型这种模型可

以看做是对词汇化句法分析模型的简化有别于 Collins 将依存语法的概念引入到

传统的 PCFG 模型Klein amp Manning(2003b)将 PCFG 模型和依存语法模型分列为

两个因子即 P(T D)=P(T)P(D)其中 P(T)和 P(D)分别表示两个模型估算出的概

率这种方法相对于词汇化的句法分析模型也要简化许多可以提高句法分析的效

率同时提供相近的分析精度

基于分类的句法分析 Ratnaparkhi (1999)首先将分类器引入句法分析形成基于分类(classification

based)的句法分析方法与基于 PCFG 的句法分析方法略有不同一般来说后者

将句法树的概率定义为生成该句法树所用的所有句法规则的概率的乘积而基于分

类器的句法分析方法则采用移进-归约算法来产生句法树因此句法树的概率

相应定义为移进-归约过程中的每一个ldquo动作rdquo的概率的乘积 Sagae amp Lavie (2005)将树库二叉化之后利用 SVM 分类器只实现一个快速产

生 1-best 句法树的句法分析器其精度就已超过 Ratnaparkhi 的句法分析器Wang et al (2006)在中文树库上使用多种分类器进行了实验结果表明 SVM 在中文句法

分析中的表现优于其它分类器 Tsuruoka et al (2009)使用线性链的 CRF 模型来做句法分析其方法与移进-

归约式的句法分析方法很相似但由于模型的不同使用 CRF 的句法分析器将

句法分析视为一系列的串标注问题一层一层自底向上将句中的词规约到句法树的

根节点实验表明这种方法的分析效率很高但是分析精度与比较优秀的词汇化

或非词汇化的 PCFG 句法分析器相比还有一定差距 判别式的重排序

以上的句法分析模型都可以归入一个大类即基于历史(history-based)的模

型因为在这些模型中句法树的产生被描述为一个决策序列句法树的概率就等于

这一系列决策的概率的乘积此类模型在句法分析方面取得了一定的成功但想继

续向其中添加特征时却遇到了困难因为新的特征与这种模型的句法树产生过

程不兼容为了解决这个问题重排序(reranking)的方法被引入作为句法分析的

后处理步骤将更多的上下文信息长距离依存信息甚至浅层语义信息加入到句

法分析的过程中去希望藉此获得更高的分析精度 Collins (2000)首先提出了使用逻辑回归(logistic regression)模型来尝试句法分

析结果的重排序逻辑回归模型的特性决定了我们可以任意设定特征而无需做独立

性假设Collins 同时引入了 Boosting 算法来对重排序模型进行参数优化根据

- 7 -

Collins 在 WSJ 数据集上的实验这种以后处理模式加入的重排序方法可以在

Collins (1999)模型二的基础上将句法分析 F 值提高 15相当显著 Charniak amp Johnson (2005)则采用和 Collins 十分类似的方法进行重排序但

引入了更多更复杂的上下文特征此外他们的贡献还在于他提出了一种两步式由

粗及细的句法分析方法用以降低在模型比较复杂的情况下使用动态规划算法得

到 n-best 输出时效率低下的问题 重排序的方法作为句法分析器的后处理步骤对句法分析器的 n-best 输出结

果进行重新评分和排序又进一步提高精度的效果但是这样做的问题在于 n-best 输出只是一个很小的选择范围通常我们会发现句法分析器的 n-best 输出之

间差距其实很小据统计大约有 41的正确句法树不包含在句法分析器的 30-best 输出中为此Huang (2008)提出了一种新的森林重排序(forest reranking)的方

法用来扩展重排序的施用空间要点是将重排序嵌入到传统的句法分析过程中

重排序的特征分为两种类型即局部特征和非局部特征当整个森林建立起来之

后局部特征可以预先生成而非局部特征则在解码过程中增量地产生为了解决

效率问题 Huang (2008)还设计了一种近似的解码方法使得训练时间缩短到可接

受的范围之内到目前为止采用重排序方法的单一句法分析器在英文树库中取得

了 优秀的成绩

句法分析器的融合 在单一句法分析模型和重排序技术都很难进一步提升句法分析精度的时候

多个句法分析器的系统融合(parser combination)是改进句法分析质量的另一条途

径目前句法分析器的融合有两种方式句法树选择(parse selection)和成分重组

(constituent recombination) Henderson amp Brill (1999)首先提出这两种方法在实验中使用三个句法分析

器的 1-best 输出结果相对于单个句法分析器的 好成绩有 1的提高Sagae amp Lavie(2006)在其成分投票机制的基础之上引入了二次句法分析(re-parsing)的方法

利用投票所得的各个句法成分的权重对测试句进行第二次的句法分析藉此获得一

棵没有括号交叉的合法的句法树在 WSJ 数据集上取得和前者大体相似的成绩 Fossum amp Knight (2009)对以上两种方法进行了扩展前两者都只使用了各

个句法分析器的 1-best 输出结果而他们则利用各个句法分析器的 n-best 输出结果

进行融合同时他们发现成分重组的方法会产生结构上过于平坦的树虽然在

目前的句法分析评测中可以取得比较好的成绩但这种病态结构的树会对后续的应

用造成影响为此提出了另一种产生式重组的方法可视为对成分重组方法的改

进在 WSJ 数据集上实验结果表明相对于其他两种方法成分重组的方法有微

弱的优势针对成分重组方法的这个问题 Chen et al (2009)尝试了另一种解决方

案即利用训练树库中习的句法规则来限制成分重组的过程使得成分重组生成的

句法树完全遵守树库句法 Chen et al (2009)在清华大学汉语树库上的实验结果表明这种受限的成分

重组方法表现略好于传统的成分重组方法同时也能较好地解决句法树树结构过

于平坦的问题

- 8 -

小结

纵观上述主流的句法分析方法我们可以看到单一句法分析模型近年的发展

过程在 PCFG 的框架下词汇化和非词汇化看起来是两条相反的路线但是我

们可以从另一个角度找到这两种方法的共同点自然语言的文法含有递归的句法规

则(recursive rules)这种规则容易在句法分析过程中造成句法树的结构歧义例如

英语中的介词短语附着问题(PP-attachment problem)语言学的研究以及树库的出

现为我们提供了一套形式化的自然语言文法但是依照这一套文法建立的统计模

型不能很好的解决递归规则带来的歧义问题早期的基于简单 PCFG 模型的句法分

析器没能获得令人满意的结果恰好印证了这一点 从 Magerman 开始所有基于 PCFG 的模型都在沿着同样的思路进行即在

树库上进行文法改造(grammar refinement)无论是词汇化的句法分析模型将短语

中心词提升到短语标记中的做法还是非词汇化模型中将父亲节点的句法标记加入

到当前节点的句法标记中的做法或者采用拆分合并的操作将部分节点拆分成多个

次范畴化节点的做法都是出于改造树库句法的目的 至此我们可以得出一个结论提高基于 PCFG 的句法分析模型的分析精

度关键在于找到一套合适的文法使得根据这套句法建立的概率模型能够更好的

解决歧义问题重排序方法的出现让我们有可能在句法分析的过程中引入更多的

上下文有关的语言知识(非局部特征)使得树库文法在更多的细节上逼近原本的语

言文法因此采用重排序的方法可以使单个句法分析器的分析精度得到很大的提

高而句法分析器融合的方法为了解决单一句法分析模型解释能力有限的问题

将不同句法特征的分析器的优点结合起来从而取得更好的分析结果

三依存句法分析 5

依存句法分析(dependency parsing)是自然语言句法分析的另一基本技术其

任务是将句子由一个线性的词序列转化为一棵结构化的依存树(dependency tree)以依存弧反映词与词之间的依存关系弧首指向的词(从属词)依存于弧尾指向的词

(支配词)弧的类别表示两个词之间的依存关系依存句法分析可应用于关系抽取

(Culotta amp Sorensen 2004)机器翻译 (Ding amp Palmer 2005)本体构建 (Snow et al 2005)语义角色标记 (Surdeanu et al 2008)等具有广泛的应用背景国际会议

CoNLL 在 2006-2007 年连续两年举行多语言依存句法分析的国际评测(Buchholz amp Marsi 2006Nivre 2007)涵盖包括汉语在内的十几种语言其英文训练和测试语

料均转换自宾州大学英文树库而在 2008-2009 年则相应举办了依存句法分析与

语义角色标记联合学习的国际评测这些国际评测活动大大推动了依存句法分析技

术的发展 同短语句法分析一样目前依存句法分析模型大都基于数据驱动大体可以

分为两类基于图模式(graph-based)的和基于转换(transition-based)的依存句法分析

5 主笔赵海博士后研究员在近两届 CoNLL 依存句法分析评测中获多个第一和第二名现为上海交通大

学计算机系副教授任晓娜访问硕士研究生在读沈阳航空航天大学计算机系

- 9 -

模型前者将依存分析看成有向图中 大生成树的求解问题后者即将依存树的构

建分解为一序列动作由分类器根据当前状态来决定下一个分析动作 基于图的依存句法分析模型

基于图的依存句法分析模型需要为依存树制定一个权重分布而此整棵树的

权重通常分解为各条弧上的权重值的累计和在训练阶段模型学习从训练数据获

得权重分布函数中各个参数的值在测试阶段对给定的句子使用某种搜索算法

找出 优的依存树即具有 大的权重函数值的依存树各类基于图的依存句法分

析模型的区别主要体现在依存树概率函数的定义和搜索算法的不同上 具代表性工作的是 R McDonald 等人实现的 大跨度树(maximum span-

ning tree MST)模型(McDonald et al 2005 2005 2006)此模型将求解 佳分析转化

为寻找待分析句子 高权重的依存句法树问题参数学习采用在线学习算法(online learning algorithm)测试阶段(一阶生成树模型)则采用 Chu-Liu-Edmonds 大生成

树算法该算法具有 O(n2)的复杂度以宾州大学英文树库转换的依存句法分析语

料库做测试其性能 F 值达到 909 如果考虑高阶的跨度树模型典型的如二阶模型则不存在有效的可行算

法需要用一些近似算法来求解这一方面的典型工作可见 McDonald et al (2006)以及 Carreras (2007)高阶跨度树模型不再假定依存树中的弧之间是相互独立的

而是存在着某种联系在计算依存树权重时采用高阶特征即把相邻弧的信息也

作为特征考虑在内基于 CoNLL-2007 的评测该模型取得英文语料上的 佳性

能 这两种基于图的依存模型中弧(或生成树的边)的权重函数值都局限于局部

特征Nakagawa (2007)进一步利用依存树的全局特征将某一节点的兄弟和儿子

节点的信息同时考虑在内加以利用 基于转换的依存句法分析模型

基于转换的依存句法分析模型通过执行一连串动作(action)或转换(transition)

来构建依存树对一个句子将按特定的方向逐一取词进行分析每一步的分析过

程都根据当前状态作出决策采用哪种动作直至句子的 后一个词这样逐步形成

一个完整的依存树就是说任何一个依存树都可以转换到相应的连续动作串

动作的预测是基于已预测的动作所形成的子树各类基于转换的依存句法分析模型

的区别主要在于动作(或转换)策略的不同和估算动作概率所使用的机器学习模型

的不同例如支持向量机(SVM)和 大熵(ME)模型基于转换的依存句法分析的工

作以下决策式依存分析方法 具代表性 Yamada amp Matsumotoy (2003)给出了一个基于移进mdash规约(shift-reduce)算法

的多遍(multipass)决策式分析模型采用三种动作移进(shift)左弧(left-arc)和右

弧(right-arc)每次扫描整个句子通过 right 和 left 操作建立子树直到所有成分

都被挂在一个节点下面这个节点便是整棵依存树的根节点从而形成一棵依存

树其核心思想是针对当前节点对判断该采用哪种操作(shiftleft 或 right)也

- 10 -

就是看作一个三分类问题采用 SVM 来预测各类动作的概率分布Duan et al (2007)等人进一步扩展 Yamada 的分析动作如动作 left 扩展为 left-label(这里 label为某一依存关系标记)通过此扩展来同时预测两子树的依存关系 Nivre (2003)提出了一种类移进mdash规约的确定性依存句法分析算法该算法

中共有四种动作左弧(letf-arc)右弧(right-arc)规约(reduce)和移进(shift)Nivre (2004)又提出了类似由左向右自底向上的分析算法这是一个标准的自底向上的

移进mdash规约算法Titov amp Henderson (2007)同样使用 Nivre 定义的四种动作通过

使用潜在变量的方法获得条件特征从而更准确的计算各类动作的概率值 已有的工作显示依存句法分析的错误分布与所使用的模型相关包括基于

图的和基于转换的模型为更好地将两模型的优点结合起来Nivre amp McDonald (2008)尝试将两种模型进行融合以求得到更优的依存句法分析器其基本做法

是将其中一种模型(如基于图的模型MSTParser)所产生的特征用于另一个模型(如基于转换的模型MaltParser)实验结果显示相比于单独的 MSTParser往其中

添加 MaltParser 所产生的特征使得用来评估依存关系准确率的度量有标连接分 (labeled attachment score LAS)提高 170而往 MaltParser 中添加 MSTParser 产生

的特征则 LAS 提高 127可见此简单融合策略的功效 中文依存句法分析

CoNLL 评测任务(2006 和 2007)的评测是基于多语言的其使用的中文语料

为台湾中研院 Sinica 提供的中文依存句法分析语料 (Sinica 树库)CoNLL-2007 评

测的 优 LAS 值为 8469无标连接分(unlabeled attachment score UAS)值为

8894此前Jin et al ( 2005)通过扩展 Nivre(2003)的移进-归约算法为二阶段的

移进-归约算法在由宾州大学中文树库转化的中文依存语料上得到的依存准确

率为 8442较 Nivre (2003)算法提高 11 目前较常采用的词信息粒度为词性标记和词本身前者过于笼统而后者往

往过于具体引起数据稀疏问题为此Liu et al (2007)根据动词的语法规则对中

文动词进行分类并将分类后得到的动词子类信息应用于中文依存句法分析实验

显示动词的子类信息提高了依存句法分析的性能 我们的工作

在依存句法分析上我们的工作集中于特征提取在 CoNLL-2008 评测中

我们开始使用一种大规模的特征选择算法应用到基于转换的学习模式这一算法

帮助一个 大熵模型取得了优于 SVM 的分析性能(Zhao amp Kit 2008)在 CoNLL-2009 评测中我们继续采用这一策略并推广到包括语义的依存分析中取得了

联合学习部分的英语项目第一名的成绩并且在语义依存的多语种评测中同样总分

第一(Zhao et al 2009)在扩展特征部分我们考虑使用了双语特征我们在中英

文对齐的词典学习基础上同样针对中文取得了目前为止接近 好的性能

- 11 -

四机器翻译 6 在计算语言学的诸多研究领域中机器翻译可以说是 有特色也 能反映整

个领域研究现状的一个分支从上世纪 50 年代至今机器翻译的研究从朴素的词

典翻译到基于规则(rule-based MT)的方法进而发展到基于实例(example-based MT)和基于统计(statistical MT)的方法无不反映该领域当时 具代表性的研究方

法和手段可以认为机器翻译研究的进步是围绕着两个方面进行的第一是资

源即如何得到有效的语言资源第二是操作即如何利用这些资源进行有效的翻

译随着语料库建设和大规模真实文本的电子化基于统计的机器学习的方法从语

料库中获取语言知识的能力不断增强以及机器翻译模型和算法的发展和优化近

年机器翻译研究有了很大进步下面我们将从几个不同的侧重点来简要描述其当前

的发展状况 统计机器翻译 原理上统计机器翻译将翻译过程定义为一个随机过程用一个概率P来描述

一个源语言(S)句子 7转换或对应到一个目标语言(T)句子的机会也就是每个源

句都以一定的概率与某个目标句转换统计翻译就是求得此概率并在目标文本空间

搜寻能使此概率 大化的译文其基本假设是只要有足够大的语料和足够好的统

计方法我们就可以逼近真实翻译的概率分布整个过程似乎不需传统语言学的介

入可以在任意语言之间进行把翻译从一个语言处理问题转化为了一个数学计算

问题 1990 年IBM公司Watson研究中心的研究员Brown和同事在信息论的基础

上首次提出了信源信道(source-channel)模型 8(Brown et al 1990)把源语言句子

看作是目标语言句子通过某个受扰信道所产生的那么翻译就等于将源句ldquo还原rdquo为目标句的过程统计机器翻译所描述的问题原本形式化为

)|(maxarg STPT = 即求以源句 S 为条件下的概率 大的目标句 T在信源信道模型里通过贝叶斯定

理(Bayes Theorem)进行转换以后可以得到 )()|(maxarg TPTSPT = 9

这样统计翻译过程被拆分为对两个概率模型求 大组合概率的过程其中

P(S|T)称之为翻译模型反映源语言和目标语言的对应关系P(T)称为语言模型

反映的是目标语言的合理性即译文的流畅程度这个翻译框架的建立具有两个

极为深刻的意义一采用两个独立的子模型可以分别对翻译过程和结果生成进

行单独评估能更有效地优化翻译结果二分开不同功能的概率模型在方法论

上启发了后来使用更多特征的翻译框架同时也对译文的搜索过程施行更多的约

6 主笔宋彦在读博士生研究机器翻译应用机器翻译及机器学习方法参加上届音译(Transliteration)国际

评测获全部中文相关项目第一名 7 在统计机器翻译中通常是以句子为单位进行处理 8 因来源于信息论故也被称作噪声通道(noisy-channel)模型 9 在数学形式上这里需要假定 P(T)和 P(S|T)相互独立

- 12 -

束翻译模型和语言模型作为两个 基本的子模型在后来的统计机器翻译框架中

也都一直延用 其中翻译模型用于刻画源语言和目标语言之间的转换这种对应关系通常称之

为对齐(alignment)IBM 的研究者提出的翻译模型是在词对齐(word alignment)的基础上进行的一共有 5 个由简到繁的翻译模型通常称之为 IBM 模型 1~5 (Brown et al 1993)模型 1 中仅考虑了词翻译的概率模型 2 是在 1 的基础上加入

了某个词在句中位置的概率模型 34 和 5 又在前面模型的基础上分别加入了产

出率(Fertility即一个词翻译为多个词的概率)句子长度等信息逐步加入更多可

资利用的信息完善翻译过程 值得注意的是IBM采用的对齐方法它是在大规模句对齐的语料基础上进行

的计算源语和目标语言之间词语的共现关系从而确定源语词和目标语词是否构

成互为翻译的词对这种方法原理上不需要任何语言知识就可以自动地获得两语之

间词与词的对译关系只要已知的双语句子足够多就可以得到足够好的词对齐关

系以及相应的对齐概率IBM采用的对齐算法很自然就成为了统计机器翻译的基

石但由于当时计算机硬件条件的限制别人难以重复IBM小组的工作相关研究

因而也一度显得沉寂1999 年在约翰霍普金斯大学(John Hopkins University)举行

的机器翻译夏季研讨班(summer programs)上研究人员再现了当年IBM的工作并

推出开源的统计机器翻译工具包Egypt极大地推动了机器翻译研究的发展其

中词对齐工具Giza被同行广泛认同之后的升级版Giza++10更成为领域内标准的

词对齐工具对此后机器翻译发展产生了深远的影响

基于短语的和基于句法的翻译模型 机器翻译研究中如何得到较好的翻译模型始终是研究人员 为关注的问题

在研究基于词的方法时人们发现此翻译模型在处理句子结构时往往性能不佳主

要是此中涉及的词序调整存在先天缺陷基于词的简单调序模型仅能有效支持近距

离的调序致使在不同的语系(language families)之间进行翻译时 终译文在词序

上难免有较大的偏差无法生成合理词序的译文因此人们考虑将某些翻译片段

捆绑成相对固定的短语以避免一些无谓的调序错误这里所谓的短语不是通常

意义上的句法结构短语 11而是一些简单的多个词语组合因此也称之为非句法短

语采用非句法短语作为翻译单元具有非常高的鲁棒性(robustness)由于更大的

翻译颗粒度或者说更大的处理基元的引入使得对齐结果的再调整更可靠即

便短语内部出现错误的词对齐只要短语的边界识别正确整个短语的对齐仍然是

正确的另一方面已对齐的短语本身也可用作翻译实例在统计方面增强数据关

联除此之外由于翻译颗粒度的增大每次搜索翻译候选项时可以覆盖更大范围

的源文本因此通过调整合适的参数就可以显著提高翻译效率德国亚琛工业

大学的Och (2004)Zens (2002)以及美国南加州大学的Koehn (2003)等学者的研究

是这方面的代表

10 httpcodegooglecompgiza-pp 11 通常定义为可以作为一个完整句法子结构的短语

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 7: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 7 -

Collins 在 WSJ 数据集上的实验这种以后处理模式加入的重排序方法可以在

Collins (1999)模型二的基础上将句法分析 F 值提高 15相当显著 Charniak amp Johnson (2005)则采用和 Collins 十分类似的方法进行重排序但

引入了更多更复杂的上下文特征此外他们的贡献还在于他提出了一种两步式由

粗及细的句法分析方法用以降低在模型比较复杂的情况下使用动态规划算法得

到 n-best 输出时效率低下的问题 重排序的方法作为句法分析器的后处理步骤对句法分析器的 n-best 输出结

果进行重新评分和排序又进一步提高精度的效果但是这样做的问题在于 n-best 输出只是一个很小的选择范围通常我们会发现句法分析器的 n-best 输出之

间差距其实很小据统计大约有 41的正确句法树不包含在句法分析器的 30-best 输出中为此Huang (2008)提出了一种新的森林重排序(forest reranking)的方

法用来扩展重排序的施用空间要点是将重排序嵌入到传统的句法分析过程中

重排序的特征分为两种类型即局部特征和非局部特征当整个森林建立起来之

后局部特征可以预先生成而非局部特征则在解码过程中增量地产生为了解决

效率问题 Huang (2008)还设计了一种近似的解码方法使得训练时间缩短到可接

受的范围之内到目前为止采用重排序方法的单一句法分析器在英文树库中取得

了 优秀的成绩

句法分析器的融合 在单一句法分析模型和重排序技术都很难进一步提升句法分析精度的时候

多个句法分析器的系统融合(parser combination)是改进句法分析质量的另一条途

径目前句法分析器的融合有两种方式句法树选择(parse selection)和成分重组

(constituent recombination) Henderson amp Brill (1999)首先提出这两种方法在实验中使用三个句法分析

器的 1-best 输出结果相对于单个句法分析器的 好成绩有 1的提高Sagae amp Lavie(2006)在其成分投票机制的基础之上引入了二次句法分析(re-parsing)的方法

利用投票所得的各个句法成分的权重对测试句进行第二次的句法分析藉此获得一

棵没有括号交叉的合法的句法树在 WSJ 数据集上取得和前者大体相似的成绩 Fossum amp Knight (2009)对以上两种方法进行了扩展前两者都只使用了各

个句法分析器的 1-best 输出结果而他们则利用各个句法分析器的 n-best 输出结果

进行融合同时他们发现成分重组的方法会产生结构上过于平坦的树虽然在

目前的句法分析评测中可以取得比较好的成绩但这种病态结构的树会对后续的应

用造成影响为此提出了另一种产生式重组的方法可视为对成分重组方法的改

进在 WSJ 数据集上实验结果表明相对于其他两种方法成分重组的方法有微

弱的优势针对成分重组方法的这个问题 Chen et al (2009)尝试了另一种解决方

案即利用训练树库中习的句法规则来限制成分重组的过程使得成分重组生成的

句法树完全遵守树库句法 Chen et al (2009)在清华大学汉语树库上的实验结果表明这种受限的成分

重组方法表现略好于传统的成分重组方法同时也能较好地解决句法树树结构过

于平坦的问题

- 8 -

小结

纵观上述主流的句法分析方法我们可以看到单一句法分析模型近年的发展

过程在 PCFG 的框架下词汇化和非词汇化看起来是两条相反的路线但是我

们可以从另一个角度找到这两种方法的共同点自然语言的文法含有递归的句法规

则(recursive rules)这种规则容易在句法分析过程中造成句法树的结构歧义例如

英语中的介词短语附着问题(PP-attachment problem)语言学的研究以及树库的出

现为我们提供了一套形式化的自然语言文法但是依照这一套文法建立的统计模

型不能很好的解决递归规则带来的歧义问题早期的基于简单 PCFG 模型的句法分

析器没能获得令人满意的结果恰好印证了这一点 从 Magerman 开始所有基于 PCFG 的模型都在沿着同样的思路进行即在

树库上进行文法改造(grammar refinement)无论是词汇化的句法分析模型将短语

中心词提升到短语标记中的做法还是非词汇化模型中将父亲节点的句法标记加入

到当前节点的句法标记中的做法或者采用拆分合并的操作将部分节点拆分成多个

次范畴化节点的做法都是出于改造树库句法的目的 至此我们可以得出一个结论提高基于 PCFG 的句法分析模型的分析精

度关键在于找到一套合适的文法使得根据这套句法建立的概率模型能够更好的

解决歧义问题重排序方法的出现让我们有可能在句法分析的过程中引入更多的

上下文有关的语言知识(非局部特征)使得树库文法在更多的细节上逼近原本的语

言文法因此采用重排序的方法可以使单个句法分析器的分析精度得到很大的提

高而句法分析器融合的方法为了解决单一句法分析模型解释能力有限的问题

将不同句法特征的分析器的优点结合起来从而取得更好的分析结果

三依存句法分析 5

依存句法分析(dependency parsing)是自然语言句法分析的另一基本技术其

任务是将句子由一个线性的词序列转化为一棵结构化的依存树(dependency tree)以依存弧反映词与词之间的依存关系弧首指向的词(从属词)依存于弧尾指向的词

(支配词)弧的类别表示两个词之间的依存关系依存句法分析可应用于关系抽取

(Culotta amp Sorensen 2004)机器翻译 (Ding amp Palmer 2005)本体构建 (Snow et al 2005)语义角色标记 (Surdeanu et al 2008)等具有广泛的应用背景国际会议

CoNLL 在 2006-2007 年连续两年举行多语言依存句法分析的国际评测(Buchholz amp Marsi 2006Nivre 2007)涵盖包括汉语在内的十几种语言其英文训练和测试语

料均转换自宾州大学英文树库而在 2008-2009 年则相应举办了依存句法分析与

语义角色标记联合学习的国际评测这些国际评测活动大大推动了依存句法分析技

术的发展 同短语句法分析一样目前依存句法分析模型大都基于数据驱动大体可以

分为两类基于图模式(graph-based)的和基于转换(transition-based)的依存句法分析

5 主笔赵海博士后研究员在近两届 CoNLL 依存句法分析评测中获多个第一和第二名现为上海交通大

学计算机系副教授任晓娜访问硕士研究生在读沈阳航空航天大学计算机系

- 9 -

模型前者将依存分析看成有向图中 大生成树的求解问题后者即将依存树的构

建分解为一序列动作由分类器根据当前状态来决定下一个分析动作 基于图的依存句法分析模型

基于图的依存句法分析模型需要为依存树制定一个权重分布而此整棵树的

权重通常分解为各条弧上的权重值的累计和在训练阶段模型学习从训练数据获

得权重分布函数中各个参数的值在测试阶段对给定的句子使用某种搜索算法

找出 优的依存树即具有 大的权重函数值的依存树各类基于图的依存句法分

析模型的区别主要体现在依存树概率函数的定义和搜索算法的不同上 具代表性工作的是 R McDonald 等人实现的 大跨度树(maximum span-

ning tree MST)模型(McDonald et al 2005 2005 2006)此模型将求解 佳分析转化

为寻找待分析句子 高权重的依存句法树问题参数学习采用在线学习算法(online learning algorithm)测试阶段(一阶生成树模型)则采用 Chu-Liu-Edmonds 大生成

树算法该算法具有 O(n2)的复杂度以宾州大学英文树库转换的依存句法分析语

料库做测试其性能 F 值达到 909 如果考虑高阶的跨度树模型典型的如二阶模型则不存在有效的可行算

法需要用一些近似算法来求解这一方面的典型工作可见 McDonald et al (2006)以及 Carreras (2007)高阶跨度树模型不再假定依存树中的弧之间是相互独立的

而是存在着某种联系在计算依存树权重时采用高阶特征即把相邻弧的信息也

作为特征考虑在内基于 CoNLL-2007 的评测该模型取得英文语料上的 佳性

能 这两种基于图的依存模型中弧(或生成树的边)的权重函数值都局限于局部

特征Nakagawa (2007)进一步利用依存树的全局特征将某一节点的兄弟和儿子

节点的信息同时考虑在内加以利用 基于转换的依存句法分析模型

基于转换的依存句法分析模型通过执行一连串动作(action)或转换(transition)

来构建依存树对一个句子将按特定的方向逐一取词进行分析每一步的分析过

程都根据当前状态作出决策采用哪种动作直至句子的 后一个词这样逐步形成

一个完整的依存树就是说任何一个依存树都可以转换到相应的连续动作串

动作的预测是基于已预测的动作所形成的子树各类基于转换的依存句法分析模型

的区别主要在于动作(或转换)策略的不同和估算动作概率所使用的机器学习模型

的不同例如支持向量机(SVM)和 大熵(ME)模型基于转换的依存句法分析的工

作以下决策式依存分析方法 具代表性 Yamada amp Matsumotoy (2003)给出了一个基于移进mdash规约(shift-reduce)算法

的多遍(multipass)决策式分析模型采用三种动作移进(shift)左弧(left-arc)和右

弧(right-arc)每次扫描整个句子通过 right 和 left 操作建立子树直到所有成分

都被挂在一个节点下面这个节点便是整棵依存树的根节点从而形成一棵依存

树其核心思想是针对当前节点对判断该采用哪种操作(shiftleft 或 right)也

- 10 -

就是看作一个三分类问题采用 SVM 来预测各类动作的概率分布Duan et al (2007)等人进一步扩展 Yamada 的分析动作如动作 left 扩展为 left-label(这里 label为某一依存关系标记)通过此扩展来同时预测两子树的依存关系 Nivre (2003)提出了一种类移进mdash规约的确定性依存句法分析算法该算法

中共有四种动作左弧(letf-arc)右弧(right-arc)规约(reduce)和移进(shift)Nivre (2004)又提出了类似由左向右自底向上的分析算法这是一个标准的自底向上的

移进mdash规约算法Titov amp Henderson (2007)同样使用 Nivre 定义的四种动作通过

使用潜在变量的方法获得条件特征从而更准确的计算各类动作的概率值 已有的工作显示依存句法分析的错误分布与所使用的模型相关包括基于

图的和基于转换的模型为更好地将两模型的优点结合起来Nivre amp McDonald (2008)尝试将两种模型进行融合以求得到更优的依存句法分析器其基本做法

是将其中一种模型(如基于图的模型MSTParser)所产生的特征用于另一个模型(如基于转换的模型MaltParser)实验结果显示相比于单独的 MSTParser往其中

添加 MaltParser 所产生的特征使得用来评估依存关系准确率的度量有标连接分 (labeled attachment score LAS)提高 170而往 MaltParser 中添加 MSTParser 产生

的特征则 LAS 提高 127可见此简单融合策略的功效 中文依存句法分析

CoNLL 评测任务(2006 和 2007)的评测是基于多语言的其使用的中文语料

为台湾中研院 Sinica 提供的中文依存句法分析语料 (Sinica 树库)CoNLL-2007 评

测的 优 LAS 值为 8469无标连接分(unlabeled attachment score UAS)值为

8894此前Jin et al ( 2005)通过扩展 Nivre(2003)的移进-归约算法为二阶段的

移进-归约算法在由宾州大学中文树库转化的中文依存语料上得到的依存准确

率为 8442较 Nivre (2003)算法提高 11 目前较常采用的词信息粒度为词性标记和词本身前者过于笼统而后者往

往过于具体引起数据稀疏问题为此Liu et al (2007)根据动词的语法规则对中

文动词进行分类并将分类后得到的动词子类信息应用于中文依存句法分析实验

显示动词的子类信息提高了依存句法分析的性能 我们的工作

在依存句法分析上我们的工作集中于特征提取在 CoNLL-2008 评测中

我们开始使用一种大规模的特征选择算法应用到基于转换的学习模式这一算法

帮助一个 大熵模型取得了优于 SVM 的分析性能(Zhao amp Kit 2008)在 CoNLL-2009 评测中我们继续采用这一策略并推广到包括语义的依存分析中取得了

联合学习部分的英语项目第一名的成绩并且在语义依存的多语种评测中同样总分

第一(Zhao et al 2009)在扩展特征部分我们考虑使用了双语特征我们在中英

文对齐的词典学习基础上同样针对中文取得了目前为止接近 好的性能

- 11 -

四机器翻译 6 在计算语言学的诸多研究领域中机器翻译可以说是 有特色也 能反映整

个领域研究现状的一个分支从上世纪 50 年代至今机器翻译的研究从朴素的词

典翻译到基于规则(rule-based MT)的方法进而发展到基于实例(example-based MT)和基于统计(statistical MT)的方法无不反映该领域当时 具代表性的研究方

法和手段可以认为机器翻译研究的进步是围绕着两个方面进行的第一是资

源即如何得到有效的语言资源第二是操作即如何利用这些资源进行有效的翻

译随着语料库建设和大规模真实文本的电子化基于统计的机器学习的方法从语

料库中获取语言知识的能力不断增强以及机器翻译模型和算法的发展和优化近

年机器翻译研究有了很大进步下面我们将从几个不同的侧重点来简要描述其当前

的发展状况 统计机器翻译 原理上统计机器翻译将翻译过程定义为一个随机过程用一个概率P来描述

一个源语言(S)句子 7转换或对应到一个目标语言(T)句子的机会也就是每个源

句都以一定的概率与某个目标句转换统计翻译就是求得此概率并在目标文本空间

搜寻能使此概率 大化的译文其基本假设是只要有足够大的语料和足够好的统

计方法我们就可以逼近真实翻译的概率分布整个过程似乎不需传统语言学的介

入可以在任意语言之间进行把翻译从一个语言处理问题转化为了一个数学计算

问题 1990 年IBM公司Watson研究中心的研究员Brown和同事在信息论的基础

上首次提出了信源信道(source-channel)模型 8(Brown et al 1990)把源语言句子

看作是目标语言句子通过某个受扰信道所产生的那么翻译就等于将源句ldquo还原rdquo为目标句的过程统计机器翻译所描述的问题原本形式化为

)|(maxarg STPT = 即求以源句 S 为条件下的概率 大的目标句 T在信源信道模型里通过贝叶斯定

理(Bayes Theorem)进行转换以后可以得到 )()|(maxarg TPTSPT = 9

这样统计翻译过程被拆分为对两个概率模型求 大组合概率的过程其中

P(S|T)称之为翻译模型反映源语言和目标语言的对应关系P(T)称为语言模型

反映的是目标语言的合理性即译文的流畅程度这个翻译框架的建立具有两个

极为深刻的意义一采用两个独立的子模型可以分别对翻译过程和结果生成进

行单独评估能更有效地优化翻译结果二分开不同功能的概率模型在方法论

上启发了后来使用更多特征的翻译框架同时也对译文的搜索过程施行更多的约

6 主笔宋彦在读博士生研究机器翻译应用机器翻译及机器学习方法参加上届音译(Transliteration)国际

评测获全部中文相关项目第一名 7 在统计机器翻译中通常是以句子为单位进行处理 8 因来源于信息论故也被称作噪声通道(noisy-channel)模型 9 在数学形式上这里需要假定 P(T)和 P(S|T)相互独立

- 12 -

束翻译模型和语言模型作为两个 基本的子模型在后来的统计机器翻译框架中

也都一直延用 其中翻译模型用于刻画源语言和目标语言之间的转换这种对应关系通常称之

为对齐(alignment)IBM 的研究者提出的翻译模型是在词对齐(word alignment)的基础上进行的一共有 5 个由简到繁的翻译模型通常称之为 IBM 模型 1~5 (Brown et al 1993)模型 1 中仅考虑了词翻译的概率模型 2 是在 1 的基础上加入

了某个词在句中位置的概率模型 34 和 5 又在前面模型的基础上分别加入了产

出率(Fertility即一个词翻译为多个词的概率)句子长度等信息逐步加入更多可

资利用的信息完善翻译过程 值得注意的是IBM采用的对齐方法它是在大规模句对齐的语料基础上进行

的计算源语和目标语言之间词语的共现关系从而确定源语词和目标语词是否构

成互为翻译的词对这种方法原理上不需要任何语言知识就可以自动地获得两语之

间词与词的对译关系只要已知的双语句子足够多就可以得到足够好的词对齐关

系以及相应的对齐概率IBM采用的对齐算法很自然就成为了统计机器翻译的基

石但由于当时计算机硬件条件的限制别人难以重复IBM小组的工作相关研究

因而也一度显得沉寂1999 年在约翰霍普金斯大学(John Hopkins University)举行

的机器翻译夏季研讨班(summer programs)上研究人员再现了当年IBM的工作并

推出开源的统计机器翻译工具包Egypt极大地推动了机器翻译研究的发展其

中词对齐工具Giza被同行广泛认同之后的升级版Giza++10更成为领域内标准的

词对齐工具对此后机器翻译发展产生了深远的影响

基于短语的和基于句法的翻译模型 机器翻译研究中如何得到较好的翻译模型始终是研究人员 为关注的问题

在研究基于词的方法时人们发现此翻译模型在处理句子结构时往往性能不佳主

要是此中涉及的词序调整存在先天缺陷基于词的简单调序模型仅能有效支持近距

离的调序致使在不同的语系(language families)之间进行翻译时 终译文在词序

上难免有较大的偏差无法生成合理词序的译文因此人们考虑将某些翻译片段

捆绑成相对固定的短语以避免一些无谓的调序错误这里所谓的短语不是通常

意义上的句法结构短语 11而是一些简单的多个词语组合因此也称之为非句法短

语采用非句法短语作为翻译单元具有非常高的鲁棒性(robustness)由于更大的

翻译颗粒度或者说更大的处理基元的引入使得对齐结果的再调整更可靠即

便短语内部出现错误的词对齐只要短语的边界识别正确整个短语的对齐仍然是

正确的另一方面已对齐的短语本身也可用作翻译实例在统计方面增强数据关

联除此之外由于翻译颗粒度的增大每次搜索翻译候选项时可以覆盖更大范围

的源文本因此通过调整合适的参数就可以显著提高翻译效率德国亚琛工业

大学的Och (2004)Zens (2002)以及美国南加州大学的Koehn (2003)等学者的研究

是这方面的代表

10 httpcodegooglecompgiza-pp 11 通常定义为可以作为一个完整句法子结构的短语

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 8: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 8 -

小结

纵观上述主流的句法分析方法我们可以看到单一句法分析模型近年的发展

过程在 PCFG 的框架下词汇化和非词汇化看起来是两条相反的路线但是我

们可以从另一个角度找到这两种方法的共同点自然语言的文法含有递归的句法规

则(recursive rules)这种规则容易在句法分析过程中造成句法树的结构歧义例如

英语中的介词短语附着问题(PP-attachment problem)语言学的研究以及树库的出

现为我们提供了一套形式化的自然语言文法但是依照这一套文法建立的统计模

型不能很好的解决递归规则带来的歧义问题早期的基于简单 PCFG 模型的句法分

析器没能获得令人满意的结果恰好印证了这一点 从 Magerman 开始所有基于 PCFG 的模型都在沿着同样的思路进行即在

树库上进行文法改造(grammar refinement)无论是词汇化的句法分析模型将短语

中心词提升到短语标记中的做法还是非词汇化模型中将父亲节点的句法标记加入

到当前节点的句法标记中的做法或者采用拆分合并的操作将部分节点拆分成多个

次范畴化节点的做法都是出于改造树库句法的目的 至此我们可以得出一个结论提高基于 PCFG 的句法分析模型的分析精

度关键在于找到一套合适的文法使得根据这套句法建立的概率模型能够更好的

解决歧义问题重排序方法的出现让我们有可能在句法分析的过程中引入更多的

上下文有关的语言知识(非局部特征)使得树库文法在更多的细节上逼近原本的语

言文法因此采用重排序的方法可以使单个句法分析器的分析精度得到很大的提

高而句法分析器融合的方法为了解决单一句法分析模型解释能力有限的问题

将不同句法特征的分析器的优点结合起来从而取得更好的分析结果

三依存句法分析 5

依存句法分析(dependency parsing)是自然语言句法分析的另一基本技术其

任务是将句子由一个线性的词序列转化为一棵结构化的依存树(dependency tree)以依存弧反映词与词之间的依存关系弧首指向的词(从属词)依存于弧尾指向的词

(支配词)弧的类别表示两个词之间的依存关系依存句法分析可应用于关系抽取

(Culotta amp Sorensen 2004)机器翻译 (Ding amp Palmer 2005)本体构建 (Snow et al 2005)语义角色标记 (Surdeanu et al 2008)等具有广泛的应用背景国际会议

CoNLL 在 2006-2007 年连续两年举行多语言依存句法分析的国际评测(Buchholz amp Marsi 2006Nivre 2007)涵盖包括汉语在内的十几种语言其英文训练和测试语

料均转换自宾州大学英文树库而在 2008-2009 年则相应举办了依存句法分析与

语义角色标记联合学习的国际评测这些国际评测活动大大推动了依存句法分析技

术的发展 同短语句法分析一样目前依存句法分析模型大都基于数据驱动大体可以

分为两类基于图模式(graph-based)的和基于转换(transition-based)的依存句法分析

5 主笔赵海博士后研究员在近两届 CoNLL 依存句法分析评测中获多个第一和第二名现为上海交通大

学计算机系副教授任晓娜访问硕士研究生在读沈阳航空航天大学计算机系

- 9 -

模型前者将依存分析看成有向图中 大生成树的求解问题后者即将依存树的构

建分解为一序列动作由分类器根据当前状态来决定下一个分析动作 基于图的依存句法分析模型

基于图的依存句法分析模型需要为依存树制定一个权重分布而此整棵树的

权重通常分解为各条弧上的权重值的累计和在训练阶段模型学习从训练数据获

得权重分布函数中各个参数的值在测试阶段对给定的句子使用某种搜索算法

找出 优的依存树即具有 大的权重函数值的依存树各类基于图的依存句法分

析模型的区别主要体现在依存树概率函数的定义和搜索算法的不同上 具代表性工作的是 R McDonald 等人实现的 大跨度树(maximum span-

ning tree MST)模型(McDonald et al 2005 2005 2006)此模型将求解 佳分析转化

为寻找待分析句子 高权重的依存句法树问题参数学习采用在线学习算法(online learning algorithm)测试阶段(一阶生成树模型)则采用 Chu-Liu-Edmonds 大生成

树算法该算法具有 O(n2)的复杂度以宾州大学英文树库转换的依存句法分析语

料库做测试其性能 F 值达到 909 如果考虑高阶的跨度树模型典型的如二阶模型则不存在有效的可行算

法需要用一些近似算法来求解这一方面的典型工作可见 McDonald et al (2006)以及 Carreras (2007)高阶跨度树模型不再假定依存树中的弧之间是相互独立的

而是存在着某种联系在计算依存树权重时采用高阶特征即把相邻弧的信息也

作为特征考虑在内基于 CoNLL-2007 的评测该模型取得英文语料上的 佳性

能 这两种基于图的依存模型中弧(或生成树的边)的权重函数值都局限于局部

特征Nakagawa (2007)进一步利用依存树的全局特征将某一节点的兄弟和儿子

节点的信息同时考虑在内加以利用 基于转换的依存句法分析模型

基于转换的依存句法分析模型通过执行一连串动作(action)或转换(transition)

来构建依存树对一个句子将按特定的方向逐一取词进行分析每一步的分析过

程都根据当前状态作出决策采用哪种动作直至句子的 后一个词这样逐步形成

一个完整的依存树就是说任何一个依存树都可以转换到相应的连续动作串

动作的预测是基于已预测的动作所形成的子树各类基于转换的依存句法分析模型

的区别主要在于动作(或转换)策略的不同和估算动作概率所使用的机器学习模型

的不同例如支持向量机(SVM)和 大熵(ME)模型基于转换的依存句法分析的工

作以下决策式依存分析方法 具代表性 Yamada amp Matsumotoy (2003)给出了一个基于移进mdash规约(shift-reduce)算法

的多遍(multipass)决策式分析模型采用三种动作移进(shift)左弧(left-arc)和右

弧(right-arc)每次扫描整个句子通过 right 和 left 操作建立子树直到所有成分

都被挂在一个节点下面这个节点便是整棵依存树的根节点从而形成一棵依存

树其核心思想是针对当前节点对判断该采用哪种操作(shiftleft 或 right)也

- 10 -

就是看作一个三分类问题采用 SVM 来预测各类动作的概率分布Duan et al (2007)等人进一步扩展 Yamada 的分析动作如动作 left 扩展为 left-label(这里 label为某一依存关系标记)通过此扩展来同时预测两子树的依存关系 Nivre (2003)提出了一种类移进mdash规约的确定性依存句法分析算法该算法

中共有四种动作左弧(letf-arc)右弧(right-arc)规约(reduce)和移进(shift)Nivre (2004)又提出了类似由左向右自底向上的分析算法这是一个标准的自底向上的

移进mdash规约算法Titov amp Henderson (2007)同样使用 Nivre 定义的四种动作通过

使用潜在变量的方法获得条件特征从而更准确的计算各类动作的概率值 已有的工作显示依存句法分析的错误分布与所使用的模型相关包括基于

图的和基于转换的模型为更好地将两模型的优点结合起来Nivre amp McDonald (2008)尝试将两种模型进行融合以求得到更优的依存句法分析器其基本做法

是将其中一种模型(如基于图的模型MSTParser)所产生的特征用于另一个模型(如基于转换的模型MaltParser)实验结果显示相比于单独的 MSTParser往其中

添加 MaltParser 所产生的特征使得用来评估依存关系准确率的度量有标连接分 (labeled attachment score LAS)提高 170而往 MaltParser 中添加 MSTParser 产生

的特征则 LAS 提高 127可见此简单融合策略的功效 中文依存句法分析

CoNLL 评测任务(2006 和 2007)的评测是基于多语言的其使用的中文语料

为台湾中研院 Sinica 提供的中文依存句法分析语料 (Sinica 树库)CoNLL-2007 评

测的 优 LAS 值为 8469无标连接分(unlabeled attachment score UAS)值为

8894此前Jin et al ( 2005)通过扩展 Nivre(2003)的移进-归约算法为二阶段的

移进-归约算法在由宾州大学中文树库转化的中文依存语料上得到的依存准确

率为 8442较 Nivre (2003)算法提高 11 目前较常采用的词信息粒度为词性标记和词本身前者过于笼统而后者往

往过于具体引起数据稀疏问题为此Liu et al (2007)根据动词的语法规则对中

文动词进行分类并将分类后得到的动词子类信息应用于中文依存句法分析实验

显示动词的子类信息提高了依存句法分析的性能 我们的工作

在依存句法分析上我们的工作集中于特征提取在 CoNLL-2008 评测中

我们开始使用一种大规模的特征选择算法应用到基于转换的学习模式这一算法

帮助一个 大熵模型取得了优于 SVM 的分析性能(Zhao amp Kit 2008)在 CoNLL-2009 评测中我们继续采用这一策略并推广到包括语义的依存分析中取得了

联合学习部分的英语项目第一名的成绩并且在语义依存的多语种评测中同样总分

第一(Zhao et al 2009)在扩展特征部分我们考虑使用了双语特征我们在中英

文对齐的词典学习基础上同样针对中文取得了目前为止接近 好的性能

- 11 -

四机器翻译 6 在计算语言学的诸多研究领域中机器翻译可以说是 有特色也 能反映整

个领域研究现状的一个分支从上世纪 50 年代至今机器翻译的研究从朴素的词

典翻译到基于规则(rule-based MT)的方法进而发展到基于实例(example-based MT)和基于统计(statistical MT)的方法无不反映该领域当时 具代表性的研究方

法和手段可以认为机器翻译研究的进步是围绕着两个方面进行的第一是资

源即如何得到有效的语言资源第二是操作即如何利用这些资源进行有效的翻

译随着语料库建设和大规模真实文本的电子化基于统计的机器学习的方法从语

料库中获取语言知识的能力不断增强以及机器翻译模型和算法的发展和优化近

年机器翻译研究有了很大进步下面我们将从几个不同的侧重点来简要描述其当前

的发展状况 统计机器翻译 原理上统计机器翻译将翻译过程定义为一个随机过程用一个概率P来描述

一个源语言(S)句子 7转换或对应到一个目标语言(T)句子的机会也就是每个源

句都以一定的概率与某个目标句转换统计翻译就是求得此概率并在目标文本空间

搜寻能使此概率 大化的译文其基本假设是只要有足够大的语料和足够好的统

计方法我们就可以逼近真实翻译的概率分布整个过程似乎不需传统语言学的介

入可以在任意语言之间进行把翻译从一个语言处理问题转化为了一个数学计算

问题 1990 年IBM公司Watson研究中心的研究员Brown和同事在信息论的基础

上首次提出了信源信道(source-channel)模型 8(Brown et al 1990)把源语言句子

看作是目标语言句子通过某个受扰信道所产生的那么翻译就等于将源句ldquo还原rdquo为目标句的过程统计机器翻译所描述的问题原本形式化为

)|(maxarg STPT = 即求以源句 S 为条件下的概率 大的目标句 T在信源信道模型里通过贝叶斯定

理(Bayes Theorem)进行转换以后可以得到 )()|(maxarg TPTSPT = 9

这样统计翻译过程被拆分为对两个概率模型求 大组合概率的过程其中

P(S|T)称之为翻译模型反映源语言和目标语言的对应关系P(T)称为语言模型

反映的是目标语言的合理性即译文的流畅程度这个翻译框架的建立具有两个

极为深刻的意义一采用两个独立的子模型可以分别对翻译过程和结果生成进

行单独评估能更有效地优化翻译结果二分开不同功能的概率模型在方法论

上启发了后来使用更多特征的翻译框架同时也对译文的搜索过程施行更多的约

6 主笔宋彦在读博士生研究机器翻译应用机器翻译及机器学习方法参加上届音译(Transliteration)国际

评测获全部中文相关项目第一名 7 在统计机器翻译中通常是以句子为单位进行处理 8 因来源于信息论故也被称作噪声通道(noisy-channel)模型 9 在数学形式上这里需要假定 P(T)和 P(S|T)相互独立

- 12 -

束翻译模型和语言模型作为两个 基本的子模型在后来的统计机器翻译框架中

也都一直延用 其中翻译模型用于刻画源语言和目标语言之间的转换这种对应关系通常称之

为对齐(alignment)IBM 的研究者提出的翻译模型是在词对齐(word alignment)的基础上进行的一共有 5 个由简到繁的翻译模型通常称之为 IBM 模型 1~5 (Brown et al 1993)模型 1 中仅考虑了词翻译的概率模型 2 是在 1 的基础上加入

了某个词在句中位置的概率模型 34 和 5 又在前面模型的基础上分别加入了产

出率(Fertility即一个词翻译为多个词的概率)句子长度等信息逐步加入更多可

资利用的信息完善翻译过程 值得注意的是IBM采用的对齐方法它是在大规模句对齐的语料基础上进行

的计算源语和目标语言之间词语的共现关系从而确定源语词和目标语词是否构

成互为翻译的词对这种方法原理上不需要任何语言知识就可以自动地获得两语之

间词与词的对译关系只要已知的双语句子足够多就可以得到足够好的词对齐关

系以及相应的对齐概率IBM采用的对齐算法很自然就成为了统计机器翻译的基

石但由于当时计算机硬件条件的限制别人难以重复IBM小组的工作相关研究

因而也一度显得沉寂1999 年在约翰霍普金斯大学(John Hopkins University)举行

的机器翻译夏季研讨班(summer programs)上研究人员再现了当年IBM的工作并

推出开源的统计机器翻译工具包Egypt极大地推动了机器翻译研究的发展其

中词对齐工具Giza被同行广泛认同之后的升级版Giza++10更成为领域内标准的

词对齐工具对此后机器翻译发展产生了深远的影响

基于短语的和基于句法的翻译模型 机器翻译研究中如何得到较好的翻译模型始终是研究人员 为关注的问题

在研究基于词的方法时人们发现此翻译模型在处理句子结构时往往性能不佳主

要是此中涉及的词序调整存在先天缺陷基于词的简单调序模型仅能有效支持近距

离的调序致使在不同的语系(language families)之间进行翻译时 终译文在词序

上难免有较大的偏差无法生成合理词序的译文因此人们考虑将某些翻译片段

捆绑成相对固定的短语以避免一些无谓的调序错误这里所谓的短语不是通常

意义上的句法结构短语 11而是一些简单的多个词语组合因此也称之为非句法短

语采用非句法短语作为翻译单元具有非常高的鲁棒性(robustness)由于更大的

翻译颗粒度或者说更大的处理基元的引入使得对齐结果的再调整更可靠即

便短语内部出现错误的词对齐只要短语的边界识别正确整个短语的对齐仍然是

正确的另一方面已对齐的短语本身也可用作翻译实例在统计方面增强数据关

联除此之外由于翻译颗粒度的增大每次搜索翻译候选项时可以覆盖更大范围

的源文本因此通过调整合适的参数就可以显著提高翻译效率德国亚琛工业

大学的Och (2004)Zens (2002)以及美国南加州大学的Koehn (2003)等学者的研究

是这方面的代表

10 httpcodegooglecompgiza-pp 11 通常定义为可以作为一个完整句法子结构的短语

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 9: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 9 -

模型前者将依存分析看成有向图中 大生成树的求解问题后者即将依存树的构

建分解为一序列动作由分类器根据当前状态来决定下一个分析动作 基于图的依存句法分析模型

基于图的依存句法分析模型需要为依存树制定一个权重分布而此整棵树的

权重通常分解为各条弧上的权重值的累计和在训练阶段模型学习从训练数据获

得权重分布函数中各个参数的值在测试阶段对给定的句子使用某种搜索算法

找出 优的依存树即具有 大的权重函数值的依存树各类基于图的依存句法分

析模型的区别主要体现在依存树概率函数的定义和搜索算法的不同上 具代表性工作的是 R McDonald 等人实现的 大跨度树(maximum span-

ning tree MST)模型(McDonald et al 2005 2005 2006)此模型将求解 佳分析转化

为寻找待分析句子 高权重的依存句法树问题参数学习采用在线学习算法(online learning algorithm)测试阶段(一阶生成树模型)则采用 Chu-Liu-Edmonds 大生成

树算法该算法具有 O(n2)的复杂度以宾州大学英文树库转换的依存句法分析语

料库做测试其性能 F 值达到 909 如果考虑高阶的跨度树模型典型的如二阶模型则不存在有效的可行算

法需要用一些近似算法来求解这一方面的典型工作可见 McDonald et al (2006)以及 Carreras (2007)高阶跨度树模型不再假定依存树中的弧之间是相互独立的

而是存在着某种联系在计算依存树权重时采用高阶特征即把相邻弧的信息也

作为特征考虑在内基于 CoNLL-2007 的评测该模型取得英文语料上的 佳性

能 这两种基于图的依存模型中弧(或生成树的边)的权重函数值都局限于局部

特征Nakagawa (2007)进一步利用依存树的全局特征将某一节点的兄弟和儿子

节点的信息同时考虑在内加以利用 基于转换的依存句法分析模型

基于转换的依存句法分析模型通过执行一连串动作(action)或转换(transition)

来构建依存树对一个句子将按特定的方向逐一取词进行分析每一步的分析过

程都根据当前状态作出决策采用哪种动作直至句子的 后一个词这样逐步形成

一个完整的依存树就是说任何一个依存树都可以转换到相应的连续动作串

动作的预测是基于已预测的动作所形成的子树各类基于转换的依存句法分析模型

的区别主要在于动作(或转换)策略的不同和估算动作概率所使用的机器学习模型

的不同例如支持向量机(SVM)和 大熵(ME)模型基于转换的依存句法分析的工

作以下决策式依存分析方法 具代表性 Yamada amp Matsumotoy (2003)给出了一个基于移进mdash规约(shift-reduce)算法

的多遍(multipass)决策式分析模型采用三种动作移进(shift)左弧(left-arc)和右

弧(right-arc)每次扫描整个句子通过 right 和 left 操作建立子树直到所有成分

都被挂在一个节点下面这个节点便是整棵依存树的根节点从而形成一棵依存

树其核心思想是针对当前节点对判断该采用哪种操作(shiftleft 或 right)也

- 10 -

就是看作一个三分类问题采用 SVM 来预测各类动作的概率分布Duan et al (2007)等人进一步扩展 Yamada 的分析动作如动作 left 扩展为 left-label(这里 label为某一依存关系标记)通过此扩展来同时预测两子树的依存关系 Nivre (2003)提出了一种类移进mdash规约的确定性依存句法分析算法该算法

中共有四种动作左弧(letf-arc)右弧(right-arc)规约(reduce)和移进(shift)Nivre (2004)又提出了类似由左向右自底向上的分析算法这是一个标准的自底向上的

移进mdash规约算法Titov amp Henderson (2007)同样使用 Nivre 定义的四种动作通过

使用潜在变量的方法获得条件特征从而更准确的计算各类动作的概率值 已有的工作显示依存句法分析的错误分布与所使用的模型相关包括基于

图的和基于转换的模型为更好地将两模型的优点结合起来Nivre amp McDonald (2008)尝试将两种模型进行融合以求得到更优的依存句法分析器其基本做法

是将其中一种模型(如基于图的模型MSTParser)所产生的特征用于另一个模型(如基于转换的模型MaltParser)实验结果显示相比于单独的 MSTParser往其中

添加 MaltParser 所产生的特征使得用来评估依存关系准确率的度量有标连接分 (labeled attachment score LAS)提高 170而往 MaltParser 中添加 MSTParser 产生

的特征则 LAS 提高 127可见此简单融合策略的功效 中文依存句法分析

CoNLL 评测任务(2006 和 2007)的评测是基于多语言的其使用的中文语料

为台湾中研院 Sinica 提供的中文依存句法分析语料 (Sinica 树库)CoNLL-2007 评

测的 优 LAS 值为 8469无标连接分(unlabeled attachment score UAS)值为

8894此前Jin et al ( 2005)通过扩展 Nivre(2003)的移进-归约算法为二阶段的

移进-归约算法在由宾州大学中文树库转化的中文依存语料上得到的依存准确

率为 8442较 Nivre (2003)算法提高 11 目前较常采用的词信息粒度为词性标记和词本身前者过于笼统而后者往

往过于具体引起数据稀疏问题为此Liu et al (2007)根据动词的语法规则对中

文动词进行分类并将分类后得到的动词子类信息应用于中文依存句法分析实验

显示动词的子类信息提高了依存句法分析的性能 我们的工作

在依存句法分析上我们的工作集中于特征提取在 CoNLL-2008 评测中

我们开始使用一种大规模的特征选择算法应用到基于转换的学习模式这一算法

帮助一个 大熵模型取得了优于 SVM 的分析性能(Zhao amp Kit 2008)在 CoNLL-2009 评测中我们继续采用这一策略并推广到包括语义的依存分析中取得了

联合学习部分的英语项目第一名的成绩并且在语义依存的多语种评测中同样总分

第一(Zhao et al 2009)在扩展特征部分我们考虑使用了双语特征我们在中英

文对齐的词典学习基础上同样针对中文取得了目前为止接近 好的性能

- 11 -

四机器翻译 6 在计算语言学的诸多研究领域中机器翻译可以说是 有特色也 能反映整

个领域研究现状的一个分支从上世纪 50 年代至今机器翻译的研究从朴素的词

典翻译到基于规则(rule-based MT)的方法进而发展到基于实例(example-based MT)和基于统计(statistical MT)的方法无不反映该领域当时 具代表性的研究方

法和手段可以认为机器翻译研究的进步是围绕着两个方面进行的第一是资

源即如何得到有效的语言资源第二是操作即如何利用这些资源进行有效的翻

译随着语料库建设和大规模真实文本的电子化基于统计的机器学习的方法从语

料库中获取语言知识的能力不断增强以及机器翻译模型和算法的发展和优化近

年机器翻译研究有了很大进步下面我们将从几个不同的侧重点来简要描述其当前

的发展状况 统计机器翻译 原理上统计机器翻译将翻译过程定义为一个随机过程用一个概率P来描述

一个源语言(S)句子 7转换或对应到一个目标语言(T)句子的机会也就是每个源

句都以一定的概率与某个目标句转换统计翻译就是求得此概率并在目标文本空间

搜寻能使此概率 大化的译文其基本假设是只要有足够大的语料和足够好的统

计方法我们就可以逼近真实翻译的概率分布整个过程似乎不需传统语言学的介

入可以在任意语言之间进行把翻译从一个语言处理问题转化为了一个数学计算

问题 1990 年IBM公司Watson研究中心的研究员Brown和同事在信息论的基础

上首次提出了信源信道(source-channel)模型 8(Brown et al 1990)把源语言句子

看作是目标语言句子通过某个受扰信道所产生的那么翻译就等于将源句ldquo还原rdquo为目标句的过程统计机器翻译所描述的问题原本形式化为

)|(maxarg STPT = 即求以源句 S 为条件下的概率 大的目标句 T在信源信道模型里通过贝叶斯定

理(Bayes Theorem)进行转换以后可以得到 )()|(maxarg TPTSPT = 9

这样统计翻译过程被拆分为对两个概率模型求 大组合概率的过程其中

P(S|T)称之为翻译模型反映源语言和目标语言的对应关系P(T)称为语言模型

反映的是目标语言的合理性即译文的流畅程度这个翻译框架的建立具有两个

极为深刻的意义一采用两个独立的子模型可以分别对翻译过程和结果生成进

行单独评估能更有效地优化翻译结果二分开不同功能的概率模型在方法论

上启发了后来使用更多特征的翻译框架同时也对译文的搜索过程施行更多的约

6 主笔宋彦在读博士生研究机器翻译应用机器翻译及机器学习方法参加上届音译(Transliteration)国际

评测获全部中文相关项目第一名 7 在统计机器翻译中通常是以句子为单位进行处理 8 因来源于信息论故也被称作噪声通道(noisy-channel)模型 9 在数学形式上这里需要假定 P(T)和 P(S|T)相互独立

- 12 -

束翻译模型和语言模型作为两个 基本的子模型在后来的统计机器翻译框架中

也都一直延用 其中翻译模型用于刻画源语言和目标语言之间的转换这种对应关系通常称之

为对齐(alignment)IBM 的研究者提出的翻译模型是在词对齐(word alignment)的基础上进行的一共有 5 个由简到繁的翻译模型通常称之为 IBM 模型 1~5 (Brown et al 1993)模型 1 中仅考虑了词翻译的概率模型 2 是在 1 的基础上加入

了某个词在句中位置的概率模型 34 和 5 又在前面模型的基础上分别加入了产

出率(Fertility即一个词翻译为多个词的概率)句子长度等信息逐步加入更多可

资利用的信息完善翻译过程 值得注意的是IBM采用的对齐方法它是在大规模句对齐的语料基础上进行

的计算源语和目标语言之间词语的共现关系从而确定源语词和目标语词是否构

成互为翻译的词对这种方法原理上不需要任何语言知识就可以自动地获得两语之

间词与词的对译关系只要已知的双语句子足够多就可以得到足够好的词对齐关

系以及相应的对齐概率IBM采用的对齐算法很自然就成为了统计机器翻译的基

石但由于当时计算机硬件条件的限制别人难以重复IBM小组的工作相关研究

因而也一度显得沉寂1999 年在约翰霍普金斯大学(John Hopkins University)举行

的机器翻译夏季研讨班(summer programs)上研究人员再现了当年IBM的工作并

推出开源的统计机器翻译工具包Egypt极大地推动了机器翻译研究的发展其

中词对齐工具Giza被同行广泛认同之后的升级版Giza++10更成为领域内标准的

词对齐工具对此后机器翻译发展产生了深远的影响

基于短语的和基于句法的翻译模型 机器翻译研究中如何得到较好的翻译模型始终是研究人员 为关注的问题

在研究基于词的方法时人们发现此翻译模型在处理句子结构时往往性能不佳主

要是此中涉及的词序调整存在先天缺陷基于词的简单调序模型仅能有效支持近距

离的调序致使在不同的语系(language families)之间进行翻译时 终译文在词序

上难免有较大的偏差无法生成合理词序的译文因此人们考虑将某些翻译片段

捆绑成相对固定的短语以避免一些无谓的调序错误这里所谓的短语不是通常

意义上的句法结构短语 11而是一些简单的多个词语组合因此也称之为非句法短

语采用非句法短语作为翻译单元具有非常高的鲁棒性(robustness)由于更大的

翻译颗粒度或者说更大的处理基元的引入使得对齐结果的再调整更可靠即

便短语内部出现错误的词对齐只要短语的边界识别正确整个短语的对齐仍然是

正确的另一方面已对齐的短语本身也可用作翻译实例在统计方面增强数据关

联除此之外由于翻译颗粒度的增大每次搜索翻译候选项时可以覆盖更大范围

的源文本因此通过调整合适的参数就可以显著提高翻译效率德国亚琛工业

大学的Och (2004)Zens (2002)以及美国南加州大学的Koehn (2003)等学者的研究

是这方面的代表

10 httpcodegooglecompgiza-pp 11 通常定义为可以作为一个完整句法子结构的短语

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 10: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 10 -

就是看作一个三分类问题采用 SVM 来预测各类动作的概率分布Duan et al (2007)等人进一步扩展 Yamada 的分析动作如动作 left 扩展为 left-label(这里 label为某一依存关系标记)通过此扩展来同时预测两子树的依存关系 Nivre (2003)提出了一种类移进mdash规约的确定性依存句法分析算法该算法

中共有四种动作左弧(letf-arc)右弧(right-arc)规约(reduce)和移进(shift)Nivre (2004)又提出了类似由左向右自底向上的分析算法这是一个标准的自底向上的

移进mdash规约算法Titov amp Henderson (2007)同样使用 Nivre 定义的四种动作通过

使用潜在变量的方法获得条件特征从而更准确的计算各类动作的概率值 已有的工作显示依存句法分析的错误分布与所使用的模型相关包括基于

图的和基于转换的模型为更好地将两模型的优点结合起来Nivre amp McDonald (2008)尝试将两种模型进行融合以求得到更优的依存句法分析器其基本做法

是将其中一种模型(如基于图的模型MSTParser)所产生的特征用于另一个模型(如基于转换的模型MaltParser)实验结果显示相比于单独的 MSTParser往其中

添加 MaltParser 所产生的特征使得用来评估依存关系准确率的度量有标连接分 (labeled attachment score LAS)提高 170而往 MaltParser 中添加 MSTParser 产生

的特征则 LAS 提高 127可见此简单融合策略的功效 中文依存句法分析

CoNLL 评测任务(2006 和 2007)的评测是基于多语言的其使用的中文语料

为台湾中研院 Sinica 提供的中文依存句法分析语料 (Sinica 树库)CoNLL-2007 评

测的 优 LAS 值为 8469无标连接分(unlabeled attachment score UAS)值为

8894此前Jin et al ( 2005)通过扩展 Nivre(2003)的移进-归约算法为二阶段的

移进-归约算法在由宾州大学中文树库转化的中文依存语料上得到的依存准确

率为 8442较 Nivre (2003)算法提高 11 目前较常采用的词信息粒度为词性标记和词本身前者过于笼统而后者往

往过于具体引起数据稀疏问题为此Liu et al (2007)根据动词的语法规则对中

文动词进行分类并将分类后得到的动词子类信息应用于中文依存句法分析实验

显示动词的子类信息提高了依存句法分析的性能 我们的工作

在依存句法分析上我们的工作集中于特征提取在 CoNLL-2008 评测中

我们开始使用一种大规模的特征选择算法应用到基于转换的学习模式这一算法

帮助一个 大熵模型取得了优于 SVM 的分析性能(Zhao amp Kit 2008)在 CoNLL-2009 评测中我们继续采用这一策略并推广到包括语义的依存分析中取得了

联合学习部分的英语项目第一名的成绩并且在语义依存的多语种评测中同样总分

第一(Zhao et al 2009)在扩展特征部分我们考虑使用了双语特征我们在中英

文对齐的词典学习基础上同样针对中文取得了目前为止接近 好的性能

- 11 -

四机器翻译 6 在计算语言学的诸多研究领域中机器翻译可以说是 有特色也 能反映整

个领域研究现状的一个分支从上世纪 50 年代至今机器翻译的研究从朴素的词

典翻译到基于规则(rule-based MT)的方法进而发展到基于实例(example-based MT)和基于统计(statistical MT)的方法无不反映该领域当时 具代表性的研究方

法和手段可以认为机器翻译研究的进步是围绕着两个方面进行的第一是资

源即如何得到有效的语言资源第二是操作即如何利用这些资源进行有效的翻

译随着语料库建设和大规模真实文本的电子化基于统计的机器学习的方法从语

料库中获取语言知识的能力不断增强以及机器翻译模型和算法的发展和优化近

年机器翻译研究有了很大进步下面我们将从几个不同的侧重点来简要描述其当前

的发展状况 统计机器翻译 原理上统计机器翻译将翻译过程定义为一个随机过程用一个概率P来描述

一个源语言(S)句子 7转换或对应到一个目标语言(T)句子的机会也就是每个源

句都以一定的概率与某个目标句转换统计翻译就是求得此概率并在目标文本空间

搜寻能使此概率 大化的译文其基本假设是只要有足够大的语料和足够好的统

计方法我们就可以逼近真实翻译的概率分布整个过程似乎不需传统语言学的介

入可以在任意语言之间进行把翻译从一个语言处理问题转化为了一个数学计算

问题 1990 年IBM公司Watson研究中心的研究员Brown和同事在信息论的基础

上首次提出了信源信道(source-channel)模型 8(Brown et al 1990)把源语言句子

看作是目标语言句子通过某个受扰信道所产生的那么翻译就等于将源句ldquo还原rdquo为目标句的过程统计机器翻译所描述的问题原本形式化为

)|(maxarg STPT = 即求以源句 S 为条件下的概率 大的目标句 T在信源信道模型里通过贝叶斯定

理(Bayes Theorem)进行转换以后可以得到 )()|(maxarg TPTSPT = 9

这样统计翻译过程被拆分为对两个概率模型求 大组合概率的过程其中

P(S|T)称之为翻译模型反映源语言和目标语言的对应关系P(T)称为语言模型

反映的是目标语言的合理性即译文的流畅程度这个翻译框架的建立具有两个

极为深刻的意义一采用两个独立的子模型可以分别对翻译过程和结果生成进

行单独评估能更有效地优化翻译结果二分开不同功能的概率模型在方法论

上启发了后来使用更多特征的翻译框架同时也对译文的搜索过程施行更多的约

6 主笔宋彦在读博士生研究机器翻译应用机器翻译及机器学习方法参加上届音译(Transliteration)国际

评测获全部中文相关项目第一名 7 在统计机器翻译中通常是以句子为单位进行处理 8 因来源于信息论故也被称作噪声通道(noisy-channel)模型 9 在数学形式上这里需要假定 P(T)和 P(S|T)相互独立

- 12 -

束翻译模型和语言模型作为两个 基本的子模型在后来的统计机器翻译框架中

也都一直延用 其中翻译模型用于刻画源语言和目标语言之间的转换这种对应关系通常称之

为对齐(alignment)IBM 的研究者提出的翻译模型是在词对齐(word alignment)的基础上进行的一共有 5 个由简到繁的翻译模型通常称之为 IBM 模型 1~5 (Brown et al 1993)模型 1 中仅考虑了词翻译的概率模型 2 是在 1 的基础上加入

了某个词在句中位置的概率模型 34 和 5 又在前面模型的基础上分别加入了产

出率(Fertility即一个词翻译为多个词的概率)句子长度等信息逐步加入更多可

资利用的信息完善翻译过程 值得注意的是IBM采用的对齐方法它是在大规模句对齐的语料基础上进行

的计算源语和目标语言之间词语的共现关系从而确定源语词和目标语词是否构

成互为翻译的词对这种方法原理上不需要任何语言知识就可以自动地获得两语之

间词与词的对译关系只要已知的双语句子足够多就可以得到足够好的词对齐关

系以及相应的对齐概率IBM采用的对齐算法很自然就成为了统计机器翻译的基

石但由于当时计算机硬件条件的限制别人难以重复IBM小组的工作相关研究

因而也一度显得沉寂1999 年在约翰霍普金斯大学(John Hopkins University)举行

的机器翻译夏季研讨班(summer programs)上研究人员再现了当年IBM的工作并

推出开源的统计机器翻译工具包Egypt极大地推动了机器翻译研究的发展其

中词对齐工具Giza被同行广泛认同之后的升级版Giza++10更成为领域内标准的

词对齐工具对此后机器翻译发展产生了深远的影响

基于短语的和基于句法的翻译模型 机器翻译研究中如何得到较好的翻译模型始终是研究人员 为关注的问题

在研究基于词的方法时人们发现此翻译模型在处理句子结构时往往性能不佳主

要是此中涉及的词序调整存在先天缺陷基于词的简单调序模型仅能有效支持近距

离的调序致使在不同的语系(language families)之间进行翻译时 终译文在词序

上难免有较大的偏差无法生成合理词序的译文因此人们考虑将某些翻译片段

捆绑成相对固定的短语以避免一些无谓的调序错误这里所谓的短语不是通常

意义上的句法结构短语 11而是一些简单的多个词语组合因此也称之为非句法短

语采用非句法短语作为翻译单元具有非常高的鲁棒性(robustness)由于更大的

翻译颗粒度或者说更大的处理基元的引入使得对齐结果的再调整更可靠即

便短语内部出现错误的词对齐只要短语的边界识别正确整个短语的对齐仍然是

正确的另一方面已对齐的短语本身也可用作翻译实例在统计方面增强数据关

联除此之外由于翻译颗粒度的增大每次搜索翻译候选项时可以覆盖更大范围

的源文本因此通过调整合适的参数就可以显著提高翻译效率德国亚琛工业

大学的Och (2004)Zens (2002)以及美国南加州大学的Koehn (2003)等学者的研究

是这方面的代表

10 httpcodegooglecompgiza-pp 11 通常定义为可以作为一个完整句法子结构的短语

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 11: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 11 -

四机器翻译 6 在计算语言学的诸多研究领域中机器翻译可以说是 有特色也 能反映整

个领域研究现状的一个分支从上世纪 50 年代至今机器翻译的研究从朴素的词

典翻译到基于规则(rule-based MT)的方法进而发展到基于实例(example-based MT)和基于统计(statistical MT)的方法无不反映该领域当时 具代表性的研究方

法和手段可以认为机器翻译研究的进步是围绕着两个方面进行的第一是资

源即如何得到有效的语言资源第二是操作即如何利用这些资源进行有效的翻

译随着语料库建设和大规模真实文本的电子化基于统计的机器学习的方法从语

料库中获取语言知识的能力不断增强以及机器翻译模型和算法的发展和优化近

年机器翻译研究有了很大进步下面我们将从几个不同的侧重点来简要描述其当前

的发展状况 统计机器翻译 原理上统计机器翻译将翻译过程定义为一个随机过程用一个概率P来描述

一个源语言(S)句子 7转换或对应到一个目标语言(T)句子的机会也就是每个源

句都以一定的概率与某个目标句转换统计翻译就是求得此概率并在目标文本空间

搜寻能使此概率 大化的译文其基本假设是只要有足够大的语料和足够好的统

计方法我们就可以逼近真实翻译的概率分布整个过程似乎不需传统语言学的介

入可以在任意语言之间进行把翻译从一个语言处理问题转化为了一个数学计算

问题 1990 年IBM公司Watson研究中心的研究员Brown和同事在信息论的基础

上首次提出了信源信道(source-channel)模型 8(Brown et al 1990)把源语言句子

看作是目标语言句子通过某个受扰信道所产生的那么翻译就等于将源句ldquo还原rdquo为目标句的过程统计机器翻译所描述的问题原本形式化为

)|(maxarg STPT = 即求以源句 S 为条件下的概率 大的目标句 T在信源信道模型里通过贝叶斯定

理(Bayes Theorem)进行转换以后可以得到 )()|(maxarg TPTSPT = 9

这样统计翻译过程被拆分为对两个概率模型求 大组合概率的过程其中

P(S|T)称之为翻译模型反映源语言和目标语言的对应关系P(T)称为语言模型

反映的是目标语言的合理性即译文的流畅程度这个翻译框架的建立具有两个

极为深刻的意义一采用两个独立的子模型可以分别对翻译过程和结果生成进

行单独评估能更有效地优化翻译结果二分开不同功能的概率模型在方法论

上启发了后来使用更多特征的翻译框架同时也对译文的搜索过程施行更多的约

6 主笔宋彦在读博士生研究机器翻译应用机器翻译及机器学习方法参加上届音译(Transliteration)国际

评测获全部中文相关项目第一名 7 在统计机器翻译中通常是以句子为单位进行处理 8 因来源于信息论故也被称作噪声通道(noisy-channel)模型 9 在数学形式上这里需要假定 P(T)和 P(S|T)相互独立

- 12 -

束翻译模型和语言模型作为两个 基本的子模型在后来的统计机器翻译框架中

也都一直延用 其中翻译模型用于刻画源语言和目标语言之间的转换这种对应关系通常称之

为对齐(alignment)IBM 的研究者提出的翻译模型是在词对齐(word alignment)的基础上进行的一共有 5 个由简到繁的翻译模型通常称之为 IBM 模型 1~5 (Brown et al 1993)模型 1 中仅考虑了词翻译的概率模型 2 是在 1 的基础上加入

了某个词在句中位置的概率模型 34 和 5 又在前面模型的基础上分别加入了产

出率(Fertility即一个词翻译为多个词的概率)句子长度等信息逐步加入更多可

资利用的信息完善翻译过程 值得注意的是IBM采用的对齐方法它是在大规模句对齐的语料基础上进行

的计算源语和目标语言之间词语的共现关系从而确定源语词和目标语词是否构

成互为翻译的词对这种方法原理上不需要任何语言知识就可以自动地获得两语之

间词与词的对译关系只要已知的双语句子足够多就可以得到足够好的词对齐关

系以及相应的对齐概率IBM采用的对齐算法很自然就成为了统计机器翻译的基

石但由于当时计算机硬件条件的限制别人难以重复IBM小组的工作相关研究

因而也一度显得沉寂1999 年在约翰霍普金斯大学(John Hopkins University)举行

的机器翻译夏季研讨班(summer programs)上研究人员再现了当年IBM的工作并

推出开源的统计机器翻译工具包Egypt极大地推动了机器翻译研究的发展其

中词对齐工具Giza被同行广泛认同之后的升级版Giza++10更成为领域内标准的

词对齐工具对此后机器翻译发展产生了深远的影响

基于短语的和基于句法的翻译模型 机器翻译研究中如何得到较好的翻译模型始终是研究人员 为关注的问题

在研究基于词的方法时人们发现此翻译模型在处理句子结构时往往性能不佳主

要是此中涉及的词序调整存在先天缺陷基于词的简单调序模型仅能有效支持近距

离的调序致使在不同的语系(language families)之间进行翻译时 终译文在词序

上难免有较大的偏差无法生成合理词序的译文因此人们考虑将某些翻译片段

捆绑成相对固定的短语以避免一些无谓的调序错误这里所谓的短语不是通常

意义上的句法结构短语 11而是一些简单的多个词语组合因此也称之为非句法短

语采用非句法短语作为翻译单元具有非常高的鲁棒性(robustness)由于更大的

翻译颗粒度或者说更大的处理基元的引入使得对齐结果的再调整更可靠即

便短语内部出现错误的词对齐只要短语的边界识别正确整个短语的对齐仍然是

正确的另一方面已对齐的短语本身也可用作翻译实例在统计方面增强数据关

联除此之外由于翻译颗粒度的增大每次搜索翻译候选项时可以覆盖更大范围

的源文本因此通过调整合适的参数就可以显著提高翻译效率德国亚琛工业

大学的Och (2004)Zens (2002)以及美国南加州大学的Koehn (2003)等学者的研究

是这方面的代表

10 httpcodegooglecompgiza-pp 11 通常定义为可以作为一个完整句法子结构的短语

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 12: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 12 -

束翻译模型和语言模型作为两个 基本的子模型在后来的统计机器翻译框架中

也都一直延用 其中翻译模型用于刻画源语言和目标语言之间的转换这种对应关系通常称之

为对齐(alignment)IBM 的研究者提出的翻译模型是在词对齐(word alignment)的基础上进行的一共有 5 个由简到繁的翻译模型通常称之为 IBM 模型 1~5 (Brown et al 1993)模型 1 中仅考虑了词翻译的概率模型 2 是在 1 的基础上加入

了某个词在句中位置的概率模型 34 和 5 又在前面模型的基础上分别加入了产

出率(Fertility即一个词翻译为多个词的概率)句子长度等信息逐步加入更多可

资利用的信息完善翻译过程 值得注意的是IBM采用的对齐方法它是在大规模句对齐的语料基础上进行

的计算源语和目标语言之间词语的共现关系从而确定源语词和目标语词是否构

成互为翻译的词对这种方法原理上不需要任何语言知识就可以自动地获得两语之

间词与词的对译关系只要已知的双语句子足够多就可以得到足够好的词对齐关

系以及相应的对齐概率IBM采用的对齐算法很自然就成为了统计机器翻译的基

石但由于当时计算机硬件条件的限制别人难以重复IBM小组的工作相关研究

因而也一度显得沉寂1999 年在约翰霍普金斯大学(John Hopkins University)举行

的机器翻译夏季研讨班(summer programs)上研究人员再现了当年IBM的工作并

推出开源的统计机器翻译工具包Egypt极大地推动了机器翻译研究的发展其

中词对齐工具Giza被同行广泛认同之后的升级版Giza++10更成为领域内标准的

词对齐工具对此后机器翻译发展产生了深远的影响

基于短语的和基于句法的翻译模型 机器翻译研究中如何得到较好的翻译模型始终是研究人员 为关注的问题

在研究基于词的方法时人们发现此翻译模型在处理句子结构时往往性能不佳主

要是此中涉及的词序调整存在先天缺陷基于词的简单调序模型仅能有效支持近距

离的调序致使在不同的语系(language families)之间进行翻译时 终译文在词序

上难免有较大的偏差无法生成合理词序的译文因此人们考虑将某些翻译片段

捆绑成相对固定的短语以避免一些无谓的调序错误这里所谓的短语不是通常

意义上的句法结构短语 11而是一些简单的多个词语组合因此也称之为非句法短

语采用非句法短语作为翻译单元具有非常高的鲁棒性(robustness)由于更大的

翻译颗粒度或者说更大的处理基元的引入使得对齐结果的再调整更可靠即

便短语内部出现错误的词对齐只要短语的边界识别正确整个短语的对齐仍然是

正确的另一方面已对齐的短语本身也可用作翻译实例在统计方面增强数据关

联除此之外由于翻译颗粒度的增大每次搜索翻译候选项时可以覆盖更大范围

的源文本因此通过调整合适的参数就可以显著提高翻译效率德国亚琛工业

大学的Och (2004)Zens (2002)以及美国南加州大学的Koehn (2003)等学者的研究

是这方面的代表

10 httpcodegooglecompgiza-pp 11 通常定义为可以作为一个完整句法子结构的短语

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 13: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 13 -

随着短语模型的发展人们也发现仅仅使用短语虽然精确却无法抽象出通用

的语言信息而且短语也不完全适合远距离语序约束因此进而希望使用成分

(constituent)句法结构信息来获得更好的性能早期香港科技大学的吴德恺(Wu 1997)年提出了反向转录语法(Inversion Transduction Grammar ITG)美国南加州大

学的 Yamada (2001)提出了在源语言句法树的节点上进行调序插入和翻译等随机

操作从而转换为目标语言串的操作并获得了比 IBM 模型 5 更好的词对齐效

果虽然这些研究开启了将句法信息融入翻译过程中的研究但当时并没有得到太

多关注后来随着短语模型和解码算法的成熟以及语料资源日益充足基于句

法的机器翻译研究有了很大的发展在这方面包括基于形式化句法即从语料库

中自动习得句法知识的方法主要代表有南加州大学蒋伟的层次短语翻译(Chiang 2005)通过统计语料库中短语的嵌套抽取出更一般的短语翻译模板提升了短

语模型的概括能力进而提高了机器翻译的整体性能另一方面则是采用语言学句

法信息的翻译模型细分为仅在源语端采用句法信息的树到串(tree-to-string)模型

仅在目标语端采用句法信息的串到树(string-to-tree)模型以及两端均采用句法信息

的树到树(tree-to-tree)模型等不同形式其中前两者已证明在实践中比较成功在

树到串的研究中中科院计算所的刘洋(Liu et al 2006)提出了直接使用句法标记指

示目标语言字符串的位置的方法另外微软 Redmond 研究院的 C Quirk (2005)的工作使用了基于依存(dependency)句法分析源语言得到与目标语言字符串的关

系而串到树的代表主要有 Language Weaver 公司的 D Marcu (2006)等人的工作

他们在汉语到英语的翻译中通过使用一系列满足目标语言句法形式的翻译规则来产

生合理的英文译文 对数线性模型和解码 如果将语言资源的学习和翻译模型的优化看作资源处理部分那么接下来就是

针对统计翻译框架和翻译过程的研究前面提到的信源信道模型为统计机器翻译找

到了相应的数学理论基础然而这种模型却同时限制了统计机器翻译的可扩展性

为了克服这个局限Och (2002)提出了一种更具一般性的统计翻译框架即对数线

性(log-linear)模型

sum sum

sum

=

==

T

M

mmm

M

mmm

tsh

tshSTP

])(exp[

])(exp[)|(

1

1

λ

λ

其中 h 是关于源语和目标语的模型除了翻译模型和语言模型外还可以表示更多

对翻译过程有贡献的特征λ是其对应的参数整个系统的翻译性能可以通过调整

参数来进一步优化事实证明这种模型不但有效地提升了机器翻译的性能而且

还为后来融入不同语言学信息提供了可能需要提到的是采用对数线性模型以

后不但需要训练框架内各个子模型也需要对这些模型对应的参数进行优化

Och (2003)提出的 小错误率训练(minimum error rate training)是广泛采用的优化方

法一直沿用至今

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 14: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 14 -

而在翻译过程的实现方面则是我们通常称之为解码(decoding)的译文生成

技术由于翻译的过程实质上是寻找 佳概率的译文的过程因此模型框架的变

化翻译颗粒度的变化以及不同语言学信息的引入等都会对 佳译文的搜索过

程产生很大的影响因此也要求解码技术的相应发展较为通用的解码算法是集束

(或柱状)搜索(beam search)其实现过程是为待处理译文的不同部分构建许多个不

同的栈 (stack)用于存放这部分翻译的中间结果然后将合适的候选译文

(translation options)放入栈中 后在所有的栈中寻找能够覆盖整个待处理文本的

具有 大翻译概率的结果作为输出每个栈里存放的不同候选项的概率由不同模型

框架的各个子模型共同决定由于早期主要的工作都是在IBM的对齐模型基础上进

行的解码算法基本上都以词作为基本的搜索单元2003 年由当时在南加州大学

的Marcu等人开发的ISI-ReWriter 12是较为成熟的基于词的解码器(decoder)后

来Koehn (2004)发布了基于短语的机器翻译解码器法老(Pharaoh)13采用了更有

效的集束搜索和剪枝(pruning)策略为机器翻译提供了一个很好的实验平台之后

很多研究都是直接以法老作为解码工具进行的来到爱丁堡大学后Koehn (2007)又推出了另一个解码器摩西(Moses)14可以整合更多不同语法层次的信息整个软

件包还提供了从训练到解码的完整解决方案很快成为了现今统计机器翻译研究的

基线(baseline)系统用于与其他系统进行对比实验或者直接用于译文生成 机器翻译评测与应用 15

近年机器翻译技术水平大跨越进步也有其他外部的推动因素其中机

器翻译评测扮演了一个至关重要的角色从 2002 年开始NIST16开始举办一年一

度的机器翻译评测对每个参赛单位下发同样的训练语料和测试文本然后回收各

个单位提交的翻译结果使用统一的参考译文和性能指标作出评测 过往机器翻译一直以人工的方式评测常用的翻译质量标准有译文的忠实性

(adequacy)流畅性(fluency)和其错误分析(error analysis)等均需高昂的人工成本

和较长的时间一致性和可靠性也存疑难以有效推动翻译系统的开发进度近年

IBM 的 Papineni et al (2002)提出的自动评测指标 BLEU 则对此局面带来了革命性

的变化他们认为理想的机器翻译译文应以专业翻译员译出的译文为参考越相似

越好藉此把翻译质量的评测转变为计算文本相似度的问题机器翻译的自动评测

于几年间迅速成为了主流的评测方式 BLEU 成为了机器翻译界标准的评测指

标同时也吸引其他研究人员探讨更好的自动评测方式 BLEU 计算句子相似度的方式以 N 元(n-gram)词串的准确度(precision) 为基

础即计算评测译文中共现于参考译文的 N 元词串在评测译文 N 元词串总数中的

比例以下列较简单的单一参考译文版本为例评测译文能与参考译文匹配的一至

四元词串的准确度分别是 1418 (N=1)817 (N=2)616 (N=3)415 (N=4) 其

12 httpwwwisiedulicensed-swrewrite-decoder 13 httpwwwisiedulicensed-swpharaoh 14 httpwwwstatmtorgmoses 15 主笔黄德铭在读博士生研究机器翻译及评测在上届 NIST 机器翻译评测指标评比中成绩优秀提出

ATEC 指标其创新性广受学界认同宋彦同上 16 National Institute of Standards and Technology美国国家标准技术研究院

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 15: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 15 -

中一元词串代表译文的忠实性即有多少单元词属正确翻译而更长的 N 元词

串则代表共现词的正确语序较能体现译文的流畅性在此基础上BLEU 加上了

若干修正包括不计算评测译文中出现次数比参考译文多的共现词如以下评测译

文中 the 出现了三次但在参考译文中则只出现一次额外两次则不会打分此

外BLEU 引入了长度惩罚因子(brevity penalty)对过短的评测译文的分数进行折

算 后把各阶 N 元词的准确度的加权平均值乘以长度惩罚因子得出评测译

文的 BLEU 分数在实际操作上由于每一原文可以有多种正确的翻译故参考

译文可以有不同的版本以增加 BLEU 对不同翻译差异的兼容性

评测译文 It is a guide to action which ensures that the military always obeys the commands of the party 参考译文 It is a guide to action that ensures that the military will forever heed party commands

除 BLEU 以外研究人员近年亦研发出不同类型的机器翻译自动评测指

标Banerjee amp Lavie (2005)的 METEOR 率先引入浅层语言分析配合词根分析器

(stemmer) 和语义词典 WordNet进行多层次(字面词根语义)的词组匹配

METEOR 是基于召回度(recall) 的指标即着重看参考译文的内容共现于评测译文

的程度这与基于准确度的 BLEU 形成一个鲜明对比Snover et al (2006)的 TER (translation edit rate) 则计算将评测译文改写至参考译文所需的 少编辑工序包括

插入删除和搬移在一定程度上模拟了人工修改译文的情况 此外以深层次的语言分析来进行评测近年亦开始受到关注Gimeacutenez amp

Maacuterquez (2007)比较了不同语言特征对反映译文水平的效果发现利用句法层次如

依存关系(dependency)和语义层次如语义角色(semantic role) 等做语言分析比

BLEU 这类单从字面上做比较评测结果更准确Zhou et al (2008)更进一步建立

不同的语言分析测试点来进行更精细的评测如模糊词惯用语固定词搭配从

属句式等其基本原理由 Yu (1993)多年前提出就是将译文的整体评测细分成一

个个独立可自动操作的测试点以诊断翻译系统处理不同语言问题的水平有助开

发人员针对性地对系统进行改善 我们近年也在机器翻译自动评测上进行研究Wong amp Kit (2009 2010)提出

ATEC 指标及其算法其基本原理是针对译文中的词选择(word choice)和词序(word order)这两个语言的基本参数进行操作我们以多层次匹配策略结合词根分析

器语义词典和 Soundex 算法从四个层面(即完全匹配同词根同义和同音) 找出评测译文和参考译文具有共现意义的相关字词同时我们亦引入于信息检索与

文本挖掘等领域中常用的 TF-IDF 指标评估译文中所匹配和未能匹配词的重要性

使得评测译文中那些常用的功能词例如 is a the to of 等对译文分数的影响

权重合理地减低而参考译文中未能匹配上的词亦会根据其重要性决定其对译文分

数的影响令评测的打分更趋合理化 在语序方面我们将所匹配的词按照其在译文中的位置和排序计算各自的距

离如下例的两种情况所示(1)和(2)的匹配词按位置的距离是相同的但排序上

(1)是顺序的(2)是倒序的故其排序距离有所不同这两种语序距离值越小代

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 16: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 16 -

表所匹配词越符合参考译文的语序流畅性亦越高我们认为 ATEC 这种依据词

选择和语序来评测译文的方式是比较符合语言的基本规律的 位置索引 排序索引 排序索引 位置索引

1 2 3 4 1 2

(1) A B C D

B E D F 1 2 1 2 3 4

1 2 3 4 1 2 (2) A B C D C B E F 1 2 1 2 3 4

位置距离 排序距离

(1) (2-1) + (4-3) = 2 (1) (1-1) + (2-2) = 0

(2) (2-2) + (3-1) = 2 (2) (2-1) + (2-1) = 2

NIST MetricsMATR08 部分结果

译文忠实性组别 (7-point adequacy) 多参考译文版本

0

02

04

06

08

1

ATEC BLEU TER METEOR自动评测算法

Spea

rman相

关系数

系统层面

句子层面

图一 NIST MetricsMATR08 若干评测指标在不同评测层面的差异 机器翻译自动评测技术自身的评测(meta-evaluation)亦是一个重要的问

题一方面机器翻译与人工翻译的相似度与其翻译质量理论上并没有必然的关

系另一方面不同的自动评测技术亦需要证明其度量指标在何等程度上能够反映

机器翻译系统的质量 基本的要求是自动评测跟人工评测的结果应尽可能一

致目前 常用的做法是以统计方法如Pearson或Spearman相关系数来评价两种

不同评测结果排名的相关性近年一些机器翻译评测比赛如WMT17已加入自动评

测方法的评测这一环节而NIST更在 2008 年举办了首届机器翻译自动评测指标的

评测比赛MetricsMATR18结果发现在不同的评测环境下自动评测跟人工评测

的结果相关性会有很大差异图一摘录了MetricsMATR08 的部分结果包括我们

开发的ATEC和其它现时较流行的自动评测指标整体来说在翻译系统的排名

上各种自动评测方法已具备相当的可靠性 (相关系数一般在 08 以上) 但是在评

17 Workshop on Machine Translation (httpwwwstatmtorg) 18 NIST Metrics for Machine Translation 2008 Evaluation (httpwwwitlnistgoviadmigtestsmetricsmatr2008)

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 17: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 17 -

测单个译文句子的排名上则仍未达至可应用的程度可见现阶段自动评测的技术水

准离完全取代人工评测仍然有相当的路程要走 不过到 2009 年为止单从评测分数上看机器翻译的整体水平呈现了明

显的上升特别在汉语到英语的测试项目上每届评测 好成绩BLEU值从 初

的 015 左右提升到了 035 左右让学者们对技术进步有 直观的数字度量在国

内2005 年举办第一届统计机器翻译评测及学术研讨会 19此后每年都进行评

测目前已进行到第五届 20对国内机器翻译技术带来了很大的推动这些评测的

训练和测试数据的发布以及某些参赛的优秀翻译系统的公开自然形成一个统一

的参考标准在一定程度上也降低了机器翻译研究的技术性入场门槛进而推动其

研究的广泛和深入发展 自动评测技术的应用范畴除了系统开发和评测比赛外近年更有尝试应用

于以一般使用者为对象的评测譬如现时网上翻译系统众多并覆盖了不同的语言

组合如何针对特定语言组合的翻译选择 好的系统成为了一般使用者需要面对的

问题故此我们进行了针对法律文件翻译的网上翻译系统评测部分结果摘录于

下表可见不同的翻译系统各有其相对擅长的语言组合(Kit amp Wong 2008)

BabelFish Google PROMT SDL Systran WorldLingo 荷兰语 02576 02051 02548 02538 法语 02620 02666 02451 02103 02616 02546 德语 02062 02448 01327 02067 02470 02363 希腊语 01501 01448 01392 意大利语 02151 02207 02144 01613 02210 02127 葡萄牙语 01881 01880 01797 01604 01881 01853 俄语 02231 02146 01820 01989 西班牙语 02212 02207 02184 02270 02207 02169 瑞典语 00844 01461 阿拉伯语 05085 00353 00346 汉语 00594 01650 00593 00686 日语 00888 00804 00888 00888 韩语 00747 00709 00748 00701

每一语言组合分数 高的系统以底线标示而同组 高分数的 5范围内的系统则以灰底标示

表二 网上翻译系统的 BLEU评测21 (目标语为英语)

自动评测技术 重要的优点是其高效率和低成本大部分评测算法均能于极

短时间内完成评测而其测试集亦能重复使用这些优点令大规模的机器翻译评测

19 httpnlpictaccndemocwmt 20 事实上从 1994 年开始国家就开始组织了 863 中文信息处理与人机接口技术评测其中就包括了机器翻

译评测但是一直以来多以人工评分主观性较大相比之下现在的评测更贴近国际通行样式 21 取自 Kit amp Wong (2008) 317 頁

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 18: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 18 -

得以举行例如 2009 年的NIST评测 22涉及 42 个评测系统3 个语言组别总共

240 万字的评测数据远远超过人工评测所能应付的规模极限此外使用统一的

评测指标 (以BLEU为主) 亦让翻译系统的开发有了客观明确的准则改变了过往

开发者各自使用不同评测标准的问题 自动评测技术的发展现时虽然仍处于初起步的阶段但已经与机器翻译的发

展密不可分针对评测度量优化的翻译系统开发 (MERT) 已是一个重要的研究方

向近年一些新语言组合 (如英语至阿拉伯语) 的翻译系统亦受益于自动评测技术

而加速开发在可见的将来我们可望有可靠性更高的评测指标和算法以及其更

广阔的应用层面如句子层面的评测翻译错误分析和与其它翻译评测方法 (如FEMTI23) 在理论和技术上的衔接进一步带动机器翻译的前进

但是从历届机器翻译评测的结果来看即使 强劲的翻译系统其产生的

译文仍然难以尽如人意因此机器翻译的产业化可说依旧前路漫漫不过依

然有一些公司开始进行有益的尝试包括2005年NIST评测的冠军Google以及老牌

的机器翻译提供商SYSTRAN都推出了各自的在线翻译系统24其中Google的系

统通过不断提升和优化更在阿拉伯语到英语的翻译中达到了可以实用的水平考

虑到目前机器翻译的总体水平我们合理的希望是机器翻译帮助我们提高翻译的

能产性而不是完全取代人的工作因此计算机辅助翻译为机器翻译的研究和应

用提供了一个非常好的切入点让机器进行语料的处理记忆和提供 佳参考译

文辅助译者做 好 快的翻译决定不但提高效率也得到 可靠的结果由此

相信辅助翻译将成为一段时间内机器翻译研究和应用的热点譬如Koehn (2009)已在摩西的基础上推出了一个在线辅助翻译的实验系统Caitra25在国内沈

阳格微软件公司开发的协同翻译系统也已得到了许多国内外专家的认可并在针

对专利翻译的项目上大幅度地提升了效率和质量也是辅助翻译应用比较成功的案

例之一

五情感分析 26

不同于传统的基于事实的信息检索和信息抽取等语言处理情感分析技术研

究的对象是文本中所包含的非事实性的主观情感和倾向性目前的情感分析研究主

要集中在分析主观性文本中包含的意见倾向性(opinion)情感(feeling)情绪 (sen-timent)和态度(attitude)包括分析情感意见发出者(holder)对特定主题或者对象

(target)进行的陈述(claim)以及其中包含的情感(sentiment)或者倾向性情感分析技

术结合了数据挖掘和文本挖掘的基本技术以及文本分析和内容理解体现了从数

据文本挖掘向文本理解情感分析迈进的过程是实现真正的人工智能不可或缺

的组成部分下面将从几个不同的侧面来简要描述当前情感分析技术的发展情况和

趋势 22 NIST Machine Translation Evaluation (httpwwwitlnistgoviadmigtestsmt) 23 httpwwwisiedunatural-languagemteval 24 Google httpwwwgooglecomtranslate SYSTRAN httpwwwsystransoftcom 25 httpwwwcaitraorg 26 主笔徐睿峰博士后研究员在多个国际情感分析评测中(包括 COAE2009NTCIR MOAT 678 和 ACL SEMEVAL2)获多个任务第一名现任哈尔滨工业大学深圳研究生院计算机科学与技术学科部副教授

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 19: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 19 -

基于分类的粗粒度情感分析技术

大多数粗粒度情感分析任务可以描述成一个对给定文本(文档段落句子)进行分类(classification)的工作分类可以是二值分类(主观客观)也可以是多值分

类(正面中性负面)通过应用比较成熟的分类器学习算法和选择有效的情感分析

的特征基于分类的情感分析技术得到了充分的研究 情感分析的常用特征

情感分析中 常用的特征是人工建立的情感词表中的词语情感词的出现与

否或者出现频率是 基本的情感分类特征(Pang et al 2002)此外词性(part-of-speech)也是一个重要的特征由于大量的情感词属于形容词情感词表之外的形

容词 特别是 与已知情 感词存 在关联关 系的形 容词是 很好的 特征

(Hatzivassiloglou amp Wiebe 2000)副词特别是程度副词也是一个重要的特征

(Turney amp Littman 2003)此外某些情感预示动词(指出批评称赞等)也是有效

的情感表达标志(Xu et al 2007) 在词语特征的基础上词语的二元共现和多元共现关系(Dave et al 2003)也

显示出良好的分类效果此外几类特殊的搭配和依存关系如程度副词和情感词

搭配人物命名实体与情感预示动词搭配程度副词与情感预示动词搭配等也

显示较好的分类效果(Xu et al 2007)一些实验显示选择词语共现特征可以比单独

使用词语特征取得更好的效果 此外模板特征(Turney amp Littman 2003)句法结构特征(Gamon 2004 Ken-

nedy amp Inkpen 2006)以及语义成分特征(Kim amp Hovy 2005)等也已应用于情感分析

研究

基于监督学习的情感分类技术

得益于现有的机器学习算法和情感标注语料库基于监督学习的情感分类技

术进展快速目前主要使用的分类器包括朴素贝叶斯(naiumlve Bayesian)支持向量机

(support vector machine SVM) 大熵 (maximum entropy ME)和条件随机场

(conditional random fields CRFs) 等分类器 (Pang et al 2002 Dave et al 2003 Matsu-moto et al 2005)

基于监督学习的情感分类技术研究的重点首先在于根据情感分析任务的需

要和分类器特点设计选择和优化分类特征和选取适当的分类器Pang et al (2002) 使用词语的单元串(uni-gram)和多元串(n-gram)特征配合朴素贝叶斯分类器

Wiebe et al (2003) 则使用标点句子位置特定的句法结构类别特征搭配之Pang and Li (2004) 使用词语及其共现特征结合 大熵分类器用于情感分析Riloff et al (2006) 和 Lin et al (2006) 则使用了支持向量机分类器另一个研究重点在于针对情

感分析任务的要求相应改进分类器如 Wang amp Zhao (2007)采用多重冗余标记的条

件随机场分类器通过求联合解码 优减少了单分类的错误传递此外Xu et

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 20: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 20 -

al (2009) 则使用了 Coarse-Fine 的多步循环分析策略利用每一循环的分析结果

辅助下一循环的分析 后一个研究重点是利用多分类器融合的方法进一步提升

情感分类器的效果

基于无监督学习的情感分类技术

由于可以减少全人工建立情感词典以及大规模多领域情感标注语料库的人

力物力基于无监督学习的情感分类技术吸引了越来越多的研究兴趣目前的研究

方向主要集中在情感词汇学习和词汇极性(polarity)学习方面Hatzivassiloglou amp McKeown (1997)利用连续连词和转折连词作为线索通过收集连词连接起来的已

知情感词和未知词语来学习新的情感词并根据已知情感词极性和连词情况预测新

情感词的极性类此利用已知情感词作为种子利用种子词的同义词存在连

词反义等关系也可以无监督获得新的情感词语 (Aue amp Gamon 2005 An-dreevskaia amp Bergler 2006 Esuli amp Sebastiani 2005)Xu et al (2007)则进一步加入情

感句的连续关系和情感句之间的极性转移关系作为线索获取新的情感词语及其极

性 在粗粒度情感分类任务中引导法(bootstrapping)是应用较多的一种无监督学

习技术其思想在于利用一个可用的初始分类器产生标注数据用以支持基于监督

学习的分类器Riloff amp Wiebe (2003)使用一个初始的高精确度的分类器和引导法

策略滚动学习了主观性表达的抽取模板并将这些获得的模板用于改进基于监督学

习的分类器类似的工作还包括 Kaji amp Kitsuregawa (2006)以及 Wiebe amp Riloff (2005)等提出的基于自学习的分类方法 情感分析中的领域适应

Turney amp Littman (2003)的研究显示领域变化可以明显地影响情感分类的性

能一个原因在于同样的词语或者短语在不同的领域可能带有不同的情感另一

个原因不同领域中出现的情感词语的差别也影响了将训练好的分类器应用于新

领域时文本的性能Aue amp Gamon (2005)应用了基于期望 大化 (expectation-maximization EM)方法使用单领域内标注文本和未标注文本对新领域的未标注

文本进行分析Yang et al (2006)则抽取在两个不同的领域共同存在的明显的主观

性表达的标志并使用这些领域无关的标志指导不同领域的情感分析Biltzer et al (2007) 则将结构化对应学习 (structural correspondence learning SCL) 算法应用于

情感分析通过抽取在两个领域文本中共现互信息 强的词语对作为枢轴(pivot)特征学习算法通过建立枢轴特征的投影矩阵将目标领域的特征投影到源领域的特

征空间从而实现对目标领域的适应 跨语言情感分析

跨语言情感分析的一种策略类似于领域自适应技术也就是将源语言中的情

感分析资源如词典和标注语料库等用于目标语言典型的方法包括利用双语词

典(Mihalcea et al 2007)或使用对齐语料库的方法来建立两种语言之间的适应关系

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 21: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 21 -

(Kim amp Hovy 2005)另一种策略则是利用机器翻译技术将不同语言翻译到同一

种语言而后应用单语分析技术来实现跨语言的情感分析(Bautin et al 2008 Wan 2009) 基于抽取的细粒度情感分析技术

基于情感分析的实际应用需求推动了在粗粒度情感分析的基础上进行的基

于抽取(extraction)的细粒度情感分析技术的发展目前细粒度分析技术主要集中在

情感发出者(opinion holder)和情感对象(opinion target )的识别Choi et al (2005) 通过将发出者识别转换为序列标注问题结合基于 CRF 的分类器和基于语义的抽取

模板实现情感发出者识别Bethard et al (2004)通过对情感句进行语义角色分析

(semantic role labeling SRL)识别特定的谓词性词组来实现情感发出者和情感表达的

同步识别Choi et al (2006)则应用线性规划方法实现命名实体及其之间联系的

联合抽取 有别于上述同步识别方法 Kim amp Hovy (2006)采用了两步策略也就是先

识别情感表达而后应用基于路径模板的方法识别情感发出者的策略Xu et al ( 2007)等工作也采用了两步分析策略

情感对象的识别方法与情感发出者识别策略基本类似多采用基于模板或者

语法信息的方法(Xu et al 2007 Kim amp Hovy 2006)需要注意的是一类特殊的情感

对象也就是产品评价中灵活多遍的产品属性的识别Yi et al (2005)通过应用基

于词性(part-of-speech)的启发式规则从名词短语中获取产品属性Hu amp Liu (2004) 通过识别产品评价中频繁出现的名词和名词短语来获取产品属性考虑到产品属性

往往和情感表达构成搭配对的情况Ghani et al (2006)和 Xia et al (2007)分别提出

了利用搭配识别来获取产品属性的方法 情感分析的语言资源

面向文本理解的情感分析技术需要一系列语言资源的支持主要包括情感词

典和情感标注语料库英文中重要的情感词典包括Turney amp Littman (2003)整理

的约 1700 个包含情感的形容词词表 27General Inquirer28提供的人工分类的标注了

不同类型的正面和负面情感词语以及表达支持和反对的词语列表Wilson et al (2005)汇编了包括MPQA语料库在内的多个来源的主观性词语 29以及Esuli amp Se-bastiani (2005)通过对WordNet中词语分配正面负面客观属性建立的包含同义

词(thesaurus)信息的情感词汇词典 30中文的情感词汇词典则包括Shi et al (2005) 编著的《褒义词词典》列出的褒义词和褒义化倾向的 5000 词条Yang et al (2005) 编著的《贬义词词典》列出的贬义词和贬义化倾向的 3500 词条Ku et al (2005)建

27 httptechgroupsyahoocomgroupSentimentAI 28 httpwwwwjhharvardedu~inquirer 29 Opinion Finderrsquos Subjective Lexicons httpwwwcspittedumpqa 30 httpsentiwordnetisticnrit

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 22: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 22 -

立的台湾大学褒贬义情感词词表 31以及基于HowNet建立的中文情感词词表32 英文中重要的情感标注语料库包括 Wiebe et al (2005)在匹兹堡(Pittsburgh)大学建立的MPQA语料库 33该语料库对 535 篇新闻文本中句子级和子句级的情感

表达及其它内心状态(例如信任情感倾向等)进行了标注是目前应用 多影

响 大的情感语料库康奈尔(Cornell)大学Pang amp Lee (2004)建立的电影评价语料

库是另一个较多应用的语料库 34该语料库包含有正负面评价文档各 1000篇以及正负面评价句各 5331 句Hu amp Liu (2004)建立了针对五种电子产品的

客户评价语料库该语料库标注了包含评价的句子以及评价针对的产品特性 35

中文情感语料库中影响较大的是台湾大学Ku et al (2005)建立的基于新闻文本的

标注语料库该语料库标注了包含评价的句子及其对应的情感倾向此外也进一步

标注了评价发出者评价字串以及关键的情感词等信息在此基础上NTCIR建立

了包含英文中文和日文的多语言情感标注语料库 36 情感分析评测

情感分析是针对人的主观情感倾向性的分析由于个人的理解和判断标准

的差异不同人不同研究对同一文本中情感的判别结果也有较大不同不同的算

法和策略也不能很好地评估这就阻碍了情感分析研究的进一步发展针对这一情

况情感分析技术评测对推动本领域的研究产生了至关重要的影响目前国际上影

响较大的情感分析评测主要有三个系列 1 TREC情感分析评测 37 该系列评测主要针对博客(blog)进行跟踪和分析

其中TREC 2006 评测要求参加系统抽取包含对特定主题进行了情感评价的博文

而TREC 2007 评测则进一步要求分析对抽取出的情感句的极性进行判断Ounis et al (2008)总结和分析了这两届评测中的主流技术和反映出的问题

2 NTCIR 多语言情感分析评测 该系列评测分别在 20062008 和 2009 年

举办了三次主要针对细粒度的情感分析技术2006 年的 NTCIR-6 评测了情感句

识别极性判别情感发出者识别以及主题相关性判别的性能(Seki et al 2007)2008 年的 NTCIR-7 评测则进一步测试了情感评价对象识别的性能(Seki et al 2008)2009 年的 NTCIR-8 在单语言细粒度情感分析基础上迈向跨语言的情感分

析检索和问答 3 中文情感分析评测(COAE) 该评测分别在 2008 和 2009 年举办了两次

其中COAE08 评测了篇章级(主观客观以及极性)词语级(情感词语及其极性)以及要素级(评价对象识别)的情感分析技术(Zhao et al 2008)COAE09 则将倾向性

(正面负面中性)和情绪(喜怒哀惧)区分开来分别进行了倾向性的篇章

31 httpnlg18csientueduhk8080opinionuserformjsp 32 httpwwwkeenagecom 33 httpwwwcspittedumpqadatarelease 34 httpwwwcscornelldedupeoplepabomovie-review-data 35 httpwwwcsuicedu~liubFBSCustomerReviewDatazip 36 http httpresearchniiacjpntcir 37 httpirdcsglaacukwikiTREC-BLOG

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 23: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 23 -

级句子级和要素级分析技术的评测以及情绪的句子级和词语级分析的评测(Xu et al 2009)这三个系列的情感分析评测通过评测和反馈有效地促进了学术界对

情感分析任务的深入理解同时通过提供统一的训练和测试数据集有力地推动了

情感分析研究的进一步发展 小结

本节从不同侧面介绍了情感分析技术的发展情况和趋势可以看到一方面

情感分析技术从词典级篇章级向句子级要素级逐渐深入分析粒度逐渐精细

另一方面随着情感分析技术的发展和成熟基于情感分析技术的实际应用以及和

时间序列等数据分析的融合已经不断涌现在进一步改进和提高文本的情感分析技

术的同时通过与异构信息处理人脑情感感知等学科研究的交叉和融合情感分

析技术将有力促进人工智能和智能感知机制研究的发展

六自动术语识别 38

术语(terminology term)作为专业领域重要概念(key concept)的语言表达不

论是在人类对于知识的表达和组织还是在便利人们对于各种文本进行自动处理和

管理方面都有着极其重要的作用自动术语识别(automatic term recognition ATR)的主要任务是使用当今可用的自然语言处理技术从专业领域语料库中进行术语的

自动探测和抽取该技术在众多领域有着广泛的应用例如专业领域词典学(Hull 2001)信息检索(Chien 1997 Anick 2001 Yang et al 2005)自动摘要(Oakes amp Paice 2001)文本分类(Debole amp Sebastiani 2003 Liu et al 2005)知识挖掘(Mima et al 2006)机器翻译(Gaussier 2001)等自动术语识别技术的提高对上述众多应用技

术起着至关重要的作用 在这一节中我们将依次探讨以下几个问题术语识别中的关键问题现有

的自动术语识别方法特别是目前 有影响的基于语料库比较的方法 后我们

也考察一下已有的术语定义并提出一种基于知识本体的术语定义

术语识别中的关键问题 将术语与普通的词组及短语区别开来并不是一件简单的任务仅仅通过字面

表达的不同来进行区分是远远不够的术语候选(term candidate)的单元性(unithood)和术语性(termhood)作为术语识别中的关键问题(Kageura amp Umino 1996)已被计算

术语学领域广为认同并深入探究单元性量化一个术语候选(尤其是多词候选)的不

可分性即衡量其作为完整的不可(或不需)再分的一个语言单元的可能性此认知

源于这样一个假设即概念是人类思维所涉及的知识表达的基本单位故作为概念

38 主笔刘晓月在读博士生研究计算语言学和计算术语学发表多篇 SCI 检索的论文

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 24: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 24 -

表述的术语也应具有极强的单元性术语性用于量化一个术语候选是某一专业领域

的真正术语的可能性 单元性是成为术语的必要而非充分条件很多单元性极强的语言单元特别

是词大部分都不是专业领域的术语因此单元性不是决定一个候选是否为真正

术语的决定性度量它更适合用于过滤掉那些因缺乏单元性而不合格的术语候选

过滤之后术语性度量则需对每个候选词语是否为某专业领域的真正术语作 终的

判断由此可见在确认一个术语的过程中相对于单元性术语性起着更为决定

性的作用

现有自动术语识别方法

术语的广泛应用吸引了众多不同背景的学者同时可用语言资源的增多

和自然语言处理技术的飞速提高也带动了自动术语识别方法的发展现有的识别

技术从方法论来讲可以分为下述几类

语言学方法

在术语识别研究的初期阶段受可用电子资源及人们对该问题认知的限制

语言学方法占主导地位该方法主要通过不同程度的语言信息分析来抽取术语候

选所涉及的语言学信息主要包括词法信息(Ananiadou 1994)句法构成(Bourigault 1992 Justeson amp Katz 1995 Daille et al 1994 Dagan amp Church 1994 Frantzi amp Ananiadou 1996 Jacquemin et al 1997)等该方法在小规模语料库上性能良好但

明显有自身的局限性首先对于所涉及的语言及专业领域有极强的依赖性移植

性较差并且术语抽取结果受预先定义的句法模式和语法规则所限更大的问题

是并非满足预定义句法模式的词串就一定是术语而很多真正的术语又不被所用

的句法模式所描述涵盖一言以蔽之词法和语法信息不可能在原理上区分开术语

和非术语

统计方法

随着可用的机器可读文本的增加研究人员开始将统计方法用于术语识别

该方法主要使用相关的统计信息来判断术语候选简单有效的方法之一是词频统

计(Damerau 1990)由 单元性可知结构稳定是多词术语的重要特征之一一个多

词术语候选的结构稳定性可从以下两个方面来衡量 一利用统计度量衡量术语候选内部成员之间的关联度关联度越强结构

越稳定例如Dice 系数(Kay amp Roumlscheisen1993)Tanimoto 系数(Spasic 2004)2φ 系数(Gale amp Church 1991 Daille 1994)互信息(mutual information) (Church amp

Hanks 1990 Damerau1993 Pantel amp Lin 2001)对数相似度(log likelihood ratio) (Dunning 1993 Pantel amp Lin 2001)等

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 25: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 25 -

二利用从外部资源获取的相关信息检测术语候选相对于上下文的独立

性较强的独立性是结构稳定的力证此类代表性方法包括通过熵值衡量术语候

选邻接词的分布(Shimohata 2000)GM 函数(Nakagawa 2001a 2001b Nakagawa amp Mori 2003)基于共现词数目的术语性衡量(Hisamitsu et al 2000)以及语料库比较

方法(Yang 1986 Ahmad et al 1994 Rayson amp Garside 2000 Kilgarriff 2001 Uchimoto et al 2001 Chung 2003 Drouin2003 Lemay et al2005 Kit amp Liu 2008)

研究人员观察到相对于其他领域术语在其自身的专业领域具有较突出的分

布语料库比较方法正是利用这种术语和非术语在不同领域文本分布的巨大差异来

获取术语候选的具有较佳原理性的方法关联度计算之后在大多数统计方法中

术语候选还将通过阈值设定等被进一步过滤基于统计的方法易于移植其性能不

会被研究语言和专业领域的转变而过分影响然而它需要大规模语料库的支持

而且如何设定一个恰当的阈值进行术语候选的过滤是一个需要根据领域和数据

等作出经验决定的问题

语言学与统计相结合的方法

考虑到上述两种方法的局限性研究人员提出了语言学和统计相结合的方

法试图扬长避短提高自动术语识别的性能一般来讲基于混合方法的系统可

以通过两种方法建立一种是通过模块组合(Smadja 1993 Daille 1994 1996 Frantzi et al 1998 Maynard amp Ananiadou 2000)每个模块基于一个特定的信息源语言学

或者统计方面在整个系统中按一定流程分工合作另一种是通过系统组合

(Vivaldi et al 2001a 2001b)采用不同的术语识别引擎每个引擎各自生成一个术

语候选列表然后通过某种投票机制得出 终的候选词表一个稳健的性能高

于单个模块或识别引擎的混合系统自然需要以高性能尤其是独立性良好的单个识

别引擎为前提

基于语料库比较的方法

从方法论来讲基于语料库比较的术语识别方法是统计方法的一个分支其

基本假设为相对于其他领域术语在自身专业领域具有更突出的分布特征该方

法根据术语在本领域和背景语料库的分布差异来衡量其领域特性因此一个适当

的量化分布差异的度量对于该方法的性能好坏起着决定性的作用 在此方向我们为语料库比较的方法提出了一种崭新的术语性度量方法即

基于频度的序差(rank difference)效果显著(Kit amp Liu 2007 2008)它通过一个术

语候选在专业和背景语料库中的序差来量化其术语性序差越大说明对该专业的

归属越强给定一个专业领域语料库 D(其词表为 VD)作为目标(或前景)语料库以

及一个平衡语料库 B(其词表为 VB)作为背景语料库我们把 D 中的候选术语 w 的

术语性定义为

||)(

||)(

)(B

B

D

D

Vwr

Vwr

w minus=τ

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 26: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 26 -

其中r(w)代表 w 在某一语料库中的序(rank)而 || sdot 则为相应词表大小为了使不

同大小语料库中的词的序值具有可比性我们可用词表大小对原始序值进行归一

化当然这不是唯一的归一化方法如图二所示该术语性度量的核心思想是

一个术语候选在专业领域具有较高的序而在背景语料库具有较低的序说明它对该

专业的归属较强因而应该赋予较高的术语性 常用的排序度量是频度

图二 基于序差的语料库比较方法示意图

日常中我们用较小的整数代表较高的序例如1 通常表示第一是 高

的但是为了便于对上公式的解读尤其是应用我们在术语性的计算中将转为

使用较大的数字代表较高的序即序值 低者为 1这样归一化后的序值

||)( sdotsdot Vwr 将落入 (00 10]区间 高的是 10一个较好的术语性度量可以将真

正的术语排到输出列表的前端而把非术语排到输出列表的末端 以香港法律的全部文本和英国国家语料库(BNC)分别作为前景和背景语料

库我们应用此法获取香港法律的单词术语(mono-word term)实验获得领域内已

知的单词术语识别 好的准确率(Kit amp Liu 2007 2008)充分验证我们提出的术语

性度量指标的正确性和有效性之所以只针对单词术语是为了避免单元性问题的

干扰以专注于探讨术语性的量化接下来才有可能进而结合单元性的量化进

行多词术语的识别 基于以上的工作我们又提出了一种改进的语料库比较的方法用于提高从

较小的主题文档中进行特定术语识别的可靠性(Liu amp Kit 2008)该方法通过计算一

个候选在专业领域和其他多个领域的特性差异之和来确定此候选的术语性此外

我们也进一步探究了不同统计量在此语料库比较方法框架下用作比较的性能差异

(Liu amp Kit 2009)这组统计度量包括词频信息量和序差等以及它们交叉多项组

合此项实验显示了不同度量的特性使我们对基于语料库比较的术语识别方法有

了更深入的理解和认识

背景语料库

rD(w)

专业语料库

rB(w)

排序分数

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 27: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 27 -

基于知识本体的术语定义 39

基于真实语料的事实和对术语的深入理解我们对传统术语学中基于概念化

(conceptualization)的术语定义进行反思提出基于知识本体的术语定义(揭amp冯

2009)旨在从原理上开拓术语学的疆域融入新一代知识工程 现代术语学的奠基人维斯特(E Wuumlster)在他的专著《普通术语学和术语词典

编纂学导论》中全面地论述了术语学的基本理论维斯特对ldquo术语rdquo的理解是

ldquo术语是一个专业领域的概念指称系统它包括了所有的专业表达这些表达是一

般的常见的rdquo而这种专业表达的显著特点是它们具有ldquo固定的被概括到一个

定义中去的效果rdquo随着学术的进步这种术语观的问题渐渐显现 首先传统的术语学把术语限制在狭小的名词和名词词组的范围之内难以

包容客观上存在着的为数可观的其它词性的术语包括动词数词形容词副

词时间词方位词介词甚至连接词因此我们有必要把基于概念的术语观

推进到基于知识本体的术语观用知识本体的理论和方法来引领术语研究其次

传统的术语学只注意词汇的规范适合术语规范化的要求但是传统的术语定义

忽视术语的形态句法语义的分析不注重术语出现的上下文和术语变体的描

写也难以概括真实本文中诸多实际在用的术语个例因此我们有必要把规范性

的术语观推进到描写性的术语观用描写的方法来研究术语此外传统的术语定

义注意术语的共时研究很大程度上忽视了术语的历时演变研究因此我们认为

有必要把共时性的静态术语观推进到历时性的动态术语观用历时的动态的观点

来研究术语 关键的是我们必须认识到上述种种局限性主要来自传统的术语定义维

斯特对于术语的定义是ldquo术语是一个专业领域的概念指称系统rdquo(Wuumlster 1991)这

个传统定义也是后来 ISO 国际标准中术语定义的来源 但几十年后这个定义已经不能真确反映当今我们对术语的新认识为此

我们提出把术语的定义扩展为ldquo术语是专门用途语言中[对]专业知识的[已确立的]语言表达rdquo(Terms are the [established] language expressions of special knowledge in the language for special purposes)40这个定义用ldquo专业知识的确立的语言表达rdquo来替代

(并涵盖)传统定义中ldquo概念指称rdquo把术语由名词或名词词组的狭小领域极大地扩展

到专业知识的所有可能形式的语言表达诸如动词数词形容词副词时间

词方位词介词连接词等不同词性即一个客体(或概念)的所有知识本体属

性的语言表述都是术语这样的术语观甚至还可以进一步扩大到表达专业知识的

短语和句子等结构层次这样就更能反映一个基本事实术语普遍存在于专门用

途语言的不同结构层次上由此术语学不但可以引入更多的语言学研究手段而且

更融入当前以整个万维网为数据的知识本体工程的广阔前景

39 主笔刘晓月同上冯志伟访问教授国际著名的术语学学者国内术语学先驱著有自然语言处理

机器翻译和术语学专著多部基于揭amp冯(2009) 40 中括号部分为原文基础上的增补更加明确一些

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 28: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 28 -

[参考文献] 冯志伟 (2003) 机器翻译的现状和问题《中文信息处理若干重要问题》pp 353-

377 北京科学出版社 冯志伟 (2005) 《机器翻译研究 》北京中国对外翻译出版公司 黄昌宁赵海 (2007) 中文分词十年回顾《中文信息学报》21(3)8-20 揭春雨冯志伟 (2009) 基于知识本体的术语定义《术语标准化与信息技术》

2009(2)4-8 (上) 2009(3)14-23 (下) 刘群 (2003) 统计机器翻译综述《中文信息学报》17(4)1-12 刘群 (2009) 机器翻译研究新进展《当代语言学》11(2)147-158 熊德意刘群林守勋 (2008) 基于句法的统计机器翻译综述《中文信息学

报》22(2)28-39 宗成庆 (2008) 《统计自然语言处理》北京清华大学出版社 Ahmad K et al (1994) What is a term The semi-automatic extraction of terms from

text In Snell-Hornby M S et al (eds) Translation Studies An Interdiscipline pp 267-278 Amsterdam

Ananiadou S (1994) A methodology for automatic term recognition In COLING-1994 Vol 2 pp 1034-1038 Kyoto Japan

Andreevskaia A amp Bergler S (2006) Mining WordNet for a fuzzy sentiment Senti-ment tag extraction from WordNet glosses In EACL-2006 pp 209-216

Anick P G (2001) The automatic construction of faceted terminological feedback for interactive document retrieval In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 29-52 John Benjamins

Aue A amp Gamon M (2005) Automatic identification of sentiment vocabulary Exploit-ing low association with known sentiment terms In Proceedings of the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing pp 57-64

Aue A amp Gamon M (2005) Customizing sentiment classifiers to new domains A case study In RANLP 2005 Borovets Bulgaria

Banerjee S amp Lavie A (2005) METEOR an automatic metric for MT evaluation with improved correlation with human judgments In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation andor Summarization pp 65-72 Ann Arbor Michigan

Bautin M Vijayarenu L amp Skiena S (2008) Large-scale sentiment analysis for news and blogs In ICWSM-2008 pp 19-26

Bethard S et al (2004) Semantic analysis of propositional opinions In AAAI 2004 Spring Symposium on Exploring Attitude and Affect in Text Theories and Appli-cations

Bikel D 2004 Intricacies of Collins parsing model Computational Linguistics 30(4)480ndash511

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 29: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 29 -

Blitzer J et al (2007) Biographies bollywood boom-boxes and blenders Domain ad-aptation for sentiment classification In ACL 2007 pp 443-447

Bourigault D (1992) Surface grammatical analysis for the extraction of terminological noun phrases In COLINGrsquo92 pp 977-981 Nantes France

Brown P F et al (1990) A statistical approach to machine translation In ACL Work-shop on Speech and Natural Language pp 146-151

Brown P F et al (1993) The mathematics of statistical machine translation Parameter estimation Computational Linguistics 19(2)263-311

Buchholz S amp Marsi E (2006) CoNLL-X shared task on multilingual dependency parsing In CoNLL-2006 pp 149-164 New York

Carreras X (2007) Experiments with a high-order projective dependency parser In EMNLP-CoNLL 2007 pp 957-961

Charniak E (1997) Statistical parsing with a context-free grammar and word statistics In Proceedings of the Fourteenth National Conference on Artificial Intelligence pp 598-603 AAAI PressMIT Press

CharniakE (1999) A Maximum Entropy Inspired Parser Technical Report CS9912 Brown University

Charniak E amp Johnson M (2005) Coarse-to-fine n-best parsing and discriminative reranking In ACL 2005 pp173-180

Chen X et al (2009) Better parser combination In Proceedings of CIPS-ParsEval-2009 pp81-90 Beijing

Chiang D (2005) A hierarchical phrase-based model for statistical machine translation In ACL 2005 pp 263-270

Chien L-F (1997) PAT-tree-based keyword extraction for Chinese information re-trieval In ACM SIGIRrsquo97 pp 50-58 Philadelphia USA

Choi Y Breck E amp Cardie C (2006) Joint extraction of entities and relations for opin-ion recognition In EMNLP-2006 pp 431-439

Choi Y et al (2005) Identifying sources of opinions with conditional random fields and extraction patterns In HLTEMNLP 2005 pp 355-362

Chung T (2003) A corpus comparison approach for terminology extraction Terminol-ogy 9(2)221-246

Church KW amp Hanks P (1990) Word association norms mutual information and lexicography Computational Linguistics 16(1)22-29

Collins M (1997) Three generative lexicalised models for statistical parsing In ACL-EACLrsquo97 pp 16-23

Collins M (2000) Discriminative reranking for natural language parsing In Proceed-ings of the Seventeenth International Conference on Machine Learning (ICML 2000) pp175-182

Culotta A amp Sorensen J (2004) Dependency tree kernels for relation extraction In ACL 2004 pp 423-429

Dagan I amp Church K (1994) Termight Identifying and translating technical terminol-ogy In ANLP-4 pp 34-40 Stuttgart Germany

Daille B (1994) Approche Mixte Pour lrsquoextraction Automatique de Terminologie Sta-tistique Lexicale et Filtres Linguistiques PhD thesis University Paris 7 France

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 30: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 30 -

Daille B (1996) Study and implementation of combined techniques for automatic ex-traction of terminology In Klavans J L amp Resnick P (eds) The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49-66

Daille B Gaussier Eacute amp Lange J (1994) Towards automatic extraction of monolin-gual and bilingual terminology In COLINGrsquo94 pp 515-521

Damerau F J (1990) Evaluating computer-generated domain-oriented vocabularies Information Processing amp Management 26(6)791-801

Damerau F J (1993) Generating and evaluating domain-oriented multi-word terms from texts Information Processing amp Management 29(4)433-447

Dave K Lawrence S amp Pennock D M (2003) Mining the peanut gallery Opinion extraction and semantic classification of product reviews In Proceedings of WWW pp 519ndash528

Debole F amp Sebastiani F (2003) Supervised term weighting for automated text catego-rization In Proceedings of the 2003 ACM Symposium on Applied Computing pp 784-788 ACM Press Melbourne

Ding Y amp Palmer M (2005) Machine translation using probabilistic synchronous de-pendency insertion grammars In ACL 2005 pp 541-548

Drouin P (2003) Term extraction using non-technical corpora as a point of leverage Terminology 9(1) 99-115

Duan X Zhao J amp Xu B (2007) Probabilistic parsing action models for multi-lingual dependency parsing In EMNLP-CoNLL 2007 pp 940-946

Dunning T (1993) Accurate methods for the statistics of surprise and coincidence Computational Linguistics 19(1)61-74

Emerson T (2005) The Second International Chinese Word Segmentation Bakeoff In SIGHAN-4 pp 123-133 Jeju Island Korea

Esuli A amp Sebastiani F (2005) Determining the semantic orientation of terms through gloss analysis In CIKM-05 pp 617-624

Fossum V amp Knight K (2009) Combining constituent parsers In NAACL 2009 Com-panion Volume Short Papers pp 253-256 Boulder Colorado

Frantzi K T amp Ananiadou S (1996) A hybrid approach to term recognition In NLP+IArsquo96 pp 93-98

Frantzi K T Ananiadou S amp J Tsujii (1998) The C-valueNC-value method of auto-matic recognition for multi-word terms In Proceedings of the 2nd European Con-ference on Research and Advanced Technology for Digital Libraries pp 585-604 Heraklion Berlin

Gale W amp Church K (1991) Identifying word correspondences in parallel texts In Proceedings of the 4th DARPA Workshop on Speech and Natural Language pp 152-157

Gamon M (2004) Sentiment classification on customer feedback data Noisy data large feature vectors and the role of linguistic analysis In COLING 2004 pp 841-847

Gaussier E (2001) General considerations on bilingual terminology extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 167-183 John Benjamins

Ghani R et al (2006) Text mining for product attribute extraction In SIGKDD Explo-rations Newsletter 8(1)41-48

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 31: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 31 -

Gildea D (2001) Corpus variation and parser performance In EMNLP 2001 pp 167-202 Pittsburgh PA

Gimeacutenez J amp Maacuterquez L (2007) Linguistic features for automatic evaluation of het-erogeneous MT systems In SMT-2 pp 256-264 Prague

Hatzivassiloglou V amp McKeown V (1997) Predicting the semantic orientation of ad-jectives In ACLEACLrsquo97 pp 174-181

Hatzivassiloglou V amp Wiebe J (2000) Effects of adjective orientation and gradability on sentence subjectivity In COLING 2000 Vol 1 pp 299-305

Henderson J amp Brill E (1999) Exploiting diversity in natural language processing Combining parsers In EMNLP-99 pp 187-194 College Park Maryland

Hisamitsu T Niwa Y amp Tsujii J (2000) A method of measuring term representative-ness - baseline method using co-occurrence distribution In COLING 2000 Vol 1 pp 320-326 Saarbruumlcken

Hu M amp Liu B (2004) Mining opinion features in customer reviews In AAAI-2004 pp 755-760

Huang L (2008) Forest reranking Discriminative parsing with non-local features In ACL-HLT 2008 pp 586-594

Hull D A (2001) Software tools to support the construction of bilingual terminology lexicons In Bourigault D et al (eds) Recent Advances in Computational Ter-minology pp 225-244 John Benjamins

Jacquemin C Klavans J L amp Tzoukermann E (1997) Expansion of multi-word terms for indexing and retrieval using morphology and syntax In EACLrsquo97 pp 24-31

Jin M Kim M Y amp Lee JH (2005) Two-phase shift-reduce deterministic depend-ency parser of Chinese In IJCNLP 2005 (Companion Volume) pp 256-261

Justeson J S amp Katz S M (1995) Technical terminology Some linguistic properties and an algorithm for identification in text Natural Language Engineering 1(1)9-27

Kageura K amp Umino B (1996) Methods of automatic term recognition A review Terminology 3(2)259-289

Kaji N amp Kitsuregawa M (2006) Automatic construction of polarity-tagged corpus from HTML documents In COLINGACL 2006 Poster Sessions pp 452-459

Kay M amp Roumlscheisen M (1993) Text-translation alignment Computational Linguistics 19(1)121-142

Kennedy A amp Inkpen D (2006) Sentiment classification of movie reviews using con-textual valence shifters Computational Intelligence 22(2)110-125

Kilgarriff A (2001) Comparing corpora International Journal of Corpus Linguistics 6(1)97-133

Kim S M amp Hovy E (2005) Identifying opinion holders for question answering in opinion texts In Workshop on Question Answering in Restricted Domains 20th National Conference on Artificial Intelligence (AAAI-05) pp 20-26 Pittsburgh

Kim S M amp Hovy E (2006) Extracting opinions opinion holders and topics ex-pressed in online news media text In Proceedings of the Workshop on Sentiment and Subjectivity in Text pp 1-8 Sydney Australia

Kit C amp Liu X (2007) Mono-word termhood as rank difference in domain and back-ground corpora In Proceedings of the International Conference Keyness in text pp 41-45 Pontignano Siena Italy

Formatted Spanish(Spain-Modern Sort)

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 32: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 32 -

Kit C amp Liu X (2008) Measuring mono-word termhood by rank difference via corpus comparison Terminology 4(2)204-229

Kit C amp Wong T-M (2008) Comparative evaluation of online machine translation sys-tems with legal texts Law Library Journal 100(2)299-321

Klein Damp Manning C (2003a) Accurate unlexicalized parsing In ACL 2003 pp 423-430 Sapporo Japan

Klein Damp Manning C (2003b) Fast exact inference with a factored model for natural language parsing In NIPS 2002 pp 3-10 MIT Press

Koehn P (2004) Pharaoh A beam search decoder for phrase-based statistical machine translation models In AMTA-2004 pp 115-124

Koehn P (2009) A Web-based interactive computer aided translation tool In ACL-IJCNLP 2009 Software Demonstrations pp 17-20

Koehn P et al (2007) Moses Open source toolkit for statistical machine translation In Proceedings of ACL-2007 Demo and Poster Sessions pp 177-180

Koehn P Och F J amp Marcu D (2003) Statistical phrase-based translation In HLT-NAACL 2003 pp 127-133

Ku L W et al (2005) Construction of an evaluation corpus for opinion extraction In Proceedings of NTCIR-5 pp 513ndash520 Japan

Lemay C LrsquoHomme M amp Drouin P (2005) Two methods for extracting ldquospecificrdquo single-word terms from specialized corpora Experimentation and evaluation In-ternational Journal of Corpus Linguistics 10(2)227-255

Levow G (2006) The Third International Chinese Language Processing Bakeoff Word segmentation and named entity recognition In SIGHAN-5 pp 108-117 Sydney

Lin W H Wilson T amp Hauptmann A (2006) Which side are you on Identifying per-spectives at the document and sentence levels In CoNLL 2006 pp 109-116

Liu T et al (2005) Domain specific term extraction and its application in text classifi-cation In Proceedings of 8th Joint Conference on Information Sciences pp 1481-1484 Salt Lake City

Liu T et al (2007) Subdividing verbs to improve syntactic parsing Journal of Elec-tronics (China) 24(3)347-352 Springer

Liu X amp Kit C (2008) An improved corpus comparison approach to domain specific term recognition In PACLIC-22 pp 253-261 Cebu Philippines

Liu X amp Kit C (2009) Statistical termhood measurement for mono-word terms via corpus comparison In ICLMC-8 pp 3499-3504 Baoding China

Liu Y Liu Q amp Lin S (2006) Tree-to-string alignment template for statistical ma-chine translation In COLINGACL 2006 pp 609-616

Low J K Ng H T amp Guo W (2005) A maximum entropy approach to Chinese words Segmentation In SIGHAN-4 pp 161-164 Jeju Island Korea

Marcu D et al (2006) SPMT Statistical machine translation with syntactified target language phrases In EMNLP 2006 pp 44-52

Magerman D (1995) Statistical decision tree models for parsing In ACLrsquo95 pp 276-283 Cambridge MA

Matsumoto S Takamura H amp Okumura M (2005) Sentiment classification using word sub-sequences and dependency sub-trees In Ho TB Cheung D amp Liu H (eds) PAKDD 2005 LNAI 3518 pp 301-311 Springer

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 33: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 33 -

Matsuzaki T Miyao Y amp Tsujii J (2005) Probabilistic CFG with latent annotations In ACL 2005 pp 75-82

Maynard D amp Ananiadou S (2000) TRUCKS A model for automatic multi-word term recognition Journal of Natural Language Processing 8(1)101-125

McDonald R Crammer K amp Pereira F (2005) Online large-margin training of de-pendency parsers In ACL 2005 pp 91-98

McDonald R et al (2005) Non-projective dependency parsing using spanning tree Al-gorithms In HLT-EMNLP 2005 pp 523-530

McDonald R amp Pereira F (2006) Online learning of approximate dependency parsing algorithms In EACL 2006 pp 81-88

Mihalcea R Banea C amp Wiebe J (2007) Learning multilingual subjective language via cross-lingual projections In ACL 2007 pp 976-983 Prague Czech Republic

Mima H Ananiadou S amp Matsushima K (2006) Terminology-based knowledge min-ing for new knowledge discovery TALIP 5(1)74-88

Nakagawa H amp Mori T (2003) Automatic term recognition based on statistics of com-pound nouns and their components Terminology 9(2)201-219

Nakagawa H (2001a) Automatic term recognition based on statistics of compound nouns Terminology 6(2)195-210

Nakagawa H (2001b) Experimental evaluation of ranking and selection methods in term extraction In Bourigault D et al (eds) Recent Advances in Computational Terminology pp 303-325 John Benjamins

Nakagawa T (2007) Multilingual dependency parsing using global features In EMNLP-CoNLL 2007 pp 952-956

Nivre J 2003 An efficient algorithm for projective dependency parsing In IWPT 2003 pp 149-160

Nivre J 2004 Incrementality in deterministic dependency parsing In Proceedings of the ACL Workshop Incremental Parsing Bringing Engineering and Cognition To-gether pp 50-57 Barcelona

Nivre J amp McDonald R (2008) Integrating graph-based and transition-based depend-ency parsers In ACL 2008 pp 950-958

Nivre J amp Scholz M (2004) Deterministic dependency parsing of English text In COLING 2004 pp64-70 Geneva

Nivre J et al (2007) The CoNLL 2007 shared task on dependency parsing In Proceed-ings of the CoNLL Shared Task Session of EMNLP-CoNLL 2007 pp 915-932

Oakes M P amp Paice C D (2001) Term extraction for automatic abstracting In Bouri-gault D et al (eds) Recent Advances in Computational Terminology pp 353-370 John Benjamins

Och F J amp Ney H (2002) Discriminative training and maximum entropy models for statistical machine translation In ACL 2002 pp 295-302

Och F J amp Ney H (2003) Minimum error rate training in statistical machine transla-tion In ACL 2003 pp 160-167

Och F J amp Ney H (2004) The alignment template approach to statistical machine translation Computational Linguistics 30(4)417-449

Ounis I Macdonald C amp Soboroff I (2008) On the TREC blog track In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2008) pp 93-101 AAAI

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 34: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 34 -

Pang B amp Lee L (2004) A sentimental education Sentiment analysis using subjectiv-ity summarization based on minimum cuts In ACL 2004 pp 271ndash278

Pang B Lee L amp Vaithyanathan S (2002) Thumbs up Sentiment classification using machine learning techniques In EMNLP 2002 pp 79ndash86

Pantel P amp Lin D (2001) A statistical corpus-based term extractor In Stroulia E amp Matwin S (eds) AI 2001 LNAI 2056 pp 36-46 Springer

Papineni K et al (2002) BLEU a method for automatic evaluation of machine transla-tion In ACL 2002 pp 311-318 Philadelphia PA

Peng F Feng F amp McCallum A (2004) Chinese segmentation and new word detec-tion using conditional random fields In COLING 2004 pp 562-568

Petrov S et al (2006) Learning accurate compact and interpretable tree annotation In ACL 2006 pp 433-440 Sydney

Petrov S amp Klein D (2007) Improved inference for unlexicalized parsing In NAACL 2007 pp 404-411 Rochester NY

Quirk C Menezes A amp Cherry C (2005) Dependency treelet translation Syntacti-cally informed phrasal SMT In ACL 2005 pp 271-279

Rayson P amp Garside R (2000) Comparing corpora using frequency profiling In Pro-ceedings of the Workshop on Comparing Corpora ACL pp 1-6

Ratnaparkhi A (1999) Learning to parse natural language with maximum entropy mod-els Machine Learning 34(1-3)151-175

Riloff E Patwardhan S amp Wiebe J (2006) Feature subsumption for opinion analysis In EMNLP 2006 pp 440-448

Riloff E Wiebe J amp Wilson T (2003) Learning subjective nouns using extraction pat-tern bootstrapping In CoNLL 2003 pp 25ndash32

Sagae Kamp Lavie A (2005) A classifier-based parser with linear run-time complexity In IWPT 2005 pp 125-132 Vancouver

Sagae K amp Lavie A (2006) Parser combination by reparsing In NAACL 2006 Com-panion Volume Short Papers pp 129-132 New York

Seki Y et al (2007) Overview of opinion analysis pilot task at NTCIR-6 In Proceed-ings of the NTCIR-6 pp 265ndash278

Seki Y et al (2008) Overview of multilingual opinion analysis task at NTCIR-7 In Proceedings of NTCIR-7 Japan

Shi J L amp Zhu G (2005) Lexicon of Chinese Positive Words Sichuan Dictionary Press

Shimohata S (2000) An empirical method for identifying and translating technical ter-minology In COLING 2000 Vol 2 pp 782-788 Saarbruumlcken Germany

Smadja F (1993) Retrieving collocations from text Xtract Computational Linguistics 19(1)143-177

Snover M et al (2006) A study of translation edit rate with targeted human annotation In AMTA-2006 pp 223-231 Cambridge Massachusetts USA

Snow R Jurafsky D amp Ng A Y (2005) Learning syntactic pattern for automatic hy-pernym discovery In NIPS 2005 pp 1297-1304

Spasic I (2004) A Machine Learning Approach to Term Classification PhD thesis University of Salford UK

Sproat R amp Emerson T (2003) The First International Chinese Word Segmentation Bakeoff In SIGHAN-2 pp 133-143 Sapporo Japan

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 35: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 35 -

Sproat R Shi C et al (1996) A stochastic finite-state word segmentation algorithm for Chinese Computational Linguistics 22(3) 377-404

Surdeanu M et al (2008) The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies In CoNLL 2008 pp 159-197 Manchester

Tseng H Chang P et al (2005) A conditional random field word segmenter for SIGHAN Bakeoff 2005 In SIGHAN-4 pp 168-171 Jeju Island Korea

Titov I amp Henderson J (2007) A latent variable model for generative dependency pars-ing In IWPT 2007 pp144-145 Prague

Tsuruoka Y Tsujii J amp Ananiadou S (2009) Fast full parsing by linear-chain condi-tional random fields In EACL 2009 pp 790-798 Athens

Turney P D amp Littman M L (2003) Measuring praise and criticism Inference of se-mantic orientation from association ACM Transactions on Information Systems (TOIS) Vol 21 pp 315ndash346

Uchimoto K et al (2001) Term recognition using corpora from different fields Termi-nology 6(2)233-256

Vivaldi J amp Rodriacuteguez H (2001b) Improving term txtraction by combining different techniques Terminology 7(1)31-48

Vivaldi J et al (2001a) Improving term extraction by system combination using boost-ing In Proceedings of the 12th European Conference on Machine Learning pp 515-526 Freiburg Germany

Wan X J (2009) Co-training for cross-lingual sentiment classification In ACL-IJCNLP 2009 pp 235-243 Singapore

Wang G amp Zhao J (2007) Sentence sentiment analysis based on multi-redundant la-beled CRFs Journal of Chinese Information Processing 21(5)51-55

Wang M Sagae K amp Mitamura T (2006) A fast accurate deterministic parser for Chinese In ACL 2006 pp 425-432 Sydney

Wiebe J M Wilson T amp Bell M (2001) Identifying collocations for recognizing opinions In Proceedings of the ACL-01 Workshop on Collocation Computa-tional Extraction Analysis and Exploitation pp 24-31 Toulouse France

Wiebe J et al (2003) Recognizing and organizing opinions expressed in the world press In Working Notes of the AAAI Spring Symposium on New Directions in Question Answering pp 12-19 Palo Alto CA

Wiebe J Wilson T amp Cardie C (2005) Annotating expressions of opinions and emo-tions in language Language Resources and Evaluation Vol 39 pp 164-210

Wiebe J M amp Riloff E (2005) Creating subjective and objective sentence classifiers from unannotated texts In CICLingrsquo05 pp 486ndash497 Mexico City Mexico

Wilson T Wiebe J amp Hwa R (2004) Just how mad are you Finding strong and weak opinion clauses In Proceedings of AAAIrsquo2004 pp 761-769

Wuumlster E (1991) Einfuumlhrung in die allgemeine Terminologielehre und terminologische Lexikographie 3 Auflage Bonn Romanistischer Verlag

Wong B amp Kit C (2010) ATEC automatic evaluation of machine translation via word choice and word order Machine Translation 23(2-3)141-155

Wong T-M amp Kit C (2009) Meta-evaluation of machine translation on legal texts In ICCPOL-2009 pp 343-350 Hong Kong Springer

Wu D (1997) Stochastic inversion transduction grammars and bilingual parsing of par-allel corpora Computational Linguistics 23(3)377-404

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 36: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 36 -

Xia Y et al (2007) The unified collocation framework for opinion mining In IEEE ICMLC 2007 pp 844-850

Xu H B et al (2009) Overview of Chinese Opinion Analysis Evaluation 2009 In COAE-2 Shanghai

Xu R amp Kit C (2009) Incorporating multi level features for sentiment analysis In COAE-2 pp 74-82 Shanghai

Xu R Wong K F amp Xia Y (2007) Opinmine - Opinion analysis system by CUHK for NTCIR-6 Pilot Task In NTCIR-6 pp 50-35 Tokyo

Xue N amp Converse S P (2002) Combining classifiers for Chinese word segmentation In SIGHAN-1 pp 63-70 Taipei Taiwan

Xue N amp Shen L (2003) Chinese word segmentation as LMR tagging In SIGHAN-2 pp 176-179 Sapporo Japan

Yamada H amp Matsumoto Y (2003) Statistical dependency analysis with support vector machines In IWPT 2003 pp 195-206

Yamada K amp Knight K (2001) A syntax-based statistical translation model In ACL 2001 pp 523-530

Yang H (1986) A new technique for identifying scientifictechnical terms and describ-ing science texts Literary and Linguistic Computing 1(2)93-103

Yang H Si L amp Callan J (2006) Knowledge transfer and opinion detection in the TREC2006 blog track In Proceedings of TREC 2006 at httptrecnistgovpubs trec15t15_proceedingshtml

Yang L et al (2005) Lexicon of Chinese Negative Words Sichuan Dictionary Press Yang L et al (2005) Improving retrieval effectiveness by using key terms in top re-

trieved documents Advances in Information Retrieval 3408 pp 169-184 Yi J amp Niblack W (2005) Sentiment mining in WebFountain In Proceedings of the

International Conference on Data Engineering (ICDE-2005) pp 1073-1083 Yu S (1993) Automatic evaluation of output quality for machine translation Machine

Translation 8(1-2)117-126 Zens R Och F J amp Ney H (2002) Phrase-based statistical machine translation Ad-

vances in Artificial Intelligence Proceedings of 25th Annual German Conference on AI pp 18-32

Zhao J et al (2008) Overview of Chinese Opinion Analysis Evaluation In COAE-1 pp 1-23 Beijing

Zhou M et al (2008) Diagnostic evaluation of machine translation systems using automatically constructed linguistic check-points In COLING 2008 pp 1121-1128 Manchester

Zhao H et al (2009) Multilingual dependency learning Exploiting rich features for tagging syntactic and semantic dependencies In CoNLL-09 pp 61-66 Boulder

Zhao H et al (2009) Multilingual dependency learning A huge feature engineering method to semantic dependency parsing In CoNLL-09 pp 55-60 Boulder CO

Zhao H et al (2009) Cross language dependency parsing using a bilingual lexicon In ACL-IJCNLP 2009 pp55-63 Singapore

Zhao H Huang C amp Li M (2006 An improved Chinese word segmentation system with conditional random field In SIGHAN-5 pp 108-117 Sydney

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等

Page 37: 第二十二章 计算语言学:若干最新进展1 Recent advances in …mega.lt.cityu.edu.hk/~ctckit/papers/Kit-CL v4+ clean.pdf · 第二十二章 计算语言学:若干最新进展1

- 37 -

Zhao H amp Kit C (2008) Unsupervised segmentation helps supervised learning of char-acter tagging for word segmentation and named entity recognition In SIGHAN-6 pp 106-111 Hyderabad India

Zhao H amp Kit C (2008) Joint parsing of syntactic and semantic dependencies with two single-step maximum entropy In CoNLL-08 pp 203-207 Manchester

Zhao H amp Kit C (2010) Integrating unsupervised and supervised word segmentation The role of goodness measures Accepted to Information Sciences forthcoming

作者 简介 揭春雨1985年清华计算机系毕业攻读社科院应用语用学硕士是汉语信息处理

界先驱者之一留学美国卡内基梅隆(Carnegie Mellon)大学获计算语言学硕士

又赴英国师从自然语言处理学界的著名先驱和世界级大师维尔克斯(Yorick Wilks)教授获谢菲尔德(Sheffield)大学计算机博士现任教于香港城市大学为博硕

士导师著名诗人研究计算语言学机器翻译计算术语学和计算诗学等