第六章 中文信息处理

33

Upload: mara-frederick

Post on 03-Jan-2016

72 views

Category:

Documents


5 download

DESCRIPTION

第六章 中文信息处理. 概 述. 一、中文信息处理. 《 计算机科学技术百科全书 》( 清华大学出版社, 1998) 中文信息处理 是用计算机对汉语的 音、形 、 义 等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 中文信息处理分为 汉字信息处理 与 汉语信息处理 两部分 中文信息处理是自然语言信息处理的一个分支,是一门与 计算机科学 、 语言学 、 数学 、 信息学 、 声学 等多种学科相关联的综合性学科。. 参考文献. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第六章 中文信息处理
Page 2: 第六章 中文信息处理

第六章 中文信息处理

概 述

Page 3: 第六章 中文信息处理

一、中文信息处理• 《计算机科学技术百科全书》 ( 清华大学出版社, 1998)

– 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。

– 中文信息处理分为汉字信息处理与汉语信息处理两部分

• 中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。

Page 4: 第六章 中文信息处理

参考文献• 《中文信息处理技术——原理与应用》,李宝安等,清华

大学出版社, 2005 年 7 月第 1 版 • 《中文信息处理技术教程》,朱巧明,清华大学出版

社, 2005 年版

• 《计算语言学概论》,俞士汶主编,商务印书馆, 2003年 9 月第 1 版

• 《计算语言学》,刘颖,清华大学出版社, 2002 年版

• 中国语言文字网 http://www.china-language.gov.cn/

Page 5: 第六章 中文信息处理
Page 6: 第六章 中文信息处理

中文信息处理• 中文信息处理分为汉字信息处理与汉语信息处理两部分

• 信息的两个层次:符号层 —— 中文 / 汉语 / 汉字内容层 —— 符号所承载的意义

• 中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译……等等)

Page 7: 第六章 中文信息处理

符号层的信息处理• 拼音文字:小字符集 —— 比较容易• 非拼音文字:大字符集 —— 难度很大

• 汉字是一个大字符集 《说文解字》(东汉): 9353 字 《玉篇》(南朝)收录 16,917 字 《广韵》(宋代)收字 26,194 字 《字汇》(明朝)收录 33,197 字 《康熙字典》(清朝)收录 47,043 字 《汉语大字典》( 1992 年) 5.6 万 《中华字海》( 1994 年) 8.6 万

• 拉丁字母只有 26 个符号• 斯拉夫字母只有 33 个符号• 阿尔明尼亚字母只有 38 个符号• 泰米尔字母只有 36 个符号• 缅甸字母只有 52 个符号• 泰文字母只有 44 个符号• 老挝字母只有 27 个符号• 藏文字母只有 35 个符号• 韩文字母只有 24 个符号• 日文假名只有 48 个符号

Page 8: 第六章 中文信息处理

符号层的信息处理

汉字输入

自动输入 键盘输入

字形识别 声音识别

手写体识别

印刷体识别

在线手写

脱机手写

整字键盘 通用键盘

主辅式

感应式

形码

音码

形音结合码

1

2

3

4

5

6

7

8

9

Page 9: 第六章 中文信息处理

内容层的信息处理

原文

原文输入

译前编辑

词法分析

句法分析

语义分析

语境分析

内部表示转换

译词选择

译后编辑

译文输出

词形变化

句子生成

译文

1

2

3

4

5

67

8

9

10

11

12

机器翻译全过程机器翻译全过程

需要语言知识!!!

Page 10: 第六章 中文信息处理

中文信息处理的现状和发展趋势

• 现状符号层的处理成果已经得到广泛应用;中文输入 / 字库 / 字处理软件 / 排版 /……

内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索

Page 11: 第六章 中文信息处理

二、文字信息处理的基本问题• 文字信息的计算机处理过程

– 要用计算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题。

文字信息的输入 文字信息的输入 文字信息的处理 文字信息的处理 文字信息的输出文字信息的输出

Page 12: 第六章 中文信息处理

二、文字信息处理的基本问题• 文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。– 在英文信息中,以 26 个字母作为文字信息处理的单位,因此要

对 26 个字母逐个地确定代替它的数码。– 汉字一般是以一个整字作为文字信息处理的单位,因此要对每一

个整字惟一地确定代表它的数码。• 这一数码统称为代码 (code)• 在计算机内部处理文字信息时,就像处理数据一样对待。

处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。

Page 13: 第六章 中文信息处理

二、文字信息处理的基本问题

• 英文字符的编码标准是 ASCII码,即美国信息交换标准代码。这是七位的二进制代码,它是美国国家标准学会( ANSI )为计算机的信息交换提出的标准,后来由国际标准组织( ISO )确定为国际标准字符编码。

• 为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即 GB1988 。其中除了将货币符号置换为人民币符号外,其他都与 ASCII码相同。

Page 14: 第六章 中文信息处理

• 计算机的键盘原本就是为英文输入设计的,只要按照字母击键,就可以输入英文。键盘的译码电路按照所击的键产生英文字符的 ASCII码,输入到计算机的内存中。

• 经过编辑的文本仍然以 ASCII码表示。输出时,这些代码必须转换成字符字形的点阵,以便显示或打印。因此,计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。

• 汉字信息的计算机处理过程与英文信息处理过程是类似的。不过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼容等问题,处理的难度更大。我国经过多年的研究,汉字处理的基本问题已经解决。

汉字信息处理的基本问题

Page 15: 第六章 中文信息处理

三、中文信息处理主要研究对象• 基础研究:汉字字频统计、词频统计、汉语自动分词、句

法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等

• 输入技术:中文输入法、中文手写输入、中文语音输入、光学字符识别等。

• 输出技术:汉字字模技术(字体库)、汉字激光照排、汉语语音合成、动态组字等。

• 外字处理:动态组字、造字、电子书等。 • 存储技术:汉字库标准中文、字符编码等。 • 转换技术:繁简转换等

Page 16: 第六章 中文信息处理

三、中文信息处理主要研究对象• 信息处理:中文情报检索、中文文本校对、机器翻译、自

然语言理解、中文人机界面、语义网、电子字典、电脑辅助翻译等

• 中文化:软件的国际化( internationalization )和本土化( localization )。

• 中文编程:目前有两种发展,一种是英文 coding直接翻译,以降低开发人员的语言学习成本;一种是根据中文特点,发展出融合中国人思维模式的新的计算机语言。

Page 17: 第六章 中文信息处理

• 为了用 0 、 1 代码串表示汉字,在汉字系统或通信系统之间交换信息,必须给每个汉字规定一个统一的代码。这就是汉字的交换码。

• 1981 年 5 月,我国国家标准总局颁布《信息交换用汉字编码字符集》 (GB 2312-80) ,作为汉字交换码编码的国家标准,简称国家标准汉字编码,或国标码。

• 收进该标准的字符共有 7 445 个。其中一级汉字 3 755 个,二级汉字 3 008 个,共计 6 763 个。一、二级汉字约占近代文献汉字累计使用频度的 99.99% 。

• 为便于查找,一级汉字按汉语拼音顺序排列;二级汉字一般不易熟记它们的发音,故按部首和笔画排列。另外还包括常用符号、序号、GB 1988图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等。

四、汉字编码标准

Page 18: 第六章 中文信息处理

• 累计使用频度不足 0.001% 的汉字数量接近 1 万个。为了满足计算机实际应用的需要,我国在 GB 2312-80 的基础上扩大收字的范围,制定了“汉字内码规范” GBK ,包含了 20 902 个汉字,又称为扩展的国标码。在 Windows 95/98 和其后的 Windows 2000 中,装入了 GBK 的全部汉字和符合 GBK 和 GB 2312-80 的输入法。

• 由于汉字的字符多,一个字节八位二进制代码不足以表示所有的常用的汉字。为了不与西文的 ASCII 码混淆,在微型机汉字系统中,国标码的每个符号都用两个字节(十六位)代码来表示,并作为转换为机内码或其他汉字处理代码的依据。

汉字编码标准

Page 19: 第六章 中文信息处理

• 汉字国标码就是 GB 2312-80 为汉字规定的代码,也称为交换码。• 国标码是汉字编码的国家标准。在 GB 2312-80 代码表中,纵向分

为 0~93 ,共 94 行;横向也是 0~93 ,共 94列。行与列分别用七位二进制码表示,第一字节表示行,第二字节表示列。其值都从0100001 到 1111110 。这正是 ASCII 码的可打印字符的编码。其范围为十六进制的 21~7E 。汉字国标码是将第一字节和第二字节连写而得到的。由于二进制形式太长,通常用十六进制表示。

• 例如:• 汉字   第一字节  第二字节  十六进制 区位码• 啊 0110000  0100001 3021 1601• 保 0110001 0100011 3123 1703• 播 0110010 0100101 3225 1805

国标码

Page 20: 第六章 中文信息处理

• 国标码还可以表示成区位码的形式。在 GB2312-80 代码表中,将行号称为区号,列号称为位号,分别有 94 个区和 94 个位。将汉字置于其中,由区号与位号标识出汉字在代码表中的位置。

• 区号与位号都用两位十进制数表示,不足两位的前面补零。每个汉字或符号的区号和位号连起来就组成这个汉字或符号的区位码。

• 这样,每个汉字或其他符号都可以用4位十进制数表示。因此,区位码可以用来作为汉字输入的编码。

区位码

Page 21: 第六章 中文信息处理

区位码• 在区位码表中, 1~9区为字母、数字、特殊图形符号等;

10~15区是未定义的空区; 16~55区为一级汉字区;56~87区为二级汉字区。例如,“啊”字的区位码是1601 ,“保”字的区位码是 1703 ,“播”字的区位码是 1805 ,等等。

• 区位码与国标码之间有一定的对应关系:• 将区位码的区号和位号分别由十进制转换成对应的十六进制数,然后加上十六进制数 2020H ( H表示 2020 为十六进制数码),就得到对应的国标码。例如,“啊”字的区位码是 1601 ,分别将区号和位号转换成对应的十六进制数得 1001H ,再加上 2020H就得到“啊”字的国标码为 3021H 。

Page 22: 第六章 中文信息处理

• 汉字机内码是在计算机内部实际用来表示汉字的代码。不同的计算机系统使用的机内码是不同的。在微型机中,多采用两字节代码作为机内码。在大、中型机中,多采用三字节或四字节代码作机内码。

• 制订机内码必须考虑下列因素:汉字与西文易于区别;中、西文兼容;码长短,每个汉字所占字节数少;与国标码有较简单的对应关系,便于信息转换。

机内码

Page 23: 第六章 中文信息处理

• 目前,多数微机汉字系统的机内码是以国标 GB 2312-80规定的双七位代码为依据,经一定转换后用两个字节表示一个汉字。每个字节的最高位均为1,以此作为汉字的标记,以便于与 ASCII码编码的符号相区别。

• 由国标码转换为机内码的规则是:将十六进制的国标码加上 8080H ,就得到对应的机内码。

• 如“大”字的区位码为 2083 ,国标码为 3473H ,机内码为 3473H+8080H=B4F3H 。将 B4F3H 化为二进制数得: 1011010011110011 ,这就是在计算机中实际使用的机内码的二进制形式。

• 8080H 等于二进制的 1000000010000000 ,国标码加上 8080H ,可以保证机内码每个字节首位均为1。

机内码

Page 24: 第六章 中文信息处理

五、汉字编码字符集

• 按照一组无歧义的规则而定义的汉字字汇的有序集合。其中每一个汉字与它的代码表示之间具有一一对应关系。

• 在信息处理技术中汉字编码字符集用于汉字信息的表示、交换、传输、处理、存储、输入及显示。

• 在国际标准化组织 ISO 的定义中,“无歧义的规则”很重要,制定这些规则的目的是为了确保编码的唯一性,避免重码。

Page 25: 第六章 中文信息处理

汉字编码的关系 00 FF

00

FF

00 FF

00

FF

00 FF

00

FF

27484汉字

20902汉字

6763汉字

GB18030 - 2000

GBK - 95

GB2312 -80

GB12345 - 90

2 个扩充的汉字字符集

GB2312

GBK-95

GB18030-2000

虚线外的汉字,4 字节表示

Page 26: 第六章 中文信息处理

六、中文信息在计算机内的表示• 在计算机内表示中文信息的最早在 IBM 、富士通、日立等计算机生产厂家的计算机中开始,但采用的编码形式互不兼容。

• 为了能使汉字能够在计算机中通行,国际标准组织( ISO )、国际电子电气工程师协会( IEEE )以及各个使用汉字的国家和地区,在计算机技术发展中,都制定了各种各样的汉字编码字符集。– ISO/IEC 2022定义了七位代码和八位代码的空间及其代码空间扩充的技

术。

• 绝大多数计算机系统所采用的字符集,都是以 ISO/IEC 2022 为基础的。

• 一般汉字在计算机内部的表示都是通过扩充编码长度实现的。

Page 27: 第六章 中文信息处理

ISO/IEC 10646

• 一个国际标准编号 ,国际标准化组织( ISO ) 1993年 正式颁布

• 英文全称: Information technology - Universal Multiple - Octet Coded Character Set,简称 UCS

• 中文全称:信息技术 --通用多八位编码字符集,亦称大字符集

• 宗旨 :全球所有文种统一编码

Page 28: 第六章 中文信息处理

Unicode

• 英文 Universal Code的缩略语• 统一编码• 是对国际标准 ISO/IEC 10646编码的一种称谓• 是一个企业联盟集团的名称 ,由美国的

HP 、 Microsoft 、 IBM 、 Apple等几家知名的大型计算机企业所组成 ,成立该集团的宗旨就是要推进多文种的统一编码

• 就内容而言, Unicode 和 ISO/IEC 10646是一致的,并行的

Page 29: 第六章 中文信息处理

ISO10646/Unicode

• ISO10646 的第 0 群组第 0 字面(群和面的值都为 00h )称为「基本多语种文字面」( Basic Multi-lingual Plane, BMP ),其编码字元与Unicode 相同。

• ISO10646 的 BMP 和Unicode 的编码字符。

Page 30: 第六章 中文信息处理

ISO/IEC 10646 中 CJK 汉字组成• CJK统一编码汉字( 20902 )• CJK扩充集 A(6585)

• CJK扩充集 B(4 万 --)

Page 31: 第六章 中文信息处理

ISO 10646/Unicode 的实现及其重要意义 • 在全球范围内建立起实时、无障碍的信息交换模式• 推动了汉字典籍的数字化• 为数字化图书馆的建立铺平了道路• 为弘扬汉字文化提供了舞台• Single Binary 技术的诞生:同一套基本程序用于多个语言环境

的技术• 使汉字关联活起来:正 -异关联、中 -日关联、繁 -简关联,正 -讹关联以及古今、新旧字形关联

Page 32: 第六章 中文信息处理

Windows 操作系统汉字输入法的使用

• Windows 操作系统提供了多种汉字输入法。其中全拼、智能ABC 、微软拼音、双拼、表形码、郑码等都是较常用的输入法。其他扩充的汉字输入法,如五笔字型,需要另行安装后方可使用。

Page 33: 第六章 中文信息处理

本 章 结 束