文字信息国际标准 进展,问题与思考

Post on 26-Jan-2016

175 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

文字信息国际标准 进展,问题与思考. 张轴材 语言文字应用研究所 客座研究员 ISO/IEC IRG 汉字组 召集人 书同文数字化技术有限公司 CEO Joe.zhang@unihan.com.cn. 2003-11-05 长沙 全国语言文字信息化工作会议. 为什么此处只谈文字信息化?. 对语言信息化标准的进展缺乏了解 个人充其量只有一些“数量文字学”的概念 字词语,字是基础; 文字信息化是语言信息化的基础. 文字信息化的最基本的任务. - PowerPoint PPT Presentation

TRANSCRIPT

文字信息国际标准文字信息国际标准进展,问题与思考进展,问题与思考

张轴材 语言文字应用研究所 客座研究员ISO/IEC IRG 汉字组 召集人书同文数字化技术有限公司 CEO

Joe.zhang@unihan.com.cn2003-11-05 长沙 全国语言文字信息化工作会议

为什么此处只谈文字信息化?为什么此处只谈文字信息化?

对语言信息化标准的进展缺乏了解 个人充其量只有一些“数量文字学”的概念 字词语,字是基础; 文字信息化是语言信息化的基础

文字信息化的最基本的任务文字信息化的最基本的任务

建立传统的真实世界的文字(古今中外)与计算机世界(虚拟世界)的联系:编码汉字 - 汉字编码 Character Encoding ≠IME 编码汉字是文字在计算机内最基本的表达形式

文字编码特点文字编码特点

按文字编码,而不是按语言、国度、地域编码; CJK 汉字统一编码。 按抽象字形编码,而不是按字音、字义编码,也不是按具体造型编码。 体系结构与过去 ISO 2022 迥然不同 在基本多文种平面, 16 比特全编码

ISO 2022 vs. UCS 16-Bit FISO 2022 vs. UCS 16-Bit Full Encoding ull Encoding 编码结构编码结构

UCS/Unicode 完全不同于 Code Page !!!

文字信息标准化的集中体现文字信息标准化的集中体现ISO/IEC 10646 & UnicodeISO/IEC 10646 & Unicode

80 年代末启动 ISO/IEC 10646-1:1993 = GB 13000 ISO/IEC 10646-1:2000 + CJK_A, 蒙 , 藏,彝,朝… ISO/IEC 10646-2:2001 + CJK_B, Tai Le, Yijing… ISO/IEC 10646-2003 = Unicode 4.0 Amendment 1 to 10646-2003 开始

Amendment Now ?Amendment Now ?未出版就开始作补编?未出版就开始作补编?

Yes ! 好像 IT 的特点。文字的信息技术标准像软件一样,版本不断更新。( e-Publishing 的驱动力)标志着文字的信息化步伐加快,正向深度和广度进军。对此要有足够的认识。不能拘泥于旧式的老套套、老本本。

广 度广 度 - - 文种的扩充文种的扩充 古波斯文 古希腊文 古希腊音乐符 巴斯巴文 西双版纳傣文 国际音标 IPA 扩充 古汉字:隶,篆,甲骨,…

深 度深 度

文字属性 (Characteristics) 的扩充 SC2 职能的扩大 (SC20 Character Ordering 纳入 SC2 ) UCA : Unicode 4.0 Collation Algorithm 理序算法

深 度深 度

国际基本汉字子集 International Basic CJK Ideograph Subset, 结合国家规范汉字表定义之。( IRG#21 ) WG2 决议: SuperCJK Database 纳入字典指针:康熙字典、汉语大字典、大汉和、大字源。 Signifying / Signified 能指 / 所指明晰化 。例: U+082B8 signifies 艺,芸,藝。指向了最主要的形音义属性。

深 度深 度 从汉字的“水平认同”走向“垂直关联” 简繁异体汉字的关联(有方向性、耦合强度、时间性、合法性等问题,略) 中文域名的简繁异关联已经提上日程 清华大学 = 清華大學 = 淸蕐大學

深 度深 度

Variant Selector 异体字选择符 USI=Unique Sequence Identifier 具有特异性的序列标识符,亟待研究 …

问 题问 题

全球化步伐加快,我体制跟不上 美国 -微软 -Unicode 形成强势难敌 我缺乏有效参与: Tai Lue, Phags-Pa 与 IT 界结合不紧密,未形成合力 长“坐而论”,偶“起而行”。

思 考思 考

一个文字发源于、应用于一个国家,但是它并不只属于这个国家。这个文字信息的标准化步伐并不完全以我们的意志为转移。 只有积极地参与、介入国际标准的开发,才能处于主导的地位。

思 考思 考

国家信息化,电子政务、电子政务、电子商务、数字图书馆、电子出版、电子教育,语言文字信息化是先行官,文字信息标准化是基础。 紧紧把握文字标准化的要点,做好高层协调、多方协作;掌握文字信息的核心资源、推动文字技术的核心技术开发。

思 考思 考

高度重视汉字属性 -知识库的建设 (Attributes - Characteristics) 发掘汉字的深层内涵,引导语文信息化发展。 文字信息标准化工作从 IT 界为主应当尽快转向文字工作者为主; 对以藏文为代表的民族文字信息化的走向做出果断的、正确的决策。

最主要的建议最主要的建议

期望国家语委真正担当起语言文字信息标准化的领导者的角色。 抓大放小,有所不为,保证重点。组织落实、任务落实、项目落实、经费落实。

谢谢!问题?谢谢!问题?

IRG: www.cse.cukh.edu.hk\~irg

UniHan: www.unihan.com.cn

Email: joe.zhang@unihan.com.cn

CJK 汉字 CJKA

CJK B CJK C

CJK D

汉字 形

n-Gram

音 义 码 频 序 简 繁 异

n-Gram 属性

词属性:音频义,同反义

语属性:音频义,同反义

国家语言文字资源建设—汉字属性数据库 HADB

属性 Characteristics

语词字

汉字属性数据库汉字属性数据库 HADB HADB vs.vs.

汉字知识平台汉字知识平台 HKPHKP

HADB 是 HKP 的基础: Hanzi Knowledge Platform 语言工作的编纂平台 HADB 是链接传统字书、辞书的纽带HADB 是挂接语料库的桥梁

汉字知识平台汉字知识平台 HKP-HKP-Authoring ToolAuthoring Tool

Operating System & Data Base Manager

HADB汉字属性库

Full Text RetrievalEngine OCR Engine

E- 字书集DictBank

语料库 CorpusSet

例证提取询经问典

ISO/IEC 10646 GB 13000

• GB 13000 ≠GB 18030

• GB 18030 = GBK 再扩充

文字定义文字定义 (Script≠Languag(Script≠Language)e)

Script : A set of graphic charact

ers used for the written form of

one or more languages

用于一种或多种书面形式的语言的图形字符的集合

CJK Unification

中日韩汉字统一编码

CJK Unification

中日韩汉字统一编码

CJK Unification

中日韩汉字统一编码

CJK Unification

中日韩

汉字

统一编码

CJK Unification

中日韩汉字

统一编码

CJK Unification

中日韩汉字

统一编码

简繁不认同

CJK Unification中日韩

汉字

统一编码

结构不同

不认同

CJK Unification源字集

分离者

不认同

CJK Unification 源字集分离者不认同

CJK Unification Rule

中日韩汉字认同规则

汉 字汉 字 编码的 +未编码的 以 CJK + CJK_A为基础 以国际基本汉字子集 BIIS ∋国家规范汉字为重点 加入 CJK_B 以后加入 CJK_C 古汉字 汉字系其他字

形 – 字形,字种及其代表形 – 字形,字种及其代表 典型字样 中日韩、大陆港澳台特征 部首 0 + (部首 1 )

康熙部首 汉语大字典 200部首

部首外笔画数 总笔画数 笔顺序列

音 音 汉语拼音 +调 ( +n 多音) 注音 BoPoMoFo+调 (+n 多音 ) 反切 CTS : Character To Speech 单字发声引擎 Katakana 日文发音

义 义

现代字义 古代字义 主要 /次要字义 在主要字典中的义项 摩登新义:“酷”,“靓” 港台变义 日文字义

码码

ISO/IEC 10646 Code=Unicode GB 2312 GBK Big5 – CNS 11643 ShiftJIS – JIS HKSAR Code 电报码 K,V,……

频频

• 平衡语料中字频• 古籍语料中字频• 现代社会生活“当今字频”

古籍字频古籍字频书同文公司八亿古籍语料统计书同文公司八亿古籍语料统计

1 1- 100图表 ( )

35. 97%

0. 00%

11. 00%16. 15%

19. 90% 22. 99%

25. 82%28. 22%

30. 34%32. 36%

34. 25%

0%5%10%15%20%

25%30%35%40%

0 10 20 30 40 50 60 70 80 90 100

字头(Hanzi)

覆盖

率(C

overage)

古籍字频古籍字频

2 100- 500图表 ( )

35. 97%

43. 15%

48. 71% 53. 15%

56. 83% 59. 99%

62. 72%65. 08%

67. 19%

35%

40%

45%

50%

55%

60%

65%

70%

100 150 200 250 300 350 400 450 500

字头(Hanzi)

覆盖

率(C

overage)

古籍字频古籍字频

3 500- 1000图表 ( )

80. 96%

67. 19%

70. 88%

74. 00% 76. 66%

78. 97%

65%

70%

75%

80%

85%

500 600 700 800 900 1000

字头(Hanzi)

覆盖

率(C

overage)

古籍字频古籍字频

4 1000- 10000图表 ( )

80. 96%

91. 65%

95. 66%

97. 55%

98. 55%

99. 10%

99. 43%

99. 62%

99. 73%

99. 81%

80%

85%

90%

95%

100%

1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

字头(Hanzi)

覆盖

率(C

ov

erage)

古籍字频古籍字频

5 10000-30136图 ( )

99. 81%

99. 86%

99. 89% 99. 91%

99. 93% 99. 95%

99. 96%99. 97%

99. 97%99. 98%

99. 98%

99. 80%

99. 85%

99. 90%

99. 95%

100. 00%

10000 11000 12000 13000 14000 15000 16000 17000 18000 19000 20000

字头(Hanzi)

覆盖

率(C

overage)

古籍字频统计 样张古籍字频统计 样张

古籍字频古籍字频 -- 中日韩标准对古籍的覆盖率中日韩标准对古籍的覆盖率

KBGTJ

5680

19172

62084607

12940

370

72. 57%

99. 28% 95. 57%

1. 39%

91. 91%

95. 26%

Go GBK J o J o+ Ko Bi g5

字符集

使用字·覆盖率

使用字

覆盖率

古籍字频古籍字频 - - 随机查询、关联查询随机查询、关联查询

国家语委十五科技攻关重点项目之一书同文公司开发辅助软件

古籍字频查询示例

例:查询前若干个高频字例:查询前若干个高频字

例:关联字字频查询例:关联字字频查询

序 序 Ordering & CollatingOrdering & Collating

• 在指定集合中• 以总笔划为序,横竖撇点折……• 以拼音为序• 综合理序(一二三四五怎么排序?)

简繁异简繁异 -- 单字关联单字关联

关联属性:简繁?正异?新旧?古今?通假?中日?正讹?避讳?…… 耦合强度 转换方向 - 对应方向:语境相关 语词背景 Context 代码转换 vs. 简繁转换

大量的异体字相互关联 Variants

Inherently Associated Each Other

簡體 - 繁體關係:简 / 簡 正體 - 異體關係:修 / 俢 兔 / 兎 刃 / 刄正字 - 訛(譌)字:久 / 乆 派 / 泒 叐 / 犮通假 - 被通假:詳 / 佯古今字:镸 / 長新舊字形:青 / 靑 說 / 説 媪 / 媼中日:売 / 卖 図 / 图 单 / 単形近異義字:义 / 叉 刺 / 剌 諫 / 諌避諱字:弘 / 玄 / 燁 / 胤 / 禛 /

异体字存在于多个代码页• Many Code Pages - Before

團団 JIS

GB團

Big5

KSC

异体字被归纳在一个统一的体系内

• Many Code Pages - Before

• Single Code Set – Now !

团 -團 -

団 Unicode/

CJK

檢索字串 匹配數目 查詢時間(ms)

無 有 無 有 無 有

荊軻

荊軻

荆轲

1 42 130 316

例:文字关联帮助读者检索

說説文

再例:文字关联帮助读者检索

渕小渊

词、语词、语

现代词库 10万? 古汉语词库 20万? 新词 (按揭,丁克, Kiosk ) 同义词库 ( 不一定符合传统语言学,孙中山 =孙逸仙 =孙文, OpenType = Open Type) 专业词库

nGramnGram

不一定具有语言学的意义,但对信息技术有利。例: Bigram “ 子曰”的高频度,有利于排除“子日”,“于曰”…

top related