意义的计算 -- 知网的进展与应用

26
意意意意意 意意意意意 -- -- 意意意意意意意意 意意意意意意意意 意意意 意意 意意意 意意 意意意意意意意意意意意意意意意意 意意意意意意意意意意意意意意意意 意意意意意意意 意意意意意意意 e-mail: [email protected] e-mail: [email protected] http://www.keenage.com http://www.keenage.com Tel: (8610) 6287-5641 Tel: (8610) 6287-5641 Tel: (8610) 6676-8816 Tel: (8610) 6676-8816

Upload: lazaro

Post on 18-Mar-2016

65 views

Category:

Documents


3 download

DESCRIPTION

意义的计算 -- 知网的进展与应用. 董振东 董强 中科院计算机语言信息工程研究中心 语言知识研究室 e-mail: [email protected] http://www.keenage.com Tel: (8610) 6287-5641 Tel: (8610) 6676-8816. 讨论题目. 不变的是什么? 变了什么? 变成什么样了?. 不变的是什么(1). 《知网》的性质 -- 描述概念与概念之间的关系,以及概念的属性与属性之间的关系的知识库 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 意义的计算 -- 知网的进展与应用

意义的计算意义的计算 -- -- 知知网的进展与应用网的进展与应用董振东 董强董振东 董强

中科院计算机语言信息工程研究中心中科院计算机语言信息工程研究中心语言知识研究室语言知识研究室

e-mail: [email protected]: [email protected]://www.keenage.comhttp://www.keenage.com

Tel: (8610) 6287-5641 Tel: (8610) 6287-5641 Tel: (8610) 6676-8816 Tel: (8610) 6676-8816

Page 2: 意义的计算 -- 知网的进展与应用

讨论题目 不变的是什么? 变了什么? 变成什么样了?

Page 3: 意义的计算 -- 知网的进展与应用

不变的是什么( 1 )《知网》的性质 -- 描述概念与概念之间的关系,以及概念的属性与属性之间的关系的知识库 Dong Zhendong, "Knowledge Description:

What, How and who?", Proceedings of International Symposium on Electronic Dictionary, Tokyo, 1988, p.18

Page 4: 意义的计算 -- 知网的进展与应用

不变的是什么( 2 )《知网》的哲学 -- 知识是关系的系统,是概念与概念之间的关系,概念的属性与属性之间的关系的系统 -- 万物都在特定的时空中变化,从一种状态转变为另一种状态,这样的转变体现于它的属性的变化 -- 本质属性或非本质属性的差别决定概念之间的差别

Page 5: 意义的计算 -- 知网的进展与应用

不变的是什么( 3 )《知网》的建构理念和设计 -- 关系是灵魂,揭示关系是《知网》的中心 -- 基于义原( sememe ),特征的静态描述为主 -- 采用动态角色激活静态特征 -- 面向计算机

Page 6: 意义的计算 -- 知网的进展与应用

多层语义关系网络( MLRN )

Page 7: 意义的计算 -- 知网的进展与应用

《知网》的知识获取与表达 -- 义原(sememe)

义原的认定 义原的提取

中文字义为基础 4,000 汉字 2,200 义原

英文词义为对照 义原的范畴

Page 8: 意义的计算 -- 知网的进展与应用

义原的范畴实体 万物 (物质、精神、事情) 部分 (部件、配件) 时间 空间 (方向、位置)事件 (关系 / 状态、动作)属性属性值 (外观、量度、特性、关系、状况)数量数量值

Page 9: 意义的计算 -- 知网的进展与应用

变了什么? 《知网》的知识词典描述语言( KDML ),从原来的线性的描述方式改进为树型的、可嵌套的描述方式;原来的各种关系的表示从隐性、有的含混的变为显性的、无含混的。

对属性和属性值义原做了重大的调整和补充。同时对其他义元表也做了相应的调整。

增加了一些各种关系的检索模式。

增加了事件关系与动态角色转换模块。

将《中文信息结构库》进行了规则化处理,并针对这些规则编写了相应的解释器。

Page 10: 意义的计算 -- 知网的进展与应用

《知网》采用的义原 1503 => 2199实体 141 => 153

万物(物质、精神、事情、组织) 134 => 146 部分(部件、配件) 3 时间 1

空间(方向、位置) 3事件(关系 / 状态、动作) 813 => 817属性值(外观、量度、特性、关系、状况) 316 => 859数量值 13 => 18属性 117 => 236 数量 6次要特征 99 => 110

Page 11: 意义的计算 -- 知网的进展与应用

HowNet 释义一例W_C= 店G_C=NE_C= 旅 ~ ,星级饭 ~ ,黑 ~ ,住 ~ , ~ 里没空房,住酒 ~ ,星级酒 ~W_E=innG_E=NE_E=DEF={InstitutePlace| 场所 :{eat| 吃 :location={~}},{reside| 住下 :location={~}},{recreation| 娱乐 :location={~}},RelateTo={tour| 旅游 },domain={economy| 经济 }}W_C= 店G_C=NE_C=~ 铺,商 ~ ,夫妻 ~ ,夫妻老婆 ~ ,便民 ~ ,小卖 ~ ,专卖 ~ ,书 ~ ,布 ~ ,药~ ,花 ~ ,小吃 ~ ,精品 ~ ,礼品 ~ ,玩具 ~ ,服装 ~ ,烟纸 ~ ,南货 ~ ,食杂 ~ ,宠物 ~W_E=shopG_E=NE_E=DEF={InstitutePlace| 场所 :{sell| 卖 :agent={~}},{buy|买 :location={~}},domain={economy| 经济 }}

Page 12: 意义的计算 -- 知网的进展与应用

KDML 改进W_C=北麓G_C=NE_C=W_E=northern foot of a mountainG_E=NE_E=(原) DEF=part| 部件 ,%land|陆地 ,base|根(新) DEF={part| 部件 :whole={land|陆 地 :PartPosition={base|根 }},modifier={north|北 }}

Page 13: 意义的计算 -- 知网的进展与应用

KDML 改进W_C=被告人G_C=NW_E=accusedG_E=NDEF=human|人 ,$accuse|控告 ,police|警DEF={human|人 :{accuse|控 告 :patient={~}},domain={police|警 }}

W_C=被告席G_C=NW_E=dockG_E=NDEF=location| 位置 ,@sit|坐蹲 ,#accuse|控告 ,police|警DEF={location| 位置 :{sit|坐蹲 :location={~},agent={human|人 :

{accuse|控告 :patient={~}},domain={police|警 }}}}

Page 14: 意义的计算 -- 知网的进展与应用

WordNet 释义一例The noun shop has 2 senses (first 2 from tagged texts)

1. shop, store -- (a mercantile establishment for the retail sale of goods or services; "he bought it at a shop on Cape Cod")

2. workshop, shop -- (small establishment where handcrafts or manufacturing are done)

Page 15: 意义的计算 -- 知网的进展与应用

概念描述的举例 ( 1 )医生: DEF={human|人 :domain={medical|医 }, HostOf={Occupation|职位 },{doctor| 医治 : agent={~}}}

患者: DEF={human|人 :domain={medical|医 }, {SufferFrom|罹患 :experiencer={~}}, {doctor|医治 :patient={~}}}

医院: DEF={InstitutePlace| 场所 :{doctor|医治 : location={~},content={disease|疾病 }}, domain={medical|医 }}

Page 16: 意义的计算 -- 知网的进展与应用

概念描述的举例 ( 2 )病历: DEF={document| 文书 :{record|记录 : content={disease|疾病 },LocationFin={~}}, domain={medical|医 }}

健康: DEF={Health|健康 : host={AnimalHuman| 动物 }}

多病: DEF={unhealthy| 不健 }

│ │ ├ {HealthValue|健康值 } │ │ │ ├ {healthy|康健 } │ │ │ └ {unhealthy| 不健 }

Page 17: 意义的计算 -- 知网的进展与应用

概念描述的举例 ( 3 )病: {disease|疾病 } {phenomena| 现象 : {doctor|医治 :content={~}},{SufferFrom|罹患 :content={~}},RelateTo={medicine| 药物 } {Health|健康 }{HealthValue|健康值 }, domain={medical|医 }}

药: {medicine| 药物 } {artifact|人工物 :{doctor|医治 :instrument={~}},RelateTo={disease|疾病 }, domain={medical|医 }{chemistry| 化学 }}

Page 18: 意义的计算 -- 知网的进展与应用

《知网》的灵魂 – 关系1. 上下位2. 事件必要角色框架3. 事件关系与角色转换4. 同义5. 反义6. 对义7. 整体 - 部件8. 宿主 - 属性9. 属性 - 属性值10. 实体 - 相应事件11. 制成品 -材料12. 各种动态角色关系

Page 19: 意义的计算 -- 知网的进展与应用

上下位关系 (上下位关系 ( 11 ))- {entity| 实体 } ├ {thing| 万物 } {entity| 实体 :{ExistAppear|存现 :existent={~}}} │ ├ {physical| 物质 } {thing| 万物 :{HostOf={Appearance| 外观 }},{perception|感知 :content={~}}} │ │ ├ {animate|生物 } {physical| 物质 :{HostOf={Age|年龄 }},

{alive| 活着 :experiencer={~}},{die|死 :experiencer={~}},{metabolize|代谢 :experiencer={~}},{reproduce|生殖 :agent={~}},{reproduce|生殖 :PatientProduct={~}}}

│ │ │ ├ {AnimalHuman| 动物 } {animate|生物 :{HostOf={Sex|性别 }},{AlterLocation| 变空间位置 :agent={~}},{StateMental|精神状态 :experiencer={~}}} │ │ │ │ ├ {human|人 } {AnimalHuman| 动物 :{HostOf={Name|姓名 }{Wisdom|智慧 }{Ability|能力 }},{think|思考 :agent={~}},

{speak|说 :agent={~}}}

Page 20: 意义的计算 -- 知网的进展与应用

上下位关系 (上下位关系 ( 22 ))- {event| 事件 } ├ {static| 静态 } │ ├ {relation| 关系 } │ │ ├ {isa| 是非关系 } │ │ │ ├ {be| 是 } {relevant,isa}/{relevant,descriptive} │ │ │ │ ├ {become| 成为 } {relevant,isa}/{relevant,descriptive} │ │ │ │ └ {mean|指代 } {relevant,isa}/{relevant,descriptive} │ │ │ └ {BeNot| 非 } {relevant,isa}/{relevant,descriptive} │ │ ├ {possession|领属关系 } │ │ │ ├ {own| 有 } {possessor,possession} │ │ │ │ ├ {obtain|得到 } {possessor,possession,source} │ │ │ │ └ {receive|收受 } {possessor,possession,source} │ │ │ ├ {BelongTo| 属于 } {possessor,possession} │ │ │ ├ {OwnNot| 无 } {possessor,possession} │ │ │ │ └ {lose|失去 } {possessor,possession} │ │ │ │ └ {InDebt|亏损 } {possessor,possession} │ │ │ └ {owe|欠 } {possessor,possession,target}

Page 21: 意义的计算 -- 知网的进展与应用

事件动态角色 ( 1 ){Event Role and Features} ├ {EventRole} 动态角色 │ ├ {relevant} 关系主体 │ ├ {existent} 存现体 │ ├ {experiencer} 经验者 │ ├ {agent} 施事 │ ├ {coagent} 合作施事 │ ├ {possession} 占有物 │ ├ {patient} 受事 │ ├ {PatientPartPosition} 部件部位受事 │ ├ {PatientProduct} 成品受事 │ ├ {PatientAttribute} 受事属性 │ ├ {PatientaValue} 受事属性值

Page 22: 意义的计算 -- 知网的进展与应用

事件动态角色 ( 2 ) │ ├ {PartOfTouch} 触及部件 │ ├ {content} 内容 │ ├ {ContentProduct} 内容成品 │ ├ {ResultContent} 结果内容 │ ├ {isa} 类指 │ ├ {PartOf} 部分 │ ├ {whole} 整体 │ ├ {host} 宿主 │ ├ {HostOf} 之宿主 │ ├ {descriptive} 描写体 │ ├ {result} 结果

Page 23: 意义的计算 -- 知网的进展与应用

事件关系和角色转换 sorrowful|悲哀 weep|哭泣 [consequence]; experiencer OF sorrowful|悲哀 =agent OF weep|哭泣 ; cause OF sorrowful|悲哀 = cause OF weep|哭泣 ;

BeBad|衰变 [cause]sorrowful|悲哀 ; experiencer OF BeBad|衰变 =experiencer OF sorrowful|悲哀 ; BeBad|衰变 ITSELF=cause OF sorrowful|悲哀 .

unfortunate| 不幸 BeBad|衰变 [hypernym]; experiencer OF unfortunate| 不幸 =experiencer OF BeBad|衰变 .

defeated|输掉 BeBad|衰变 [hypernym]; experiencer OF defeated|输掉 =experiencer OF BeBad|衰变 .

Page 24: 意义的计算 -- 知网的进展与应用

实体 - 属性 - 属性值的关系头 /发型: {Pattern| 样式 :host={part| 部件 :whole={human|人 },PartPosition={hair|毛 }}}

PatternValue| 样式值 = Value of Pattern| 样式├ {fashionable| 时髦 }└ {unfashionable|背令 }

Page 25: 意义的计算 -- 知网的进展与应用

《知网》的应用1. 语料库语义标注:香港科技大、清华2. WSD , Sense Pruning:山大、台湾中研院、 厦大、香港科技大3. 敏感信息发现:解放军某部4. 信息过滤:厦大5. Personalized IR:计算所6. Semantic Web:台湾工研院7. 与 WordNet比较研究:马里兰大学、香港科技大

Page 26: 意义的计算 -- 知网的进展与应用

欢迎提问和批评欢迎提问和批评