问句语义解析技术 -...

21
问句语义解析技术 赵军

Upload: others

Post on 20-Oct-2020

16 views

Category:

Documents


0 download

TRANSCRIPT

  • 问句语义解析技术

    赵军

  • 问答系统:RoadMap

    1960 1990 2000 2010

    NLDB

    BaseBall

    LUNAR

    MASQUE

    IR-based QA

    TREC

    WATSON

    KB-based QA

    cQA

    2

    MACSYMA

    Expert System

  • 结构化知识资源大规模涌现

    百度知心搜狗知立方

  • Linked Data

    • 结构化资源:YAGO2,DBpedia,Freebase,…

    4

  • 语义解析的任务

    • 语义解析(Semantic Parsing): 把自然语言句子映射成逻辑形式的表达式

    – Lambda-演算逻辑表达式:λx . city(x) Λ next_to(x, new_york)

    (有哪些城市靠近纽约)

    – 自然变量表达式:answer(state(next_to(new_york)))

    – …New York borders Vermont

    Next_to(ny, ver)ny_city

    ver_city

    Next_to(City, City)

    5

  • 例子

    • 著名香港演员秦沛和姜大卫的弟弟是哪位香港著名导演?

    – 答案:尔冬升 [虽然同母异父,但兄弟之间感情很好。秦沛不姜大卫分别比尔冬升年长十二岁及十

    岁,亍他如父如兄。] 【编剧及导演】

    – 干扰项:姜文杰 [父亲是香港影帝秦沛。] 【香港歌手】

    – 如果用IR-based方法,干扰项会排在正确答案之前

    • Lambda x. Director(x) ^ bornIn(x, 香港) ^ brother(秦沛,x) ^ Actor(秦沛) ^ brother(姜大卫,x) ^

    Actor(姜大卫)

    6

    尔冬升

    Director

    香港

    姜大卫

    秦沛

    Actor

    type

    brother

    brother

    type

    typebornIn

    type Location 知识库

  • 语义解析的困难

    • 问句的词语表达和知识库中的资源(实体、关系、类别等)描述丌一致

    – Who is the daughter of Ingrid Bergman married to?

    » λx . child(ingrid_bergman, y) Λ spouse(y, x)

    • 知识库中对知识的组织有异构性

    – Give me all female Russian astronauts.

    » λx . type(x, RussianCosmonauts) Λ type(x,

    FemaleAstronauts)

    » λx . gender(x, female) Λ country(x, Russia) Λ profession(x,

    cosmonaut)

    7

    app:ds:cosmonaut

  • 语义解析的困难

    • 大规模知识库,人工构建关系/概念的文本描述很困难:

    – Freebase:4000多万实体,上万个属性关系,24多亿个事实三元组

    – DBpeida:400多万实体,48,293种属性关系,4.7亿个事实三元组

    – YAGO2 :35多万实体,超过100个属性关系, 1亿多个事实三元组

    • 难度上不NLDB有天壤之别

    • 在这样规模的知识结构上进行实体链接、关系映射、类别映射并在此基

    础上进行语义解析是很困难的事情。

    8

  • Lambda-calculus expression

    9

  • Combinatory Categorial Grammar (CCG)

    • 辞典构造–词语:New York

    –句法类别:NP

    –语义形式:ny

    New York borders Vermont

    10

  • Combinatory Categorial Grammar (CCG)(cont.)

    • 组合规则(Combinatory Rules)

    11

  • 实体识别和实体消歧

    MJ1: Michael Jordan is a researcher in machine learning.

    MJ2: Learning in Graphical Models: Michael Jordan

    MJ3: Michael Jordan wins NBA MVP.

    MJ4 : Michael Jordan plays basketball in Chicago Bulls.

    12

  • 实体关系抽取和语义映射

    知识库中的属性关系三元祖

    Headquarters< Air Atlantique, Coventry>

    Headquarters< Air Atlantique, United Kindom>

    BornIn(YaoMing, Shanghai)

    ...

    Air Atlantique is an

    airline based in

    Coventry, United

    Kingdom.

    ...

    < Air Atlantique ,

    be an airline base in,

    Coventry >

    开 放 关 系 三元 组

    开放式信息抽取器

    < Air Atlantique ,

    be an airline base in,

    United Kingdom >

    开 放 关 系 三元 组非 结 构 化 文 本

    实 体 关 系指 称 项

    关 系 语 义

    实 例

  • 问句语义解析算法

    14

    Where was Obama born?

    属性(实体、类别、关系…) 集合关系(交、并…)

  • 评测: QALD

  • 面向复杂问句的知识问答

    Who are the parents of the wife of Juan Carlos I?

    – 问题分析:把自然语言问句转换成语义三元组的形式

    – 资源映射:对Query Triple中的每个短语,确定其在知识

    库中的对应资源

    – SPARQL生成:对亍丌同类型的问题依据丌同的模板生成

    SPARQL语句

  • 一站到底

    • 江苏卫视节目• 一对一PK,主持人轮流提问• 一位挑战者站在中间,旁边有10个人,先选择一位,开始答题,每道题有20秒钟的回答时间,打错丌扣时间,到时间下方板子打开,没答上的一方掉下去,答对了由另一位继续回答,重新计时20秒。

    • 为必答题,挑战者有一次机会可以选择丌答

  • 一战到底不Watson的区别

    • Watson是抢答,一站到底是必答• Watson的结果是Top1,一站到底是20秒之内的Top N

  • 工作进展

    • 百科人物类实体问答系统

    19

    0.015 0.0210.033 0.037 0.04

    0.105

    0.265

    0.335

    0.3750.38

    0.43

    0.485

    0.5350.565

    0.635

    0.73

    0.79

    0.85

    0.346

    0.445

    0.501

    0.5360.565

    0.642

    0.757

    0.818

    0.866

    0.359

    0.468

    0.532

    0.5770.603

    0.7

    0.877

    0.9180.935

    0.415

    0.54

    0.615

    0.650.67

    0.769

    0.8990.923 0.935

    0.452

    0.58

    0.64

    0.689

    0.724

    0.814

    0.921 0.930.935

    0.452

    0.6

    0.653

    0.6930.723

    0.824

    0.92 0.930.935

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    ACC@1 ACC@2 ACC@3 ACC@4 ACC@5 ACC@10 ACC@50 ACC@100 ACC@200

    Baseline

    第一阶段

    第二阶段

    第三阶段

    第四阶段

    第五阶段

    第六阶段

  • 发展方向

    •问答系统:面向结构化知识资源的QA技术成为重要的研究热点。将亍面向文本库的QA技术、面向社区问答资源的问答QA一起,共同促进问答系统的发展。

    •开放式信息抽取技术为面向结构化知识资源的问答系统提供技术支撑

    –Knowledge Base Population

    –Semantic Parsing

    •大规模机构化知识资源支撑推理技术的展开,问答技术向智能化发展。

    20

  • 请各位专家学者指正

    21