ccks2019评测 v1 - conference.bj.bcebos.com · 报名情况...

58
CCKS 2019 知识图谱评测竞赛总体报告 评测主席: 韩先培 王志春 2018年8月26日,杭州

Upload: others

Post on 06-Jul-2020

15 views

Category:

Documents


0 download

TRANSCRIPT

CCKS 2019

知识图谱评测竞赛总体报告

评测主席: 韩先培 王志春

2018年8月26日,杭州

评测任务• 任务一:面向中文电子病历的医疗实体识别及属性抽取• 任务组织者:张江涛 李文琪 汤步洲

• 负责人:张江涛

• 任务二:面向中文短文本的实体链指• 任务组织者:百度

• 负责人:汪琦,汪思麒,冯知凡,张扬

• 任务三:人物关系抽取• 任务组织者:苏州大学,狗尾草智能科技

公司

• 负责人:陈文亮, 邵浩,王海涛

• 任务四:面向金融领域的事件主体抽取• 任务组织者:中国科学院自动化所,蚂蚁金服

• 负责人:陈玉博,王太峰,黄敬

• 任务五:公众公司公告信息抽取• 任务组织者:东南大学

• 负责人:漆桂林 王萌

• 任务六:中文知识图谱问答• 任务组织者:北京大学计算机科学技术研究所 &

恒生电子股份有限公司

• 负责人:邹磊 胡森 林金曙 陈华华

报名情况• 共有1666支队伍报名参加评测任务(2018年288,6倍),698支队伍提交结果

228

345 358

478

92

165

0

100

200

300

400

500

600

任务1 任务2 任务3 任务4 任务5 任务6

企业39%

研究机构

61%

评测结果提交

• 评测结果通过Biendata.com平台提交• 结果实时评价,动态更新排行榜• 最终结果由专家审核之后确定

评测论文情况

•共收到39篇评测论文投稿,录用论文30篇

•口头报告:12篇

•海报展示:28篇

任务一:面向中文电子病历的医疗实体识别及属性抽取

清华大学知识工程实验室医渡云(北京)技术有限公司

哈尔滨工业大学(深圳)

任务背景

• 电子病历语义化系列评测• CCKS 2017,2018医疗命名实体识别评测任务的延伸和拓展

• 两个子任务1. 医疗命名实体识别

• 2018年度数据集修订2. 医疗实体及属性抽取(跨院迁移)

• 在医疗实体识别的基础上,对预定义实体属性进行抽取(迁移学习)

任务描述

• 子任务1• 输入:

• 电子病历的自然语言文本集合:𝒟 =𝑑$, d' ⋯𝑑) , 𝑑* = 𝑤*$, 𝑤*' ⋯𝑤*,

• 预定义类别:𝐶 = {𝑐$, 𝑐' ⋯ 𝑐0}• 输出:

• 实体提及和所属类别对的集合:

{ 𝑚$, 𝑐03 , 𝑚', 𝑐04 ,⋯ 𝑚5, 𝑐06 }

• 其中𝑚* = 𝑑*, 𝑏*, 𝑒* 是出现在文档d*中的医疗实体提及(mention),𝑏*和𝑒*分别表示𝑚*在𝑑*中的起止位置,𝑐09 ∈𝐶表示所属的预定义类别。要求实体提及之间不重叠,即𝑒* < 𝑏*<$

• 子任务2• 输入:

• 电子病历的自然语言文本集合:𝒟 =𝑑$, d' ⋯𝑑) , 𝑑* = 𝑤*$, 𝑤*' ⋯𝑤*,

• 预定义类别:P = {𝑝$, 𝑝' ⋯𝑝0}• 输出:

• 预定义类别的答案实体集合:{ 𝑑*, 𝑝?, 𝑠$, 𝑠',⋯ 𝑠A }

• 1 ≤ 𝑖 ≤ 𝑁, 1 ≤ 𝑗 ≤ 𝑚• 其中sA为𝑑*中出现的属于𝑝?答案实体,

每个类别可包含0或多个实体

• 迁移学习• 不同场景识别任务

数据集描述

文本 疾病和诊断 检查 检验 手术 药物 解剖部位 总数

训练集 1000 2116 222 318 765 456 1486 5363

测试集 379 682 91 193 140 263 447 1816

子任务1

子任务2

文本总数 目标场景 非目标场景 肿瘤部位 肿瘤大小 转移部位 实体总数

训练集 1000 100 900 180 454 602 1236

测试集 400 400 - 112 95 165 372

非标注 1000

评测方法• 子任务1

• 子任务2• F1为评测指标• 使用实体而非字段(类别)计算准召率

Strict Metrics𝑠* ∈ 𝑆 ≡ 𝑔? ∈ 𝐺当且仅当:

𝑠*. 𝑚𝑒𝑛𝑡𝑖𝑜𝑛 = 𝑔?.𝑚𝑒𝑛𝑡𝑖𝑜𝑛𝑠*. 𝑝𝑜𝑠P = 𝑔?. 𝑝𝑜𝑠P𝑠*. 𝑝𝑜𝑠Q = 𝑔?. 𝑝𝑜𝑠Q

𝑠*. 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦 = 𝑔?. 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦严格评价指标:

𝑃V =|X∩Z[||V|

, 𝑅V =|X∩Z[||[|

, 𝐹1V =' Z_ZZ<_Z

Relaxed Metrics𝑠* ∈ 𝑆 ≡ 𝑔? ∈ 𝐺当且仅当:

max(𝑠*. 𝑝𝑜𝑠P, 𝑔?. 𝑝𝑜𝑠P) ≤ m𝑖𝑛(𝑠*. 𝑝𝑜𝑠Q, 𝑔?. 𝑝𝑜𝑠Q)𝑠*. 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦 = 𝑔?. 𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦

松弛评价指标:

𝑃e =|X∩f[||V|

, 𝑅e =|X∩f[||[|

, 𝐹1e =' f_ff<_f

评测结果

排名 参赛队名 单位 得分

1 NUDT-YH 国防科技大学 0.76350

2 THU_MSIIP 清华大学科大讯飞联合实验室 0.76165

3 DUTIR 大连理工大学 0.76165

4 zu_nlp 中原工学院 0.70167

5 SCNU_TAMlab 华南师范大学 0.59906

6 四道口队 北京交通大学 0.59252

排名 参赛队名 单位 得分

1 Alihealth 阿里健康 0.85620

2 THU_MSIIP 清华大学科大讯飞联合实验室 0.85592

3 DUTIR 大连理工大学 0.85162

4 jfhealthcare 江西中科九峰智慧医疗科技有限公司 0.84846

5 suda-hlt 苏州大学 0.84121

6 ZJUCST 浙江大学 0.83795

子任务1

子任务2

共44支队伍提交结果

共6支队伍提交结果

方法分析• 子任务1

• 经典序列标注问题:CRF和Bi-LSTM模型仍然是被采用最多的模型

• 词典构造:借助大量外部词典资源

• 预训练引入Bert模型或ELMo模型

• 混合模型(Hybrid model)

• 特征工程+人工规则

• 子任务2

• 序列标注问题vs阅读理解问题

• CRF+Bi-LSTM

• 预训练引入Bert模型或ELMo模型

• 所有参赛队未考虑迁移场景

任务二:面向中文短文本的实体链指任务

百度

任务背景• 面向中文短文本的实体识别与链指,简称ERL(Entity Recognition and Linking),

是NLP领域的基础任务之一,即对于给定的一个中文短文本(如搜索Query、微博、用户对话内容、文章标题等)识别出其中的实体,并与给定知识库中的对应实体进行关联。ERL整个过程包括实体识别和实体链指两个子任务。

• 传统的实体链指任务主要是针对长文档,长文档拥有在写的上下文信息能辅助实体的歧义消解并完成链指。相比之下,针对中文短文本的实体链指存在很大的挑战,主要原因如下:

(1)口语化严重,导致实体歧义消解困难;

(2)短文本上下文语境不丰富,须对上下文语境进行精准理解;

(3)相比英文,中文由于语言自身的特点,在短文本的链指问题上更有挑战。

任务描述• 输入文件包括若干行中文短文本。

• 输出文本每一行包括此中文短文本的实体识别与链指结果,需识别出文本中所有mention(包括实体与概念),每个mention包含信息如下:mention在给定知识库中的ID,mention名和在中文短文本中的位置偏移。

• 示例:• 输入:

{"text_id":"1","text":"比特币吸粉无数,但央行的心另有所属|界面新闻 · jmedia"}• 输出:

{"text_id":"1", "text":"比特币吸粉无数,但央行的心另有所属|界面新闻 · jmedia""mention_data":[{"kb_id":"278410","mention":"比特币","offset":"0"},

{"kb_id":"199602","mention":"央行","offset":"9"},

{"kb_id":"215472","mention":"界面新闻","offset":"18"}

]

}

数据集描述• 知识库:该任务的参考知识库包括来自百度百科知识库的约39万个实体。知识库中的每个实体都包含一个kb_id,一个字符串名称,上位type信息及与此实体相关的一系列三元组<subject,predicate,object>信息形式。知识库中每行代表知识库的一条记录,每条记录的格式为一个json格式。

• 标准数据集标注数据集由训练集、验证集组成。其中训练集中包括9万条短文本标注数据,验证集分别包括1万条短文本数据,数据通过百度众包标注生成(人工进行评估,其平均准确率95%以上)。

• 标注文本对象示例:

刘德华演过无间道第几部

小米枪战游戏不可以玩跳伞

年轻的母亲1最初完整版

评测方法• 我们最终以F1分值作为评价指标,对于给定的中文短文本查询,EL系统输出的结果中包含

给定中文短文本查询中出现的所有命名实体的链接结果。我们通过将输出结果与人工标注集合S进行比较来计算准确率(Precision),召回率(Recall)和F1分值(F1 score)。

• 详细说明如下:

• 给定短文本输入(用Query表示,其属于golden标注集),此Query中有N个实体mention: ,每个实体mention链接到知识库的实体id为:

实体标注系统输出标注结果如下:

则分别定义实体标注的准确率P,召回率R以及F1值:

评测结果 39支队伍提交最终结果

排名 参赛单位 F1分值

1 东北大学 0.80143

2 联想研究院人工智能实验室 0.79965

3 电子科技大学 0.79654

4 上汽集团人工智能实验室 0.79326

5 同济大学 0.79266

6 国防科技大学 0.79048

7 京东方科技 0.79023

8 浙江大学&合肥工业大学 0.78586

9 上海财经大学 0.78483

10(并列) 万达集团 0.78450

10(并列) 中国科学技术大学 0.78450

方法分析• 命名实体识别(NER)和实体消歧(NED):

主流做法是采用pipeline的方式,先进行NER再NED,其中NER主要实现方式有序列标注和半指针半标注两种,Bi-LSTM+CRF仍是序列标注采用最多的模型;比较创新的方式是通过半指针半标注的方式实现NER,即进行两次标注分别标注实体的开始位置和终止位置。

NED则有rank和多分类两种实现方式,其中多分类是被采用最多的方法。

• 实体嵌入和词嵌入引入KG知识的实体嵌入(entity embedding)和基于word2vec的词嵌入被使用的最多,进而提升模型的

表达。

• 语言模型成为趋势Top5团队全部采用了BERT、ERNIE等语言模型进行知识增强。

任务三:人物关系抽取

苏州大学狗尾草智能科技公司

任务背景

• 关系抽取(Relation Extraction)是信息抽取的一个重要子任务,其任务是从文本内容中找出给定实体对之间的语义关系。

• 关系抽取是智能问答、信息检索等智能应用的重要基础,和知识图谱的构建有着密切的联系。

• 人是社会的重要组成单位,人物关系是人与人之间的一种牢固、深入、密切的联系。

• 目前没有公开的用于人物关系抽取研究的数据集。

任务描述

• 在本次评测任务中,我们的目标是识别目标句子中的人物关系。给定一组人物实体对和包含该实体对的句子,找出给定实体对在已知关系表中的关系。

• Sent-Track

输入:贾玲,80后相声新秀,师承中国著名相声表演艺术家冯巩。

输出:老师

• Bag-Track

输入:从袁安起,几代位列三公(司徒、司空、太尉),出过诸如袁汤、袁绍、袁术等历史上著名人物。

袁汤(公元67年—153年),字仲河,河南汝阳人,名臣袁安之孙,其家族为东汉时期的汝南袁氏。

输出:爷爷

• 评测数据集:

• 人工标注:

数据集sentence bag

NA non-NA NA non-NA

训练集 248,850 38,550 35,000 2948

验证集 37,332 1,085 5,116 300

测试集 74,774 2,3727 10,208 641

数据集 比例 bag 远程监督 人工标注

训练集 70% 2948 √ X

验证集 10% 416 √ √

测试集 20% 850 √ √

数据集描述

数据集描述

• 文件格式:Files Contents

sent_train/dev sentID eh et sentence

sent_relation_train/dev sentID relationIDs

bag_relation_train/dev bagID eh et sentIDs relationIDs

sent_test sentID eh et sentence

sent_relation_test sentID

bag_relation_test bagID eh et sentIDs

评测方法

• 评价指标:𝐹$• 不考虑NA,记标准答案数量为𝑁Vgh,系统预测答案数量为𝑁ViV,预测正确的答案数量为𝑁e,

则:

• 𝑃 = )f)ZjZ

,𝑅 = )f)Zkl

,𝐹$ ='^_^<_

• 排名策略:AB榜

评测结果

Sent-Track Bag-Track

排名 队伍 A-score B-score 排名 队伍 A-score B-score

1 格物致知 0.54076 0.54279 1 LEKG 0.59925 0.63030

2 LEKG 0.47300 0.48427 2 格物致知 0.60773 0.62162

3 NEU_DM1 0.44912 0.46200 3 NEU_DM1 0.55894 0.57459

4 LMN 0.41171 0.41096 4 Ac 0.51899 0.53196

5 RE小分队 0.42841 0.41003 5 idke_NEU 0.49724 0.52374

6 runit 0.40297 0.39523 6 Jun 0.50785 0.52346

7 guanchong 0.38566 0.38657 7 OneOf 0.48895 0.50165

8 Jun 0.40322 0.38044 8 jack 0.49351 0.49038

9 机器没有命运 0.37741 0.35767 9 guanchong 0.45783 0.47665

10 uw1 0.35834 0.34885 10 华凌NLP 0.44852 0.47612

方法分析• BERT

• BERT被广泛使用,能提供更丰富的语义表示

• BERT输出作为词向量,或者作为句子编码结果

• 任务转换• 将Bag-Track结果转换成Sent-Track

• 特征工程• 性别、姓氏、关键字如“夫”、“妻”

• 数据预处理• 删除类别少的关系

• 使用翻译工具扩充语料

• 对数据进行上采样和下采样平衡各类别数据

任务四:面向金融领域的事件主体抽取

蚂蚁金服中国科学院自动化研究所

任务背景

• 事件抽取是自然语言处理基本任务之一,是知识图谱构建、文本语义理解、自动问答、舆情监控等各种自然语言处理任务的基础。

• 事件知识,特别是事件的类型和事件的主体的识别在金融领域是风险控制、智能投顾、投资分析、资产管理等应用的重要决策参考。

• 可供公开使用的面向金融领域的事件主体抽取数据集匮乏。

任务描述

• 任务目标:从真实的新闻语料中,抽取特定事件类型的主体。

输入:一段文本T,事件类型S输出:事件主体E

• 示例:

输入:“公司A产品出现添加剂,其下属子公司B和公司C遭到了调查”, “产品出现问题”

输出: “公司A”

数据集描述

• 评测数据集• 数据来自金融领域的真实新闻文本,标注人员对数据涉及的事件类型及其主体进行标注• 共涉及投诉维权、重组失败、评级调整、不能履职、业绩下滑、产品违规等21类事件• 训练数据:14,917个 验证数据:3,317个 测试数据:135,519个

• 文件格式• 每一行的数据格式包含了四列,内容如下:• 文本id, 文本内容, 事件类型, 事件主体• 字段说明

• id: 该样本的唯一标识• 文本内容, 事件类型, 事件主体为真实新闻文本,关注的事件类型以及该类型事件涉及的事件主体

评测方法

• 评价指标:精确率(Precision, P)、召回率(Recall, R)、F1值(F1-measure, F1)

事件主体精确率𝐏 =识别事件主体与标注相同

识别事件主体总数量

事件主体召回率𝐑 =识别事件主体与标注相同

标注事件主体总数量

事件主体𝐅𝟏值 =2 ∗事件主体精确率 ∗事件主体召回率

事件主体精确率+事件主体召回率

评测结果 478支队伍(1060人)参赛,266支队伍提交结果

方法分析• 基于序列标注的方法

• 类似于命名实体识别,将该任务建模成序列标注的任务• 在序列标注的过程中重点考虑事件类型的编码以及事件触发词的信息• 主流模型为CRF, BiLSTM+CRF, BiLSTM+CNN+CRF和Bert+CRF

• 基于阅读理解的方法• 将文本建模为Document,事件类型建模为Query• 充分挖掘文本和事件类型的语义关系• 主流模型为基于Bert的阅读理解模型

• 模型集成是主流方法• 多个序列标注模型融合(不同参数,不同数据分布,不同结构的模型)• 多个阅读理解模型融合(不同参数,不同数据分布,不同结构的模型)• 多个序列标注和多个阅读理解模型融合(主要是结果上的融合)

• 数据预处理和结果后处理非常重要

任务五:公众公司公告信息抽取

东南大学

任务背景

• PDF文件内容的结构化是构建领域知识图谱的一大挑战

• 金融领域• 海量公告文件• 自动结构化抽取• 满足投研分析、风险控制、金融监管和事件关联等需求

• 金融领域可供使用的文件信息结构化工具匮乏• 通过自动化的技术来从各类公告中抽取信息意义重大

任务描述

•任务一:公众公司定期报告中财务报表内的信息点提取• 输入:公众公司年报PDF文件

包括合并资产负债表,母公司资产负债表,合并利润表,母公司利润表,合并现金流量表和母公司现金流量表

• 输出:该表格所对应的结构化数据(JSON格式)

{"872176-信宜股份-2018年年度报告": {"证券代码": "872176","证券简称": "信谊股份","资产负债表(母公司)": {……

}

任务描述•任务二:公众公司定期报告中文本段落内的信息点提取• 输入: “人事变动”类型公告PDF文件

• 输出:包含离职高管信息和继任者信息的结构化数据(JSON格式)

{"200512-闽灿坤B-人事变动": {"证券代码": "200512","证券简称": "闽灿坤B","人事变动": [{"离职高管姓名": "陈彦君","离职高管性别": "先生","离职高管职务": "第九届董事会董事、董事会战略委员会委员","离职原因": "个人原因",……

} ] } }

数据集描述• 评测数据集

• 文件格式• 本次测评训练数据全部为公开发布的公众公司定期报告PDR文件• 为防止作弊和人工介入,评测数据包含非公开发布的年报和公告PDF文

件(人为制造)

数据集 文档 财务报表 人事公告 总信息点

训练集 1510 893 617 1293049

测试集 40 10 30 15108

评测方法• 参赛者须提供可调用的API

• 本任务的评价采用正确率、召回率和F1值作为评价指标,如下:

• 正确率 = 提取出的正确信息点数 / 提取出的总信息点数

• 召回率 = 提取出的正确信息点数 / 样本中的总信息点数

• F1值 = 2 * 正确率 * 召回率 / (正确率 + 召回率)

• 时间要求:评测过程中,将对参赛者的API调用处理时间和结果返回时间设

置上限

评测结果 53支队伍提交最终结果

队伍名称 所属单位 两项任务 F1 值平均值美能华 苏州美能华智能科技有限公司 0.9693358659467036DG 达观数据 0.9590177864431595

DataHammer 北京理工大学 0.87991800515165洞见时代 洞见时代(北京)信息技术有限公司 0.8616343885113942

guangluwutu 中国地质大学(武汉)计算机学院 0.8616343885113942louis_xu 新氦数据 0.847055585116613

NiHao文本分析 大连理工大学自然语言处理实验室 0.8112396100564392SZSI 深圳证券信息有限公司 0.4788937409024745

ChenXiuling 平安科技 0.41107388594690014

齐德龙东强 金山软件集团 0.2711625235185401

zhangsong427 北京泓钧科技有限公司 0.04047557172557173

方法分析• 表格提取

• 多种方法应用于表格结构的还原与内容定位

• 利用BFS算法对表格内内容进行定位和提取

• 基于OpenCV和Faster R-CNN的表格抽取方法

• 基于PDFMiner对PDF文本进行文本解析,提取其中的各种文本元素,并根据文本元素中线与文字的环绕位置进行表格的识别,从而实现表格的提取与重构

• 利用Acrobat DC SDK对PDF进行格式转换,从半结构化的中间文件进行信息抽取。

• 实体和关系抽取• 涉及的主流模型结构包括CRF, Dilated CNN, ON-LSTM,Bi-LSTM-CRF,BERT-CRF模型• 最终大部分队伍选用的模型为Bi-LSTM-CRF• 通过两阶神经网络结构来预测实体跨度的BIO标记,有效解决了关系共享实体的识别问题。

任务六:中文知识图谱问答

北京大学计算机科学技术研究所恒生电子股份有限公司

任务背景

• 本评测任务为基于中文知识图谱的自然语言问答,简称CKBQA (Chinese Knowledge Base Question Answering)。• 即对于给定的一句中文问题,问答系统从给定知识库中选择若干实体或属性

值作为该问题的答案。• 问题均为客观事实型,不包含主观因素。

• 现有公开的中文问答数据集多只包含简单问题并且只提供答案标注• 本评测构造的数据集具备以下两个优点:

• 同时包含简单问题(单元组)和复杂问题(多元组)• 提供问题所对应的SPARQL query标注,利于模型学习和分析

任务描述

输入:徐峥和黄渤共同出演的电影有哪些?

输出:<人再囧途之泰囧>\t<疯狂的石头>\t<印囧>

问答任务:给定若干问句,要求对每个问句输出一行来自给定知识库的答案

• 输入:输入文件包含若干行中文问句

• 输出:输出文件每一行对应一个问题的答案列表,列表内元素以\t分隔

说明:例句一对应的SPARQL查询语句如下:

SELECT ?x WHERE{?x <主演> <徐峥>.?x <主演> <黄渤>.?x <类型> <电影>.}

数据集描述

• 数据规模:• 训练集:2300;验证集:800;测试集:800

• 本次测评数据来自于人工构建与标注。其中北京大学计算机技术研究所提供3000条左右开放领域问答数据,恒生单子股份有限公司提供1000条左右金融领域问答数据。

• 本数据集中既包含简单问题(对应单元组查询),也包含复杂问题(对应多元组查询),它们的数量比例大致为1:1。

评测方法

• 评价指标:• 本任务的评价指标包括宏观准确率(Macro Precision),宏观召回率(Macro Recall),

Averaged F1值。最终排名以Averaged F1值为基准。设𝑄为问题集合,𝐴*为选手对第𝑖个问题给出的答案集合,𝐺*为第𝑖个问题的标准答案集合,相关计算公式如下:

• Macro Precision = $|}|∑*�$|}| 𝑃*, 𝑃* =

|�9 ⋂ [9||�9|

• Macro Recall = $|}|∑*�$|}| 𝑅*, 𝑅* =

|�9 ⋂ [9||[9|

• Averaged F1 = $|}|∑*�$|}| '^9_9

^9<_9

评测结果

测试集排名前十

绿色标注为提交代码且通过检测的队伍

排名 队伍名 F1分数1 百度智珠尹存祥团队 0.735452 SUDA-HUAWEI 0.730753 网易互娱AIlab-陈垚鑫 0.725144 平安人寿AI-FudanSDS 0.704485 DUTIR  0.676836 到此一游  0.63517 qbuer 0.605668 Duoduo小分队 0.542279 单身公寓队  0.5065810 我是一条鱼 0.42345

方法分析• 信息检索式框架:

• 先识别核心实体,获得候选答案/查询图,再通过各种方式进行排序和筛选

Ø 优点:利用数据辅助理解,方便有效

Ø 缺点:内存或IO开销大;问题解的候选空间可能会非常的大,系统的时效性受到较大影响

• 神经网络模型 + 人工定义(大量)特征/规则/模板

• BERT是万能的吗:• 分词,NER,谓词识别,句子分类 …

• 复杂问题处理:处理2 hop的情况而放弃更复杂的问题

• 细节处理:数字、日期等识别,实体重叠等问题

• 融合(ensemble)方法:• 问题(查询图结构)分类,候选路径,答案等各步骤均可以融合

• 投票策略

颁奖环节

任务一:面向中文电子病历的医疗实体识别及属性抽取

⼦任务1

• 第⼀名: Alihealth-阿里健康科技有限公司

• 第⼆名: MSIIP-清华-讯飞联合实验室

• 第三名: DUTIR-⼤连理⼯⼤学

⼦任务2

• 第⼀名: NUDT-YH-国防科技⼤学计算机学院

• 第⼆名: MSIIP-清华-讯飞联合实验室

• 第三名: DUTIR-⼤连理⼯⼤学

• 技术创新奖: MSIIP-清华-讯飞联合实验室(⼦任务1)

任务二:面向中文短文本的实体链指任务• 第⼀名:

FREE(东北大学)

队员:潘春光,党金明,杨智;指导老师:张富,程经纬

• 第⼆名:Team KG(联想研究院 ⼈⼯智能实验室)

队员:霍超,年炫炜;指导老师:熊德意

• 第三名:

观(电⼦科技⼤学)

队员:徐国进

• 技术创新奖:

烟雾弹⼤师法棍诺(同济⼤学)

队员:杨⼒;指导老师:向阳

任务三:人物关系抽取

• 第⼀名:格物致知(国双科技)

队员:彭程,蒋歆禹,赵冬阳

• 第⼆名:LEKG(Lenove Research)

队员 :朱斌俊,张艺杰

• 第三名:NEU_DM1(东北⼤学)

队员:沈铁麟; 指导老师:王⼤玲

• 第⼀名:LEKG(Lenove Research)

队员 :朱斌俊,张艺杰

• 第⼆名:格物致知(国双科技)

队员:彭程,蒋歆禹,赵冬阳

• 第三名:NEU_DM1(东北⼤学)

队员:沈铁麟; 指导老师:王⼤玲

Sent-Track Bag-Track

技术创新奖:NEU_DM1(东北⼤学)队员:沈铁麟; 指导老师:王⼤玲

任务四:面向金融领域的事件主体抽取

• 第⼀名:糯米糍 (哈⼯⼤(深圳)-图灵联合实验室)队员:李⼼雨,杨培基,伏冠宇 指导老师:陈清财

• 第⼆名:GDUFSER(⼴东外语外贸⼤学)队员:戚昆逊,钟靖岚,陈镇杰,赖涵樱,陈朗伦 指导老师:杜剑峰

• 第三名:L(微众银⾏,万达信息股份有限公司,招商银⾏)队员:郑少杰,任君翔,郑少棉

• 技术创新奖:GDUFSER(⼴东外语外贸⼤学)队员:戚昆逊,钟靖岚,陈镇杰,赖涵樱,陈朗伦 指导老师:杜剑峰

任务五:公众公司公告信息抽取

• 第⼀名:美能华智能科技有限公司(侯绍东 周以晴 童先明 )

• 第⼆名:DG-达观科技 (⾼翔,曾彦能,朱耀邦,顾嘉晟,李欣,李瀚清,安怡,王江,岳小龙,钱亦欣,纪达麒,陈运⽂ )

• 第三名:DataHammer-北京理⼯⼤学计算机学院(余厚⾦,指导老师:⽑先领 )

• 技术创新奖:美能华智能科技有限公司(侯绍东 周以晴 童先明 )

任务六:中文知识图谱问答

• 第⼀名:百度智珠尹存祥团队

队员:骆⾦昌, 钟辉强, 吴晓晖, 周丽芳

指导老师:尹存祥

• 第⼆名:SUDA-HUAWEI

队员:吴锟, 朱宗奎, 张鹏举, 贾永辉

指导老师:陈⽂亮, 周夏冰, 卢栋才

• 第三名:平安⼈寿AI-FudanSDS

队员:杨依莹, 何夏辉, 周凯捷

• 技术创新奖:SUDA-HUAWEI