qt 语义一致性

12
QT 语语 语语 语语语 语语语语

Upload: tate-wheeler

Post on 01-Jan-2016

38 views

Category:

Documents


17 download

DESCRIPTION

QT 语义一致性. 王朋朋 浙江大学. 主要方法. TF-IDF 编辑距离 Jaccard 相似度 分词结果对齐 词性过滤 词性特征 同义词 算法设计. TF-IDF. 分词: ICTCLAS 方法:合并 train 与 test ,计算词的 idf 值 目标:降低无关词的权重,增加关键词的权重. 编辑距离. 方法:增加 “替换”操作的权重 ,根据 query 和 title 的长度做归一化 处理 替换权重: 1.5 归一化 : 目标 :替换操作会使句子的语义发生较大的变化, 如 “现代 新途胜的年销售量 ” - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: QT 语义一致性

QT 语义一致性

王朋朋

浙江大学

Page 2: QT 语义一致性

主要方法TF-IDF编辑距离Jaccard 相似度分词结果对齐词性过滤词性特征同义词算法设计

Page 3: QT 语义一致性

TF-IDF

分词: ICTCLAS方法:合并 train 与 test ,计算词的 idf 值目标:降低无关词的权重,增加关键词的权重

Page 4: QT 语义一致性

编辑距离方法:增加“替换”操作的权重 ,根据query 和 title 的长度做归一化处理

替换权重: 1.5 归一化:

目标:替换操作会使句子的语义发生较大的变化,如

“ 现代新途胜的年销售量” “ 现代 I30 月销售量是多少啊”

归一化可以避免长句跟短句不可比的情况

Page 5: QT 语义一致性

Jaccard 相似度

方法: |A intersect B| / |A union B|目标:衡量 query 与 title 的关键词重合度,计算时选取名词

Page 6: QT 语义一致性

分词结果对齐

方法:微 信 视频 安全 吗手机 下载 微 信 安全 吗

微信 视频 安全吗手机 下载 微信 安全吗

目标:分词器缺乏好的词库,分词结果不准确。

Page 7: QT 语义一致性

词性过滤

方法:过滤叹词,连词,介词,语气词等干扰词,过滤名词, \x (分词器未标注的词)中长度小于 1 的词目标:降低无关词的干扰

Page 8: QT 语义一致性

词性特征

方法:使用向量模型计算 query 和 title 的相似度,计算时取动词,副词,形容词以及词性标注为 ns , nz 的词, PosValue目标:衡量 query 与 title 的限定词重合度,作为第二个判定指标(提高了约 3 个点, 0.54 到 0.57 )。

Page 9: QT 语义一致性

同义词

方法: word2vec ,训练 train 和 test ,词与词之间的相似度,计算 query 和 title 的相似度(完全相同的词相似度置为 0 )目标:解决概念一致但是描述不同的 case ,提高约 1 个点

Page 10: QT 语义一致性

算法设计

𝑠𝑖𝑚= h𝑎𝑙𝑝 𝑎1∗𝐸𝑑𝑖𝑡𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒𝑁𝑜𝑟𝑚∗𝑃𝑜𝑠𝑉𝑎𝑙𝑢𝑒+ h𝑎𝑙𝑝 𝑎2∗ 𝐽𝑎𝑐𝑐𝑎𝑟𝑑𝑆𝑖𝑚

上面两个参数是根据经验设置的,并且如果编辑距离和jacardSim 大于某个特定值直接返回 1 ,最后设定 sim 的阈值

Page 11: QT 语义一致性

可改进的地方

结合编辑距离和词性特征,使得操作不同词性的时候有不同的权值,更细致地去区分query 和 title选取好的词库和大的语料计算 idf 值以及同义词,以便逼近真实数据句法分析,提取特殊结构,如“的”字短语,分析依存关系,抽取关键词和限定词并比对

Page 12: QT 语义一致性

谢谢!