qt 语义一致性
DESCRIPTION
QT 语义一致性. 王朋朋 浙江大学. 主要方法. TF-IDF 编辑距离 Jaccard 相似度 分词结果对齐 词性过滤 词性特征 同义词 算法设计. TF-IDF. 分词: ICTCLAS 方法:合并 train 与 test ,计算词的 idf 值 目标:降低无关词的权重,增加关键词的权重. 编辑距离. 方法:增加 “替换”操作的权重 ,根据 query 和 title 的长度做归一化 处理 替换权重: 1.5 归一化 : 目标 :替换操作会使句子的语义发生较大的变化, 如 “现代 新途胜的年销售量 ” - PowerPoint PPT PresentationTRANSCRIPT
QT 语义一致性
王朋朋
浙江大学
主要方法TF-IDF编辑距离Jaccard 相似度分词结果对齐词性过滤词性特征同义词算法设计
编辑距离方法:增加“替换”操作的权重 ,根据query 和 title 的长度做归一化处理
替换权重: 1.5 归一化:
目标:替换操作会使句子的语义发生较大的变化,如
“ 现代新途胜的年销售量” “ 现代 I30 月销售量是多少啊”
归一化可以避免长句跟短句不可比的情况
Jaccard 相似度
方法: |A intersect B| / |A union B|目标:衡量 query 与 title 的关键词重合度,计算时选取名词
分词结果对齐
方法:微 信 视频 安全 吗手机 下载 微 信 安全 吗
微信 视频 安全吗手机 下载 微信 安全吗
目标:分词器缺乏好的词库,分词结果不准确。
词性过滤
方法:过滤叹词,连词,介词,语气词等干扰词,过滤名词, \x (分词器未标注的词)中长度小于 1 的词目标:降低无关词的干扰
词性特征
方法:使用向量模型计算 query 和 title 的相似度,计算时取动词,副词,形容词以及词性标注为 ns , nz 的词, PosValue目标:衡量 query 与 title 的限定词重合度,作为第二个判定指标(提高了约 3 个点, 0.54 到 0.57 )。
同义词
方法: word2vec ,训练 train 和 test ,词与词之间的相似度,计算 query 和 title 的相似度(完全相同的词相似度置为 0 )目标:解决概念一致但是描述不同的 case ,提高约 1 个点
算法设计
𝑠𝑖𝑚= h𝑎𝑙𝑝 𝑎1∗𝐸𝑑𝑖𝑡𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒𝑁𝑜𝑟𝑚∗𝑃𝑜𝑠𝑉𝑎𝑙𝑢𝑒+ h𝑎𝑙𝑝 𝑎2∗ 𝐽𝑎𝑐𝑐𝑎𝑟𝑑𝑆𝑖𝑚
上面两个参数是根据经验设置的,并且如果编辑距离和jacardSim 大于某个特定值直接返回 1 ,最后设定 sim 的阈值
可改进的地方
结合编辑距离和词性特征,使得操作不同词性的时候有不同的权值,更细致地去区分query 和 title选取好的词库和大的语料计算 idf 值以及同义词,以便逼近真实数据句法分析,提取特殊结构,如“的”字短语,分析依存关系,抽取关键词和限定词并比对
谢谢!