c-rank: 一种 deep web 数据记录可信度评估方法

25
C-Rank: Deep Web 种种种 种种种种种种种种 种种 种种种 种种种 种种种种种种 WAMDM 种种种 http://idke.ruc.edu.cn

Upload: sheena

Post on 24-Jan-2016

94 views

Category:

Documents


2 download

DESCRIPTION

C-Rank: 一种 Deep Web 数据记录可信度评估方法. 艾静 王仲远 孟小峰 中国人民大学 WAMDM 实验室 http://idke.ruc.edu.cn. 大纲. 研究背景 Deep Web 数据记录可信度评估方法 问题分析 S-R 可信度网络 局部可信度值与全局可信度值计算 实验评估 总结 & 未来工作. 大纲. 研究背景 Deep Web 数据记录可信度评估方法 问题分析 S-R 可信度网络 局部可信度值与全局可信度值计算 实验评估 总结 & 未来工作. Deep Web 简介. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: C-Rank:  一种 Deep Web 数据记录可信度评估方法

C-Rank: 一种 Deep Web 数据记录可信度评估方法

艾静 王仲远 孟小峰中国人民大学 WAMDM 实验室

http://idke.ruc.edu.cn

Page 2: C-Rank:  一种 Deep Web 数据记录可信度评估方法

2

大纲• 研究背景• Deep Web 数据记录可信度评估方法

– 问题分析– S-R 可信度网络– 局部可信度值与全局可信度值计算

• 实验评估• 总结 & 未来工作

Page 3: C-Rank:  一种 Deep Web 数据记录可信度评估方法

3

大纲• 研究背景• Deep Web 数据记录可信度评估方法

– 问题分析– S-R 可信度网络– 局部可信度值与全局可信度值计算

• 实验评估• 总结 & 未来工作

Page 4: C-Rank:  一种 Deep Web 数据记录可信度评估方法

Deep Web 简介• Deep Web 是一个海量信息源,信息以数据记录的形式存放• Deep Web 数据库是按领域 (domain) 划分的• Deep Web 数据库之间是相互孤立的,通过查询接口访问

zhaopin.com chinahr.com 51job.com

… … … 数据记录 1数据记录 1

数据记录 2数据记录 2

数据记录 1数据记录 1

数据记录 2数据记录 2

数据记录 1数据记录 1

数据记录 2数据记录 2

Page 5: C-Rank:  一种 Deep Web 数据记录可信度评估方法

Deep Web 中的信息可信性问题

zhaopin.com

51job.com

…...

chinahr.com myjob.com.cn ……

如何有效地辨别每条招聘记录的

可信度?

如何有效地辨别每条招聘记录的

可信度?

Page 6: C-Rank:  一种 Deep Web 数据记录可信度评估方法

与 Deep Web 信息可信度相关的两个问题(以招聘信息领域为例)

• 用户的隐私泄露问题• 数据记录最优选择问题

6

Page 7: C-Rank:  一种 Deep Web 数据记录可信度评估方法

与 Deep Web 信息可信度相关的两个问题(以招聘信息领域为例)

• 用户的隐私泄露问题• 数据记录最优选择问题

7

发布虚假招聘信息

收集简历

信息骚扰、诈骗活动!

填写信用卡申请表,

刷卡或提现!

给用户造成损失和伤害

Page 8: C-Rank:  一种 Deep Web 数据记录可信度评估方法

与 Deep Web 信息可信度相关的两个问题(以招聘信息领域为例)

• 用户的隐私泄露问题• 数据记录最优选择问题

– 招聘公司的数量远远超过一名应聘者所能够了解的能力范围

8

未知情况

花费大量时间

精力

应聘者应聘者

某招聘记录对本公司的描述某招聘记录对本公司的描述

名副其实名副其实

小公司小公司

皮包公司皮包公司

Page 9: C-Rank:  一种 Deep Web 数据记录可信度评估方法

Deep Web 的其他领域

网上购书 网上预订飞机票、火车票

新闻网站

?

二手物品转让

Page 10: C-Rank:  一种 Deep Web 数据记录可信度评估方法

10

大纲• 研究背景• Deep Web 数据记录可信度评估方法

– 问题分析– S-R 可信度网络– 局部可信度值与全局可信度值计算

• 实验评估• 总结 & 未来工作

Page 11: C-Rank:  一种 Deep Web 数据记录可信度评估方法

问题分析 (1)

(1) 可信度值越高的网站,其发布的数据记录的可信度值也越高;(2) Web2.0 信息共享平台、 Deep Web 数据发布平台需要与专业机构等传统的

网站平台区分开;(3) 不同数据源之间的可信度值可以通过链接相互传递;

http://www.chinahr.com/

http://campus.chinahr.com/2009/pages/cmri/main.asp

http://labs.chinamobile.com/cmri/job.php

http://www.google.cn/

http://www.google.cn/intl/zh-CN/jobs/

Page 12: C-Rank:  一种 Deep Web 数据记录可信度评估方法

问题分析 (2)

12

(4) 同一数据记录在不同数据源出现次数越多,其可信度值越高。

(1) 可信度值越高的网站,其发布的数据记录的可信度值也越高;

(2) Web2.0 信息共享平台、 Deep Web 数据发布平台需要与专业机构等传统的网站平台区分开;

(3) 不同数据源之间的可信度值可以通过链接相互传递;

Page 13: C-Rank:  一种 Deep Web 数据记录可信度评估方法

S-R 可信度网络 (1)• S-R 可信度网络:针对 Deep Web 中某一条记录而构造的

一个包含两种类型顶点、三种类型边的网络。

13

1rv

2rv

2sv

3sv

1sv

4rv

3rv

7rv

5rv

6rv

5sv

6sv

4sv

Page 14: C-Rank:  一种 Deep Web 数据记录可信度评估方法

S-R 可信度网络 (2)

14

1rv

2rv

2sv

3sv

1sv

4rv

3rv

7rv

5rv

6rv

5sv

6sv

4sv

rv

Site 顶点:含有数据记录的网站。sv

Record 顶点:各个网站上的数据记录。

• 两种顶点:

• 三种边:内部链接边:从 Site 顶点出发,指向它所包含 Record 顶点的有向边。

外部链接边:表示记录与记录,以及记录与外部数据源之间链接关系的有向边。

实体识别边:通过实体识别技术验证,表示同一实体但属于不同数据源之间的无向边。

Page 15: C-Rank:  一种 Deep Web 数据记录可信度评估方法

局部可信度值计算 (1)• 局部可信度值:在 S-R 可信度网络中,每一个 Record 顶

点的可信度值称为局部可信度值

• 基于可信度传播的思想,经过 n 次可信度值传播后的顶点可信度值,迭代计算第 n+1 次传播后顶点的可信度值: ( 1) ( ) (1 )

| |n nloc loc

dR dAR s

S

利用 PageRank 以及 ObjectRank的基本思想 , 进行可信度传播计算利用 PageRank 以及 ObjectRank的基本思想 , 进行可信度传播计算A是一个m×m的矩阵, A中的每一个元素是一条边的实际传播率A是一个m×m的矩阵, A中的每一个元素是一条边的实际传播率

Page 16: C-Rank:  一种 Deep Web 数据记录可信度评估方法

局部可信值计算 (2)

• 传播率类型• 对于 S-R 图中的每一条边

– 判断它是属于哪种类型的边– 计算属于这种传播率类型的边的出度– 再计算这条边的实际传播率

• 边 ,传播率类型为 ,这条边的实际传播率为

数据源1 数据源2 数据源3 数据源4

记录1 记录2 记录3实体识别

ie ie ieoe oe oe

re

sv sv sv sv

rv rv rv

( ), ( , ) 0

( , )( )

0, ( , ) 0

iiGGii

Gk

iG

eOutDeg u e

OutDeg u ee

OutDeg u e

( )iGe ( )oGe ( )rGe

( )ike u v ( )iGe

Page 17: C-Rank:  一种 Deep Web 数据记录可信度评估方法

全局可信度值计算• 全局可信度值:整个 S-R 可信度网络的可信度值,它代表

了此 S-R 网络对应的招聘记录在 Web 上的总体可信度值• 方法一:求和法

• 方法二:最大值法

• 方法三:顶点加权法

- ( - ) ( )loc iC Rank S R r v

- ( - ) max{ ( ) | 1, , }loc iC Rank S R r v i m

- ( - ) ( ) ( )nor i loc iC Rank S R v r v

优点:反映了一条记录重复出现次数越多,可信度值越高的情况缺点:无法正确处理虚假信息恶意转载

优点:反映了一条记录重复出现次数越多,可信度值越高的情况缺点:无法正确处理虚假信息恶意转载

优点:记录多次出现,有一次能够被证明可信度是非常高的,那么这条记录应该也是非常可信的缺点:无法正确处理中小型公司的招聘信息可信度问题

优点:记录多次出现,有一次能够被证明可信度是非常高的,那么这条记录应该也是非常可信的缺点:无法正确处理中小型公司的招聘信息可信度问题

优点:综合考虑了“问题分析”中的所有因素,较为真实准确缺点:权值的确定

优点:综合考虑了“问题分析”中的所有因素,较为真实准确缺点:权值的确定

Page 18: C-Rank:  一种 Deep Web 数据记录可信度评估方法

18

大纲• 研究背景• Deep Web 数据记录可信度评估方法

– 问题分析– S-R 可信度网络– 局部可信度值与全局可信度值计算

• 实验评估• 总结 & 未来工作

Page 19: C-Rank:  一种 Deep Web 数据记录可信度评估方法

实验设置• 目的:验证 C-Rank 方法的有效性与合理性

• 数据集获得:– 我们使用 Jobtong (一个工作信息领域的数据集成原

型系统)从 Deep Web 数据源中爬取招聘信息记录– 用 Jobtong取到任意的 900 条不同的招聘记录– 手工加入 100 条不可信的招聘记录

• 将计算的可信度值标准化为 [0,1] 区间内的值

19

Page 20: C-Rank:  一种 Deep Web 数据记录可信度评估方法

记录可信度分布散点图

20

0

0.2

0.4

0.6

0.8

1

0 100 200 300 400 500 600 700 800 900 1000

招聘信息记录

可信度值

Page 21: C-Rank:  一种 Deep Web 数据记录可信度评估方法

不同可信度等级的记录数

21

0

50

100

150

200

250

300

350

400

450

1 2 3 4 5

可信度等级

记录数量

可信度值平均分为 5 个区间: [0, 0.2), [0.2, 0.4),……, [0.8, 1]

Page 22: C-Rank:  一种 Deep Web 数据记录可信度评估方法

用户对于记录可信度分值的评价结果

22

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

合理

偏高

偏低

不合理

用户

记录数量

10 名用户评价的平均合理率达到 94.2% ,而认为偏高或偏低的记录只占 1.8% 及 2.7% ,认为不合理的记录仅占 1.3%

Page 23: C-Rank:  一种 Deep Web 数据记录可信度评估方法

23

大纲• 研究背景• Deep Web 数据记录可信度评估方法

– 问题分析– S-R 可信度网络– 局部可信度值与全局可信度值计算

• 实验评估• 总结 & 未来工作

Page 24: C-Rank:  一种 Deep Web 数据记录可信度评估方法

总结 & 未来工作• 本文提出了一种基于传播机制的 Deep Web 数据记录可信

度评估方法• 该方法为每一条记录构造一个 S-R 可信度网络• 通过计算 S-R 网络的局部可信度值以及全局可信度值得到

Deep Web 数据记录的可信度值• 未来搜索引擎:按相关度排序 / 按可信度排序• 未来扩展工作

– 考虑实体识别中不准确因素所导致的 S-R 可信度网络中的噪音– 不仅仅考虑链接关系所产生的可信度传播,还需要考虑数据质量

问题

24

Page 25: C-Rank:  一种 Deep Web 数据记录可信度评估方法

谢谢

Q&A