c-rank: 一种 deep web 数据记录可信度评估方法

C-Rank: 一种 Deep Web 数据记录可信度评估方法

艾静王仲远孟小峰中国人民大学 WAMDM 实验室

http://idke.ruc.edu.cn

http://idke.ruc.edu.cn/

2

大纲• 研究背景• Deep Web 数据记录可信度评估方法

– 问题分析– S-R 可信度网络– 局部可信度值与全局可信度值计算

• 实验评估• 总结 & 未来工作

3




Deep Web 简介• Deep Web 是一个海量信息源，信息以数据记录的形式存放• Deep Web 数据库是按领域 (domain) 划分的• Deep Web 数据库之间是相互孤立的，通过查询接口访问

zhaopin.com chinahr.com 51job.com

… … … 数据记录 1数据记录 1

数据记录 2数据记录 2





Deep Web 中的信息可信性问题

zhaopin.com

51job.com

…...

chinahr.com myjob.com.cn ……

如何有效地辨别每条招聘记录的

可信度？

如何有效地辨别每条招聘记录的

可信度？

与 Deep Web 信息可信度相关的两个问题（以招聘信息领域为例）

• 用户的隐私泄露问题• 数据记录最优选择问题

6



7

发布虚假招聘信息

收集简历

信息骚扰、诈骗活动！

填写信用卡申请表，

刷卡或提现！

给用户造成损失和伤害



– 招聘公司的数量远远超过一名应聘者所能够了解的能力范围

8

未知情况

花费大量时间

精力

应聘者应聘者

某招聘记录对本公司的描述某招聘记录对本公司的描述

名副其实名副其实

小公司小公司

皮包公司皮包公司

Deep Web 的其他领域

网上购书网上预订飞机票、火车票

新闻网站

?

二手物品转让

10




问题分析 (1)

(1) 可信度值越高的网站，其发布的数据记录的可信度值也越高；(2) Web2.0 信息共享平台、 Deep Web 数据发布平台需要与专业机构等传统的

网站平台区分开；(3) 不同数据源之间的可信度值可以通过链接相互传递；

http://www.chinahr.com/

http://campus.chinahr.com/2009/pages/cmri/main.asp

http://labs.chinamobile.com/cmri/job.php

http://www.google.cn/

http://www.google.cn/intl/zh-CN/jobs/

http://www.google.cn/

问题分析 (2)

12

(4) 同一数据记录在不同数据源出现次数越多，其可信度值越高。

(1) 可信度值越高的网站，其发布的数据记录的可信度值也越高；

(2) Web2.0 信息共享平台、 Deep Web 数据发布平台需要与专业机构等传统的网站平台区分开；

(3) 不同数据源之间的可信度值可以通过链接相互传递；

S-R 可信度网络 (1)• S-R 可信度网络：针对 Deep Web 中某一条记录而构造的

一个包含两种类型顶点、三种类型边的网络。

13

1rv

2rv

2sv

3sv

1sv

4rv

3rv

7rv

5rv

6rv

5sv

6sv

4sv

S-R 可信度网络 (2)

14

1rv

2rv

2sv

3sv

1sv

4rv

3rv

7rv

5rv

6rv

5sv

6sv

4sv

rv

Site 顶点：含有数据记录的网站。sv

Record 顶点：各个网站上的数据记录。

• 两种顶点：

• 三种边：内部链接边：从 Site 顶点出发，指向它所包含 Record 顶点的有向边。

外部链接边：表示记录与记录，以及记录与外部数据源之间链接关系的有向边。

实体识别边：通过实体识别技术验证，表示同一实体但属于不同数据源之间的无向边。

局部可信度值计算 (1)• 局部可信度值：在 S-R 可信度网络中，每一个 Record 顶

点的可信度值称为局部可信度值

• 基于可信度传播的思想，经过 n 次可信度值传播后的顶点可信度值，迭代计算第 n+1 次传播后顶点的可信度值： ( 1) ( ) (1 )

| |n nloc loc

dR dAR s

S

利用 PageRank 以及 ObjectRank的基本思想 , 进行可信度传播计算利用 PageRank 以及 ObjectRank的基本思想 , 进行可信度传播计算A是一个m×m的矩阵， A中的每一个元素是一条边的实际传播率A是一个m×m的矩阵， A中的每一个元素是一条边的实际传播率

局部可信值计算 (2)

• 传播率类型• 对于 S-R 图中的每一条边

– 判断它是属于哪种类型的边– 计算属于这种传播率类型的边的出度– 再计算这条边的实际传播率

• 边，传播率类型为，这条边的实际传播率为

数据源1 数据源2 数据源3 数据源4

记录1 记录2 记录3实体识别

ie ie ieoe oe oe

re

sv sv sv sv

rv rv rv

( ), ( , ) 0

( , )( )

0, ( , ) 0

iiGGii

Gk

iG

eOutDeg u e

OutDeg u ee

OutDeg u e

( )iGe ( )oGe ( )rGe

( )ike u v ( )iGe

全局可信度值计算• 全局可信度值：整个 S-R 可信度网络的可信度值，它代表

了此 S-R 网络对应的招聘记录在 Web 上的总体可信度值• 方法一：求和法

• 方法二：最大值法

• 方法三：顶点加权法

- ( - ) ( )loc iC Rank S R r v

- ( - ) max{ ( ) | 1, , }loc iC Rank S R r v i m

- ( - ) ( ) ( )nor i loc iC Rank S R v r v

优点：反映了一条记录重复出现次数越多，可信度值越高的情况缺点：无法正确处理虚假信息恶意转载

优点：反映了一条记录重复出现次数越多，可信度值越高的情况缺点：无法正确处理虚假信息恶意转载

优点：记录多次出现，有一次能够被证明可信度是非常高的，那么这条记录应该也是非常可信的缺点：无法正确处理中小型公司的招聘信息可信度问题

优点：记录多次出现，有一次能够被证明可信度是非常高的，那么这条记录应该也是非常可信的缺点：无法正确处理中小型公司的招聘信息可信度问题

优点：综合考虑了“问题分析”中的所有因素，较为真实准确缺点：权值的确定

优点：综合考虑了“问题分析”中的所有因素，较为真实准确缺点：权值的确定

18




实验设置• 目的：验证 C-Rank 方法的有效性与合理性

• 数据集获得：– 我们使用 Jobtong （一个工作信息领域的数据集成原

型系统）从 Deep Web 数据源中爬取招聘信息记录– 用 Jobtong取到任意的 900 条不同的招聘记录– 手工加入 100 条不可信的招聘记录

• 将计算的可信度值标准化为 [0,1] 区间内的值

19

记录可信度分布散点图

20

0

0.2

0.4

0.6

0.8

1

0 100 200 300 400 500 600 700 800 900 1000

招聘信息记录

可信度值

不同可信度等级的记录数

21

0

50

100

150

200

250

300

350

400

450

1 2 3 4 5

可信度等级

记录数量

可信度值平均分为 5 个区间： [0, 0.2), [0.2, 0.4),……, [0.8, 1]

用户对于记录可信度分值的评价结果

22

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

合理

偏高

偏低

不合理

用户

记录数量

10 名用户评价的平均合理率达到 94.2% ，而认为偏高或偏低的记录只占 1.8% 及 2.7% ，认为不合理的记录仅占 1.3%

23




总结 & 未来工作• 本文提出了一种基于传播机制的 Deep Web 数据记录可信

度评估方法• 该方法为每一条记录构造一个 S-R 可信度网络• 通过计算 S-R 网络的局部可信度值以及全局可信度值得到

Deep Web 数据记录的可信度值• 未来搜索引擎：按相关度排序 / 按可信度排序• 未来扩展工作

– 考虑实体识别中不准确因素所导致的 S-R 可信度网络中的噪音– 不仅仅考虑链接关系所产生的可信度传播，还需要考虑数据质量

问题

24

谢谢

Q&A

c-rank: 一种 deep web 数据记录可信度评估方法

Documents