何军老师、刘红岩老师武文娟、杨慧、魏巍、李直旭、胡泊、谢冶博 2008 年...

何军老师、刘红岩老师武文娟、杨慧、魏巍、李直旭、胡泊、谢冶博

2008年 1月 6 日

本体构建与学习小组工作汇报

本体构建与学习小组 2

我们的工作

1. 本体进化 ( 武文娟 )

2. 本体学习 ( 李直旭 )

3. 互联网上非规范知识获取 ( 杨慧、魏巍 )

4. 数据挖掘基础算法研究 ( 胡泊 )

5. 总结

WHAT YOU GET IS WHAT YOU WANT


1. 本体进化

BM25 是基于概率检索模型，它是按照文档与所给查询相关的概率而对文档进行排序的一个函数所要回答的基本问题是：某个文档与某个查询相关的概率是多

少？应用 BM25 计算每个关键词和所在论文的分类号的相关

程度关键词作为候选概念的条件

至少与一个分类号的相关程度足够大

尝试应用 Okapi BM25 公式进行概念学习


1.1 实验（ 1 ）

内容：将候选关键词按 BM25 值从大到小排序，考察被手工剔除的词

实验结果表明：与第一次进化（采用 tf ）的方法相比，手工剔除的词中有 50% 的排名在倒数1/3

排在前面的大部分是和某分类号有相关关系的，即手工剔除有误。


1.1 实验（ 2 ）发现第一次进化时不够准确的对应关系

例如：导游人员第一次进化：按频率计算，应与 F592 对应采用 BM25 ：应与 F590.63 对应

关键词分类号 tf BM25 k1 b

导游人员 F590 1 2.6 1.2 0.2

导游人员 F592.3 1 3.6 1.2 0.2

导游人员 F592 4 4.8 1.2 0.2

导游人员 F592.6 2 7.8 1.2 0.2

导游人员 F590.63 3 11.0 1.2 0.2

F592 中国旅游事业旅游经济 \ 中国；旅游业 \ 中国

F590.63 旅游服务业务旅游服务；旅行社 \ 业务；导游 \ 业务


1.2 结果分析绝大多数情况下，计算关键词的 BM25 公式值

能准确反映出它和某分类的相关程度，从而在本体中找到该概念的位置。

这种方法相对于以前的进化方法，能更准确的发现新概念及其与本体中已有分类的对应关系，减少通用词等噪音，从而减少专家手工剔除时的工作量。

问题：对于一些通用概念，由于某些分类下的论文数很少，导致 BM25 值计算偏高的现象。


1.3 下一步工作的展望利用已有的本体结构和文献资源，对相同分类下的主

题词（术语）进行有监督的聚类，聚集相似术语，发现同义词关系和概念间的父子关系。

利用获取到的一些资源，进行文本挖掘和模式匹配的工作，发现其它更多的关系。

本体进化主要是语义一致性的检测和维护，开发相关的工具是比较现实的工作。

目标：完成相关工作的论文 1 篇。


2. 领域本体学习

数据源：各个学科、各个领域，每年都会召开很多学术会议，其中很多都有会议录，其中包含很多可以挖掘的重要信息。

实验数据源：从方便探求的角度考虑，我们以DBLP 中记录的 computer science 方面的数据为实验数据源。

实验目的：希望可以 DBLP 中很好地学习到computer science 方面的概念和关系。从而将此方法推广到非计算机学科的领域本体学习中。

利用学术会议的会议录探究领域本体的学习


DB 会议页面


Conference name

Year

Session name

Paper Title

Author names


2.1 完成了获取领域概念的工作

数据规模： 11600 多条的记录。

如何利用数据来进行本体学习？

Terms Concepts Relations Axioms

Taxonomy Non-taxonomy

Session names

1697 条记录


Session Name 分析 Example1: Data Mining

XML Concurrency Control

Example2: Data Warehousing and Data Mining Data Warehousing and Mining

Data, Text and Web Mining Clustering, Data Mining, Approximations Data Mining / Information Dependencies

Relational / Parallel Database Processing

Example3: Data Mining – Association Rules and Decision Trees AI and Knowledge-Based Systems – Reasoning


两类术语Atom Terms Multi-concept Terms

Term Name Frequency

Data Mining 15

XML 16

Data Warehousing

7

Data Security 1

Temporal Databases

12

Concurrency Control

13

Spatial Databases

8

…… ……

Term Name Frequency

Data Warehousing and Mining

3

Data Warehousing and Data Mining

2

Query Processing and Optimization

9

Data, Text and Web Mining

1

Updates and Active Databases

3

…… ……

1. Split Multi-concept terms and put all the atom terms we get into table “Atom

terms”

2. Get the most frequency terms as concepts


抽取到的 DB 方面的概念 1533 个


希望得到 DBLP 数据源的SCHEMA

数据源获取程序：帮助获得整个 DBLP 数据库上的所有 CS 会议上的 60 多万篇论文相关信息。XML 文件转换网页抓取 – 得到 session 名称并增量更新数据库

15

author-idauthor-name

author-idpaper-id

proc-idconference

location

Authors Publishes Proceedings

year

paper-idtitle

Publications

email session-id

conferenceConferences

publisher

session-idsession-name

Sessionsproc-id

2.2 完成了数据获取的工作


2.3 正在进行的工作 - 获取本体中的关系

A sigmod03

B

C

D

sigmod04

sigmod05

vldb03

vldb04

vldb05

sigmod

vldb

E

aaai04

aaai05aaai

Sessions Proceedings Conferences

Tom

Mike

Cathy

John

Mary

Authors

用“多表关系聚类”的方法，对 session 名进行聚类。 Session 聚类之后的结果希望可以形成一个树状结构。从而方便得到关系。


获取本体中的关系 – 理想效果

Computer Science

Data Management

AI

Data Mining

OS

Spatial DB

……


2.4 下一步工作的展望用分类算法实现 Session中 term 的自动抽取数据获取后实现多关系聚类，从而发现 Session

间的关系在计算机领域实验成功后，尝试将相应方法应用

于其他领域，比如经济学，法学等。

目标：完成 1 篇论文和一个 Demo 系统。


3. 互联网上非规范知识的获取目标：以互联网上的中文产品评论为分析对象，辅以电子商务网站上有关产品的介绍网页，研究基于互联网的非规范知识的获取原理与方法，同时构建一个中文产品评论结构化信息获取的原型系统。

产品名

评论结构化特征褒义贬义

F0 M0 N0...

Fi Mi Ni

特征抽取

意见极性分类

意见抽取


3.1 中文非规范知识获取目前的研究成果主要集中在英、日文语种中文口语句子成分的省略现象普遍。互联网上有关产品的评论中，很多产品特征

为隐性特征，产品特征提取的难度很大中文二意现象突出，语义极性分析对上下文

的依赖加强现有语料库，语料形式，语料过时


3.2 研究内容中文特征抽取（ Feature extraction ）中文意见抽取（ <feature, opinion> ) 意见极性判断（ Opinion orientation ）


（ 1 ）评论识别采用机器学习、数据挖掘的方法产生一系列规则

启发式规则： bbs， blog

评论识别

搜索引擎产品名称返回网页评论识别引擎评论


（ 2 ）意见抽取意见抽取主要采取基于模式的分类算法。这里主要是应用词性序列模式分类算法。


（ 3 ）产品特征抽取显性特征，隐性特征信息来源：电子商务网页，评论网页

特征意见对偶字典：用于统计意见关键词向量字典：由口语特征组成，用于增量模型中的新产品和已知产品的比较

特征意见抽取

评论

包含产品的网页

产品规范特征特征意见对偶抽取

产品评论特征、意见特征意见对抽取

口语特征、意见特征意见对

规范特征

合并同义项

特征意见对偶字典

关键词向量字典


（ 4 ）特征意见极性判断

将每个评论用转折连词分割成若干段将分段聚类

目的是将含有相同特征意见对偶的分段聚在同一类里，最终得到两个类。

意见可以分为两种：上下文无关意见，上下文相关意见。用上下文无关意见的语义极性来确定聚类的语义极性，继而用聚类的语义极性确定上下文相关意见的语义极性。

意见极性分类

评论语义分割语义极性聚类语义极性分类特征意见极性对偶字典


产品评论结构化增量模型意见结构化引擎

产品名称已经在产品字典中

特征意见对偶字典

特征意见极性对偶字典

扫描所有意见，统计各特征相应

意见结构化意见

特征意见抽取

关键词向量

与已有产品关键词向量比较

意见极性分类

有相似向量是

否

否

是


3.3 若干尝试性实验产品特征抽取意见抽取极性判断


实验（ 1 ）对原始评论语料不分词标注，直接尝试进行产品特征词提取。

方法（比较）：对语料不做任何处理，直接按词或短语共现率输出

大于 sup 值以上的词；用停用词对语料断句预处理，然后输出词或短语。

结果：噪音短语（不一定是真正的词）太多因为缺乏词性标注，无法将特征和意见分开，无法

进行后面的处理


实验（ 2 ）对评论语料进行词性标注预处理。将 [Liu 2004] 中用的方法适当改进一下，用到我们的中文语料中

结果 1 ：

找出来的


实验（ 2 ）结果分析： Precision： 6/16 ≈ 37% Recall： 6/13 ≈ 46%

Ranking ：合并 Frq list 跟 Infrq list 的结果，记录其分别在两个 list 中出现的次数（未出现的次数按对应表中的最小值给出）

比较两次出现次数的比值， S2/S1( 比值的意义是：由 frq 表找出的 ow 一般修饰 fw ，接着由 ow 找出的 infrq 表中若是 fw ，则其 S2 应与其 S1差不多，故此值越接近 1 ，表示其是 fw 的概率越大）


正在进行的实验工作（ 3 ）基于前一次尝试的召回率太低，目前尝试加入信息检

索中的 idf 的方法。另外搜集一些其它产品的评论网页按词频排序的词表计算每个词的 idf 值原则：

词频越高，在其它文档中出现越少，越可能是 feature 词频高，在其他文档中出现的也高，则不太可能是 feature(

如果其它文档也是评论文档，则这一类中的形容词很可能就是 opinion word)


3.4 下一步工作的展望根据对系统的设计设想，分模块进行试验，实

现一个相对完整的原型系统收集更多的数据集提高系统识别的准确率、召回率

目标：完成 1-2 篇相关工作的论文，开发一个中文产品评论的原型系统。


4. 数据挖掘基础算法研究多关系特征选择（ Feature selection) 目的：

提高分类算法的准确度提高分类算法的执行效率

提出了适合于多关系环境下进行特征选择的方法

做了一系列实验，结果基本满意进一步工作：继续改进目标：完成相关论文 1 篇。


5. 总结完成 4-5 篇会议或期刊论文

Waim08(Abstracts： Jan 8, 2008, Full paper： Jan 15, 2008, LNCS) ADMA08(Submission: Feb 26, 2008, LNAI) DEXA 2008(Feb 28, 2008. LNCS) EC-Web 2008(Feb 29, 2008. LNCS) PKDD 2008(Paper Sub: April 25th, 2008) 软件学报，计算机研究与发展，清华学报

完成 2 个原型系统 SIGIR 2008(Demo Sub: February 24 , 2008) VLDB 2008(Demonstration Sub: March 14, 2008)

专利申请：？？


本体构建与本体学习在本体构建方面，研究了利用 WordNet 和中国

分类主题词表 (CCT) 构建双语本体的方法。通过将 WordNet和 CCT 的分类结构转化为对齐的格结构，实现中英文本体概念匹配，将领域性较强的 CCT 和通用的 WordNet两个互补性的知识源集成起来。（ KSEM 2007 ）


本体构建与学习以经济学领域的学术论文资源为依据，探讨了领域本体进化实验，

并对经济学本体进行了一次实际的进化。（现代图书情报技术）构建“经济学学科领域本体” EO V1.0 。我们以《中国分类主题

词表》中经济类分类 / 主题概念为基础，建立了经济领域的初始本体概念集，共获取经济本体概念 12627 个，其中分类概念1523 个，主题概念 11104 个（其中具有属分关系的主题词 5366个，具有相关关系的主题词 4351 个）。

概念学习。从《中国期刊全文数据库》中抽取 2002-2004期间文献作为本体进化的实验数据。标注关键词的论文 232456 篇，从中共获取关键词 164553 个，其中，经济初始本体中已有概念5172 个，通用概念 1748 个，被《中国分类主题词表》收录的相关领域主题词 9478 个，剩下 150425 个关键词作为候选概念。

获得“经济学领域本体”的新版本（ EO V2.0 ），新版本增加本体词 2161 个，新增关系 2821 个，其中分类概念与主题词之间的关联关系 2161 条，等同、近义、相关关系的词 660 条。

何军老师、刘红岩老师 武文娟、杨慧、魏巍、李直旭、胡泊、谢冶博 2008 年...

Documents

何军老师、刘红岩老师武文娟、杨慧、魏巍、李直旭、胡泊、谢冶博 2008 年...