text mining59.108.48.5/course/mining/11-12spring/textmining01-引言... · 2012. 2. 18. · 7...

19
1 Text Mining 杨建武 Email:[email protected] 文 本 挖 掘 技 术 研究生课程 (2012) 北京大学计算机科学技术研究所

Upload: others

Post on 07-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

1

Text Mining

杨建武

Email:[email protected]

文 本 挖 掘 技 术

研究生课程 (2012春)

北京大学计算机科学技术研究所

Page 2: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

2

基本信息

周四18:40—21:10 三教 206

课程网页:http://www.icst.pku.edu.cn/course/Mining/11-12Spring/index.html

助教:

梁丰 [email protected]

Page 3: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

3

教材

(无)

参考书

Jiawei Han、Micheline Kamber 著,

Data Mining:Concepts and Techniques

高等教育出版社 2006年

范明、孟小峰等译,数据挖掘概念与技术(第2版)

机械工业出版2007年3月

Hinrich 著,苑春法等译,统计自然语言处理基础

(Foundations of Statistical Natural Language Processing) 电子工业出版社2005年1月

Ricardo Baeza-Yates, Berthier Ribeiro-Neto

现代信息检索(影印本)(Modern Information Retrieval) 机械工业出版社 2004年2月

教材及参考书

Page 4: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

4

课程主要内容

第一章:引言(2学时)

第二章:文本特征提取技术(4学时)

第三章:文本检索技术(6学时)

第四章:文本自动分类技术(3学时)

第五章:文本自动聚类技术(3学时)

第六章:话题检测跟踪技术(3学时)

第七章:文本过滤技术(3学时)

第八章:关联分析技术(1学时)

第九章:文档自动摘要技术(2学时)

第十章:信息抽取(3学时)

第十一章:智能问答(QA)技术(3学时)

第十二章:文本情感分析技术(3学时)

第十三章:Ontology(2学时)

第十四章:半结构化文本挖掘方法(1.5学时)

第十五章:文本挖掘工具与应用(1.5学时)

Page 5: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

5

课程考试

平时作业50%,期末考试成绩50%

平时作业:

阅读文章写报告(10%)

系统实现(40%)

• 系统设计文档(15%)

• 源程序代码(15%)

• 运行演示(10%)

期末闭卷考试

基本概念、原理

算法

加分:课堂发言;扣分:缺席

Page 6: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

6

第一章 引言

Page 7: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

7

文本挖掘的概念

“文本挖掘” Text Mining,

Text Data Mining,

Knowledge Discovery in Text,

Knowledge Discovery in Textual Data(bases)

Text mining mainly is about somehow extracting the information and knowledge from text

对KDD定义进行扩展:文本挖掘是从大量文本数据中抽取隐含的,未知的,可能有用的信息。

Page 8: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

8

文本挖掘的研究意义

数字化的文本数量不断增长

Web中99%的可分析信息是以文本形式存在的

• Web网页总量已达数百亿,每天新增网页数千万

机构内90%的信息以文本形式存在

• 数字化图书馆/数字化档案馆/数字化办公

80%以上的信息是以文本方式存在的.

传统检索技术难以满足应用需求

基于关键词的简单检索

=> 全准、推送、综合描述、规律趋势

Page 9: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

9

主要应用

新一代搜索引擎

企业知识管理

企业内知识共享、企业相关外部信息

Call Center notes categorization

CRM systems

个人智能信息访问

e-mail categorization and routing

互联网内容安全

互联网舆情、网络低俗内容

Page 10: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

10

Page 11: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

11

企业知识管理: CRM

Page 12: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

12

个人智能信息访问:

Finding Topic-Specific Experts

Page 13: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

13

互联网内容安全

方正智思互联网(舆情)信息采集分析系统

Page 14: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

思考:其它应用实例?

Page 15: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

15

语言难点:文本不是给计算机阅读的

复杂的语言结构(语法、语义、语用)

歧义(更困难的)

多语言

KDD算法难点

海量(大规模的数据集)

高维

时效性(随时间变化的数据和知识)

噪音数据

挖掘出的模式的可理解性

研究难点

Page 16: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

Data mining: the core of knowledge discovery process.

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

KDD 处理过程

Page 17: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

17

文本挖掘模型结构示意图

文本源

用户界面

结果展示

浏览

检索

结果

文本结构

分析器

分词

文本分析

实体识别

日期处理

数字处理

词性标注

特征提取

特征词

及权重

关键词

摘要

特定信息抽取

分 类

聚 类

过 滤

检 索

TDT

Page 18: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

18

文本挖掘任务分类

Words Documents

Supervised

learning

POS Tagging,

Word Sense

Disambiguation

Text Categorization,

Filtering,

Information Extraction

Topic Detection and Tracking

Sentiment analysis

Unsupervised

learning

Latent Semantic Indexing,

Key Phrase Extraction

Word Sense Discovery

Document Clustering,

Summarization

Topic Detection and Tracking

Sentiment analysis

Page 19: Text Mining59.108.48.5/course/mining/11-12spring/TextMining01-引言... · 2012. 2. 18. · 7 文本挖掘的概念 “文本挖掘” Text Mining, Text Data Mining, Knowledge Discovery

19