文献聚类分析方法与应用 - qbxh.sh.cn7).pdf · 有关专利技术地图 等高线图...

99
文献聚类分析方法与应用 江洪波 中国科学院上海科技查新咨询中心 中国科学院上海产业与技术情报研究中心 2018-6-11

Upload: others

Post on 11-Jan-2020

14 views

Category:

Documents


0 download

TRANSCRIPT

文献聚类分析方法与应用

江洪波

中国科学院上海科技查新咨询中心

中国科学院上海产业与技术情报研究中心

2018-6-11

2

内 容 提 要

聚类分析的定义

聚类分析的原理与方法

文献聚类分析的主要内容

文献聚类分析的应用范畴

文献聚类分析软件简介

方法的评价与展望

结语

3

内 容 提 要

聚类分析的定义

聚类分析的原理与方法

文献聚类分析的主要内容

文献聚类分析的应用范畴

文献聚类分析软件简介

方法的评价与展望

结语

4

聚类分析(Cluster Analysis)的定义

聚类很抽象

定义:将研究对象分为相对同质的群组(Clusters)的统计分析技术

抽象-“簇”(Cluster)、“群”的分析

起源于分类(Classification)

相似性- “人以群分” 、“物以类聚”

依靠已有经验和专业知识(已知的类)

5

散点的疏密度不同

相对集中成簇

6

聚类过程很真实

孩提时代,通过改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物

飞禽走兽

鲸鱼、甲鱼、蝙蝠 ……

聚类分析的定义

7

聚类与认知水平

外在→内在

宏观→微观(生物圈→生态系统→群落→种群→

个体→系统→器官→组织→细胞 →分子)

8

聚类分析的定义

避免仅凭经验和专业知识进行分类导致的局限或误区

定性+定量

引入数学工具--数值分类学(numerical taxonomy)

分类分析(classification analysis)

客观性:无先验知识——未知的类

准确性:划分标准——内在特征(Essence)

更接近事物的本源

数据挖掘技术的一种

一种探索性分析方法——知识发现

9

有关知识发现

B

D

A

C

10

一个例子

揭示生物大分子结构

预测生物大分子活性部位

减少无效劳动

11

内 容 提 要

聚类分析的定义

聚类分析的原理与方法

专利聚类分析的主要内容

专利聚类分析的应用范畴

专利聚类分析软件简介

方法的评价与展望

结语

12

聚类分析原理介绍

自然分组结构(Natural grouping)

有16张牌

如何分为

一组一组的牌? A

K

Q

J

13

聚类分析原理介绍

分成四组

每组花色相同

组与组之间花色相异 A

K

Q

J

花色相同

14

聚类分析原理介绍

分成四组

符号相同的牌为一组

A

K

Q

J

符号相同

15

聚类分析原理介绍

分成两组

颜色相同的牌为一组

A

K

Q

J

颜色相同

16

聚类分析原理介绍

分成两组

大小程度相近的牌分到一组

度量“相似性”

A

K

Q

J

大配对和小配对

17

聚类分析—主题间的距离

18

聚类分析—主题间的距离

19

20

聚类方法

层次聚类(Hierarchical Clustering)

合并法

分解法

树状图

非层次聚类

K均值聚类法(K-means Clustering)

智能聚类法

21

聚类分析的有关统计量

聚合过程表

群重心

群中心

群间距离

22

聚类分析的数学工具——算法

层次方法-BIRCH, CURE等

划分方法-k-means, k-medoids等

基于密度的方法-DBSCAN, OPTICS等

基于网格的方法-STING, CLIQUE

基于模型的方法-COBWEB, CLASSIT

Ripley's K 函数

23

各省市区

专利授权量

探讨社会经济状况

SPSS11.0

24

手动设置K=6

聚得5个类

25

聚类结果

专利活动整体水平最高,

发明专利所占比例高

专利活动水平比较高, 但主要是外观设计

专利申请数量和授权数量较高, 主要是实用新型

专利申请数量和授权数量居中, 发明专利所占比例较低

专利活动整体水平较差,

且发明专利所占比例极低

26

内 容 提 要

聚类分析的定义

聚类分析的原理与方法

文献聚类分析的主要内容

文献聚类分析的应用范畴

文献聚类分析软件简介

方法的评价与展望

结语

27

文献聚类分析的几种情形

内容分析方法——文本

词频(Frequency)

共现(Co-occurrence)

共词(Co-word)

共引(Co-citation)--同被引

28

共现-同类(质)共现

词语(关键词或主题词)-共现-共词

文献(论文)-共现-共引(同被引)

作者-共现-合作关系

期刊-共现

共现矩阵

异质共现

29

共词(Co-word)聚类

Kostoff(USA-ONR),1995(内容结构)

词频(frequency)+距离(Proximity)

针对一组词,两两统计在同一篇文献中出现的频

次数, 再运用分层聚类, 反映出概念(词)之间的

亲疏关系

应用:分析概念(词)所代表的主题(学科/技术)

的结构与变化

30

共词聚类分析结果示意

31

共引

1973年,美国情报学家Henry Small和前苏联情

报学家依林娜-玛莎科娃(Irina Marshakova)首

次提出文献“同被引”,测度文献间关系的程度

两篇(或多篇)论文同时被后来的一篇或多篇论

文所引证,则这两篇论文(被引证论文)具有

“同被引”关系

把两篇(名多篇论文)同时引证一篇论文的论文

称为耦合论文(Coupled papers)

32

文献耦合

33

文献聚类分析的必要性

定量分析:文献计量-专利计量

定量1:数量的加、减、乘、除

定量2:引用

定量3:词频

定量4:相关度

定量5:相似度

……

34

文献聚类分析的主要内容

基于内容挖掘

从概念和内容的角度

对专利文献中包含的技术特征(如技术术语、关键词等) 更深层次分析

横向:测度不同专利文献间的相似性

纵向:发现各领域技术间关系的演变和发展趋势

引导出新的预见和决策依据

35

专利聚类分析的主要内容

研究对象(样本):专利(文献)-文本信息

相关字段:

技术相关的文本字段:名称、摘要、主权项等——技术布局分析

专利号(国家与地区)——区域布局分析

申请人(专利权人)——竞争合作对手分析

36

内 容 提 要

聚类分析的定义

聚类分析的原理与方法

文献聚类分析的主要内容

文献聚类分析的应用范畴

文献聚类分析软件简介

方法的评价与展望

结语

37

文献聚类分析的应用范畴

宏观——技术布局

揭示某技术领域内各个子领域的分布情况

技术发展态势与新兴技术

区域技术发展态势

中观与微观——竞争对手分析

竞争对手的区域分布

竞争对手的技术领域分布(优势、劣势)

38

内 容 提 要

聚类分析的定义

聚类分析的原理与方法

文献聚类分析的主要内容

文献聚类分析的应用范畴

文献聚类分析软件简介

方法的评价与展望

结语

39

文献(专利)聚类分析软件

40余种专利分析工具(信息平台)

10余种具有聚类分析功能

40

文献聚类分析软件列举

1. Thomson Innovation –

科睿唯安

2. TDA -科睿唯安

3. STN AnaVist-美国化学会(CaS)

4. Patent iNSIGHT Pro

5. TEMIS-美国TEMIS

6. Bibexcel

7. QUESTEL ORBIT

8. TotalPatent-LexisNexis

9. OminiViz-英国Biowisdom

10. RefViz-美国汤森路透

11. Vxinsight-美国 Sandia国家实验室

12. PatSnap-新加坡智慧芽

13. Wisdomain-美国Wisdomain

14. Quosa-美国Quosa

15. Relecura-美国

16. IncoPat-合享新创

41

TI-Themescape-干细胞专利技术分布

42

有关等高线

43

有关专利技术地图

等高线图

地图中用点来表示专利文献

内容相近的文献在图中距离相近-山峰

每个山峰表示某一特定技术主题聚集专利群

同一区域的文献数量与地图中山峰的高度相对应

峰间距离越近,表明所包含的专利内容相似性越近

44

专利聚类——技术布局分析

干细胞专利分析

已有经验与知识进行分类

胚胎干细胞

骨髓干细胞-造血

神经干细胞

肌肉干细胞

……

聚类后的结果

细胞培养基组分

血细胞种类

运动神经细胞培养

人类胚胎干细胞培养

肿瘤靶向治疗

45

选择每个时间段生成一个可显示的组

46

不同时间段的颜色分配

47

48

49

50

51

52

53

54

Questel Orbit

法国,专利信息集成与挖掘

FamPat:全球100多个专利管理机构公开的专利文本

聚类功能——词频

55

有关阿米巴

Amoeba,变形虫

56

用于分析的数据量≤1.5万条

57

58

控制在1.5万条

59

浏览器:FireFox,或谷歌Chrome

其他浏览器如IE,运行不出结果

60

Concept:概念统计

概念云图:字体大小与频次相匹配,以不同颜色标示

氨基酸序列,药物组分,盐分,血液干细胞,载体,血液干细胞,胚胎干细胞……

61

概况树图(Treemap)

方框大小表示专利量多少

不同颜色标示不同专利权人

62

3种图形:阿米巴,三角,气泡

Concepts:自由勾选,默认前5个

不同颜色代表不同概念

阿米巴的“脚”会出现交汇点

阿米巴的形状还可以用鼠标拖拽

63

64

65

66

67

68

TDA(Thomson Data Analyzer)

69

70

71

72

Vxinsight

美国能源部桑地亚(Sandia)国家实验室

单机版免费

文本分析

可视化

采用三维虚拟地图的形式来模拟聚类信息

揭示科技文献、专利、蛋白、基因间的相关性

73

VxInsihgt

74

75

技术主题的时间序列演化

76

77

78

STN AnaVist

美国化学会(CaS)

CAplus

TCTFULL

USPATFULL和USPAT2

DWPI

Clustering Concepts-主题概念聚类

研究主题地形图

IncoPat-合享新创

北京合享智慧科技有限公司

科技创新情报平台

基于语义算法,提取专利标题、摘要和权利要求中的关键词,根据语义相关度聚出不同类别的主题

进行个性化的技术类别分析

默认显示出5个技术主题

地图中颜色深浅反映出专利技术的分布集中情况

79

80

81

82

83

84

85

86

87

88

89

90

91

专利聚类常用软件(平台)比较

软件名称 主要算法

聚类字段 开发者 可视化 版本

Themescape

(TI DI)

多字段:标题、文摘、权利要求书、全文

Thomson

Reuters-

Micropatent

等高线图

主题景观图

网络,在线,收费

TDA 多字段:标题、文摘、分类

Derwent

Aduna

Aduna cluster

map 单机,离线,收费

STN AnaVist k-means 标题、文摘 US-CAS Research

Landscape 网络,在线,收费

Vxinsight US DOE 三维地形图 单机,离线,免费、收费

incoPat 词频 标题、文摘等 合享新创 热图、分子图 在线,收费

92

内 容 提 要

聚类分析的定义

聚类分析的原理与方法

专利聚类分析的主要内容

专利聚类分析的应用范畴

专利聚类分析软件简介

方法的评价与展望

结语

93

文献聚类分析的几个新动向

单一、静态→多维、动态

共现(共词)、共引(同被引)的实证应用增多

语义(semantics)关联:词表(Thesaurus),本体

(Ontology)等

学科(技术)热点

学科(技术)前沿

94

文献聚类分析的几个新动向

新算法应用

自组织映射(SOM)——人工神经网络

非耗散聚类(non-exhaustive overlap):台湾交通大学,RFID

95

文献聚类分析的几个新动向

视图(表现)多样化

等高线图、山峰图、星系图、矩阵图

直观

96

方法的评价与展望

方法不断在拓展

白组织映射(SOM)

non-exhaustive overlaps

神经网络

可视化手段多样化,更加直观

97

结 语

明确分析目的

根据具体需求选用聚类软件

有可能要选用一种或几种软件

手头可用的专利数据库

充分发挥和分析软件的优势

聚类分析项目:技术字段、自定义字段

98

结语

图表形式的选择

视用户类型

视用户需求

景观图(Themescape)-TI

变形图-TDA

地形图-incoPat,STN AnaVist,Vxinsight

99

谢 谢!

江洪波

Email:[email protected]

电话:021-54922971,13918665761