文献聚类分析方法与应用 - qbxh.sh.cn7).pdf · 有关专利技术地图 等高线图...
TRANSCRIPT
4
聚类分析(Cluster Analysis)的定义
聚类很抽象
定义:将研究对象分为相对同质的群组(Clusters)的统计分析技术
抽象-“簇”(Cluster)、“群”的分析
起源于分类(Classification)
相似性- “人以群分” 、“物以类聚”
依靠已有经验和专业知识(已知的类)
8
聚类分析的定义
避免仅凭经验和专业知识进行分类导致的局限或误区
定性+定量
引入数学工具--数值分类学(numerical taxonomy)
分类分析(classification analysis)
客观性:无先验知识——未知的类
准确性:划分标准——内在特征(Essence)
更接近事物的本源
数据挖掘技术的一种
一种探索性分析方法——知识发现
22
聚类分析的数学工具——算法
层次方法-BIRCH, CURE等
划分方法-k-means, k-medoids等
基于密度的方法-DBSCAN, OPTICS等
基于网格的方法-STING, CLIQUE
基于模型的方法-COBWEB, CLASSIT
Ripley's K 函数
25
聚类结果
专利活动整体水平最高,
发明专利所占比例高
专利活动水平比较高, 但主要是外观设计
专利申请数量和授权数量较高, 主要是实用新型
专利申请数量和授权数量居中, 发明专利所占比例较低
专利活动整体水平较差,
且发明专利所占比例极低
29
共词(Co-word)聚类
Kostoff(USA-ONR),1995(内容结构)
词频(frequency)+距离(Proximity)
针对一组词,两两统计在同一篇文献中出现的频
次数, 再运用分层聚类, 反映出概念(词)之间的
亲疏关系
应用:分析概念(词)所代表的主题(学科/技术)
的结构与变化
31
共引
1973年,美国情报学家Henry Small和前苏联情
报学家依林娜-玛莎科娃(Irina Marshakova)首
次提出文献“同被引”,测度文献间关系的程度
两篇(或多篇)论文同时被后来的一篇或多篇论
文所引证,则这两篇论文(被引证论文)具有
“同被引”关系
把两篇(名多篇论文)同时引证一篇论文的论文
称为耦合论文(Coupled papers)
34
文献聚类分析的主要内容
基于内容挖掘
从概念和内容的角度
对专利文献中包含的技术特征(如技术术语、关键词等) 更深层次分析
横向:测度不同专利文献间的相似性
纵向:发现各领域技术间关系的演变和发展趋势
引导出新的预见和决策依据
35
专利聚类分析的主要内容
研究对象(样本):专利(文献)-文本信息
相关字段:
技术相关的文本字段:名称、摘要、主权项等——技术布局分析
专利号(国家与地区)——区域布局分析
申请人(专利权人)——竞争合作对手分析
37
文献聚类分析的应用范畴
宏观——技术布局
揭示某技术领域内各个子领域的分布情况
技术发展态势与新兴技术
区域技术发展态势
中观与微观——竞争对手分析
竞争对手的区域分布
竞争对手的技术领域分布(优势、劣势)
40
文献聚类分析软件列举
1. Thomson Innovation –
科睿唯安
2. TDA -科睿唯安
3. STN AnaVist-美国化学会(CaS)
4. Patent iNSIGHT Pro
5. TEMIS-美国TEMIS
6. Bibexcel
7. QUESTEL ORBIT
8. TotalPatent-LexisNexis
9. OminiViz-英国Biowisdom
10. RefViz-美国汤森路透
11. Vxinsight-美国 Sandia国家实验室
12. PatSnap-新加坡智慧芽
13. Wisdomain-美国Wisdomain
14. Quosa-美国Quosa
15. Relecura-美国
16. IncoPat-合享新创
43
有关专利技术地图
等高线图
地图中用点来表示专利文献
内容相近的文献在图中距离相近-山峰
每个山峰表示某一特定技术主题聚集专利群
同一区域的文献数量与地图中山峰的高度相对应
峰间距离越近,表明所包含的专利内容相似性越近
44
专利聚类——技术布局分析
干细胞专利分析
已有经验与知识进行分类
胚胎干细胞
骨髓干细胞-造血
神经干细胞
肌肉干细胞
……
聚类后的结果
细胞培养基组分
血细胞种类
运动神经细胞培养
人类胚胎干细胞培养
肿瘤靶向治疗
78
STN AnaVist
美国化学会(CaS)
CAplus
TCTFULL
USPATFULL和USPAT2
DWPI
Clustering Concepts-主题概念聚类
研究主题地形图
IncoPat-合享新创
北京合享智慧科技有限公司
科技创新情报平台
基于语义算法,提取专利标题、摘要和权利要求中的关键词,根据语义相关度聚出不同类别的主题
进行个性化的技术类别分析
默认显示出5个技术主题
地图中颜色深浅反映出专利技术的分布集中情况
79
91
专利聚类常用软件(平台)比较
软件名称 主要算法
聚类字段 开发者 可视化 版本
Themescape
(TI DI)
多字段:标题、文摘、权利要求书、全文
Thomson
Reuters-
Micropatent
等高线图
主题景观图
网络,在线,收费
TDA 多字段:标题、文摘、分类
Derwent
Aduna
Aduna cluster
map 单机,离线,收费
STN AnaVist k-means 标题、文摘 US-CAS Research
Landscape 网络,在线,收费
Vxinsight US DOE 三维地形图 单机,离线,免费、收费
incoPat 词频 标题、文摘等 合享新创 热图、分子图 在线,收费
93
文献聚类分析的几个新动向
单一、静态→多维、动态
共现(共词)、共引(同被引)的实证应用增多
语义(semantics)关联:词表(Thesaurus),本体
(Ontology)等
学科(技术)热点
学科(技术)前沿