大数据解决方案 textomcn.textom.co.kr/home/video/textom_v3_manual_cn.pdf ·...

21
Version 3.0 据解 方案 TEXTOM MANUAL

Upload: others

Post on 21-Feb-2020

19 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Version 3.0

大数据解决方案

TEXTOM

MANUAL

Page 2: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

CONTENTS

Ⅰ 收集

Ⅱ 数据预处理

Ⅲ 分析列表

Ⅳ 视觉化

p. 03

p. 06

p. 09

p. 16

收集中 精炼/词素分析

文本挖掘 情感分析 矩阵

视觉化结果 自定义

Ⅴ p. 20 增加数据用量

门户/SNS 持有数据

Page 3: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅰ 收集 门户/SNS 持有数据

Page 4: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅰ 收集

门户/SNS

关键词

1

1

2

输入关键词搜索收集结果。选择所需的平台进行关键词收集,确认所收集数据信息是否正确 * 添加关键词-添加其它关键词进行对(时间,收集单位,平台)信息的设定并进行收集。

时间跨度 2

设定数据生成的时间跨度.

频道名 收集量

百度 最大 2,000个

谷歌 最大 1,000个

微博 最大 2,100个

微信 最大 2,000个

知网 最大 200个

万方数据 最大 320个

人民日报 最大 1,100个

全网收集数据.

04

<各平台最大数据采集量>

平台

请选择收集平台或分类 各平台收集的数据内容存在差异。 各平台收集的数据内容可通过"各平台收集信息"确认

※ 设定结束后,请点击 按钮. 在点击的同时数据收集开始进行。

※ 收集所需的时间平均为30分钟左右,但根据数据量和使用者数量可能会存在差异。

수집리스트생성 →

3

3

Page 5: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

上传数据 1

上传用户个人所持有的数据. ※ 可适用的拓展名文件类型: txt, pdf, xls, xlsx

指定行列 2

文件拓展名为xls,xlsx的时候,请选择需要分析的行列。 ※ 可进行多选,可在‘指定行列’一栏指定要分析的行列,在选择多个行列时需要用逗号隔开 例) G,H

Ⅰ 收集

1

2

※设定结束后,请点击 按钮. 在点击的同时开始进行数据收集。.

※ 上传所需的时间平均为10分钟左右,但根据数据容量不同可能会存在差异。 上传完毕的持有数据可在“收集完成”页面

查看。

收集列表生成 →

持有数据 对用户持有的数据进行分析

07

Page 6: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅱ数据预处理 收集中

精炼/词素分析

Page 7: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

可查看平台和栏目分类的收集量和数据容量。

Ⅱ 数据预处理

可以查看正在生成的收集列表 若数据收集完成,会在列表中消失,并在‘’收集完成‘’中出现

收集完成

可查看已收集完成的数据列表

1

可在列表中查看数据是否收集完成

1

1

2

3

4

1

2

3 点击容量按钮可提前查看收集数据。

4 请确认所收集的数据的内容和容量,选择想要进行提炼/词素分析的数据后点击数据清单的左侧按钮。

※ 收集完成阶段可预览结果,在‘文本挖掘’阶段可下载原文数据。

收集中 确认收集中的数据列表

10

收集列表生成 →

Page 8: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅱ 数据预处理

分离提炼 标题与原文分离或者统合分析

1

2

3

1

2

精炼/词素分析 对收集的数据进行提炼

3

关键词过滤 去除或提取包含特定关键词的文本

去除重复 以URL或以内容为基础去除相同内容的文件

4 分析词语 设置进行分析时关键词前后所包含单词个数.

5 用户词典 对已进行过的相同的词语提炼或者类似的数据内容时,使用用户词典会更加方便。 请提前更改"用户词典设定"中要提炼的单词。

6 列表综合生成 把选择的收集列表合并成一个分析清单。(收集列表不合并) ※ 在‘收集清单’中未能选择的收集数据,可通过点击左下角的“收集列表”,从收集列表中重新选择。

11

※ 设置结束后请点击

★★ 分析列表生成的同时 根据选择的收集清单的数据容量会从原有容量中直接扣除

请再次确认选择的数据设置内容是否正确

收集列表生成 →

4

5

6

Page 9: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

文本挖掘 情感分析

矩阵

Ⅲ 分析列表

Page 10: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅲ 分析列表

原文数据 1

收集到的数据原文可进行预览或者以xlsx形式的文件直接下载。

数据提炼 2

提炼/词素分析结果。提炼的数据可以预览或者以xlsx文件形式进行下载。 ※ 根据‘提炼/词素分析’的设置为基础实现数据的预处理,为了使数据的分析更加准确,可在’数据编辑’中对数据进行编辑。

数据编辑 去除或修改固有名次,复合名词,同义词,非用语等操作。 ※ 使用‘直接编辑’编辑内容 - 完全一致:变更或删除完全一致的单词。

- 部分一致:变更或删除部分一致的单词。 * 编辑完成后请点击‘上传’进行数据的更新,结果才会生效。

3

苹果 苹果树 青苹果 苹果果实 苹果箱子

- 变更的词语: 苹果 - 修正的词语: 葡萄

以‘完全一致’形式来变更 葡萄 苹果树 青苹果 苹果果实 苹果箱子

以‘部分一致’形式来变更 葡萄 葡萄树 青葡萄 葡萄果实 葡萄箱子

1

示例)

※ 以‘文件上传’形式编辑的情况 1. 对‘提炼数据’进行下载 2. 在下载的xlsx文件中删除指定单词 3. 编辑后的文件用TXT文件(编码为UTF-8)进行‘文件上传’ 4. 点击‘适用上传文件’ * UTF-8 编码修改方法 ▶

(数据的记事本移动或者另存为时选择UTF-8进行保存)

14

2

3

文本挖掘 编辑提炼数据后确认多种结果值.

Page 11: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅲ 分析列表

文本挖掘

单词频度数 确认提取的单词和频度数。

5

5

6

7

8

9

N-gram 表现n个单词的连锁性,可以确认实际表现出来的文章内容。TEXTOM对两个词进行分析。 (bigram,两个单词同时出现的频度数)

6

TF-IDF TF(词语频度、Term Frequency)和IDF(Inverse Document Frequency,文件数的倒数),是一个单词在特定的文章中的重要性的统计数据 。 在特定文件内,单词出现的频率越高且文件中包含单词的文章越少,TF-IDF数据会越高。利用TF-IDF值可以过滤掉在所有文章中出现的(虽然词频高,但是实际意义不大的(例如:是,所以,中国等))单词。

7

TOPIC MODELING 计算单词间同时出现在文章中的概率,将文件内容划分为几个群组(主题)。TEXTOM目前提供的基本值为10个群组,每个群组30个单词 * Topic Modeling 设置( ) - 可以变更群组数量以及每个群组中的单词数量 ※ 改变设置后,得到更新的数据大概需要10-20分钟的时间。

9

连接中心性 说明特定单词与其他单词的连接程度。连接到特定节点(单词)的连接线越多,说明相应节点的连接中心性越高。

8

对象名称识别 根据14个对象名称范围,可以确认单词的分类情况和频度数 (人物,学问,对象物,机关,地区,文明,日期,时间,数字,事件/事故,动物,植物,金属,术语) ※ 个体名称识别并非提炼数据,而是通过对原文数据进行词素分析的结果。

10

10

编辑提炼数据后确认多种结果值.

15

Page 12: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅲ 分析列表

情感分析

原文数据 可以对收集到的原文数据进行预览或下载(xlsx文件)

1

训练数据 以上传的部分训练数据为依据,对全部原文进行自动分类。 -A列: 情感分析对象的文本信息 ※.请删除原文数据中日期,URL等的情感分析中不必要的列

- B列: 积极,中性,消极中选择并标记 ※ 对最少100个,最大1000个数据(行)进行标记,且使积极消极中性的比例尽量保持平衡。 ※ 以xlsx文件拓展名上传

2

分析结果 可确认分类后的原文数据结果 - 补充分析:标记极性词语后的数据将会转移到数据挖掘页面

3

1

训练数据文件示例)

以机械学习技巧为基础对肯定,否定,中立的文章进行归类.

16

2

3

Page 13: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅲ 分析列表

矩阵

▶ 直接选择 选择要分析的单词,点击“适用”。 Matrix(矩阵)生成完成后,在"立即选择"上端会标出"已适用单词选择"的字样。 ▶ 文件上传 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单词并上传UTF-8编码的txt文件。

分析结果 2

单词间通过同时出现的相似度系数,按计算方式提供4种结果值

生成用于网络分析的矩阵数据

1

- 1-mode: 显示所选关键词间的关系,行与列输入的单词目录相同。 - 2-mode: 显示特定关键词和其他关键词间的关系。行与列输入的单词目录不相同。

1 分析词语选择

1-mode 上传文件事例 ▲ 1-mode 上传文件事例 (左-行 / 右-列)▲

欧几里得系数 余弦系数 Jaccard 系数 相关系数

17

3

Page 14: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅲ 分析列表

矩阵数据适用于多种网络分析程序,利于进行数据补充分析

PAJEK

▶ 适用于矩阵数据的软件

18

矩阵 生成用于网络分析的矩阵数据

Page 15: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

视觉化结果 自定义

Ⅳ 视觉化

Page 16: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅳ 视觉化

视觉化结果

词语频度数 1

以TF(词语频度数)为基础生成词云,柱状图,自我网络分析图等。

N-gram 2

以N-gram为基础,可制成网络图标和网络词树,词树图。

Topic Modeling 3

群组分布图中,点击群组或者在’Selected Topic’中输入群组编号可确定各群组间单词的组成部分。

分析结果可以用多种视觉化图形来表现

1

▶ 图片上传 将适用于词云的样本图片或作为jpg或png图片文件 上传后点击“上传文件适用”,相应上传的图片将会以词云的形式显示出来。 ※ 上传的文件要求:背景颜色为单色系或透明色的jpg,png文件。

◀ 样品图片展示

2

3

4

对象名称识别 3

对象名称是以全文数据为基础生成可视化的个体识别数据

20

Page 17: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅳ 视觉化

视觉化结果 分析结果可以用多种视觉化图形来表现

[ 词云]

词语频度数

[ 柱形图] [ 自我网络图]

N-gram

[ 网络图表] [ 网络词树] [ 词树 ]

对象名称识别

21

Page 18: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

群组分布图中,点击群组或者在’Selected Topic’中直接输入群组编号进行选择就可确认各群组组成部分的30个单词。

群组间的距离 群组之间距离越远,区分效度(discriminant validity)越高,主题分得越明显。如果群组之间距离较近或重叠,则区分效度较低,说明两个群组的主题相近。

群组的大小 表示群组的圆圈的大小是由较高频度数的单词构成,最大的圆圈可以说是主话题。 .

λ数值设定 通过调整λ数值可以设定特定话题当中词语的构成条件 ※ 数值接近1,说明以TF(词语频度数)值为侧重点;接近0,说明以IDF(频度反函数)值为侧重点进行分析。 ※ λ数值越低 构成话题的单词的差异越明显,但由较低频度数的单词构成。 ※ 因此,为了提高对群组的区分效度,对低频单词也需要精确的进行提炼。

1

2

3

4

1

2

3

4

Topic Modeling

22

视觉化结果 分析结果可以用多种视觉化图形来表现

Page 19: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅳ 视觉化

▶ 一个能将词频数差异视觉化的图表

[ 线形图 ]

▶ 对象名称识别结果的视觉化图表

上传数据可生成视觉化图表.

[ 词云 ] [ 柱状图 ] [ 自我网络分析图 ] [ 派图 ]

▶ 能将收集量变化视觉化反应的图表 ▶ N-gram 结果可用视觉化表示

[ N-gram网络 ] [1-way 词树]

▶ 关键词前后关系可以用视觉化图表来说明

[ 树状图 ] [ 2-way 词树]

※ 上传的Excel文件的容量从剩余数据中扣除. ※ 视觉化结果不进行保存,请务必在关闭窗口前下载视觉化图片

23

自定义

Page 20: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

Ⅴ 增加数据用量

Page 21: 大数据解决方案 TEXTOMcn.textom.co.kr/home/video/TEXTOM_v3_manual_cn.pdf · 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单 词并上传UTF-8编码的txt文件。

增加数据用量需要进行结算.

Ⅴ 增加数据用量

增加数据用量

1 2

1 剩余数据现状确认及个人信息 - 点击画面右上角的用户名,即可确认剩余数据容量和剩余数据的使用完成日(剩余日期)。 ※ 在将剩余数据全部耗尽前,请随时确认数据信息

- 通过点击‘会员信息’可查看个人信息,也可以在此修改密码

2 数据结算

-可以进行多次结算(例如:10M*5次) -交易取消或者100MB以上的大容量交易请联系工作人员(070-4269-8477) ※ 如果需要交易明细,发票等必要的结算文件,请咨询负责人或在Q&A公告栏留言即可为您处理

25