大数据解决方案 textomcn.textom.co.kr/home/video/textom_v3_manual_cn.pdf ·...

Version 3.0

大数据解决方案

TEXTOM

MANUAL

CONTENTS

Ⅰ 收集

Ⅱ 数据预处理

Ⅲ 分析列表

Ⅳ 视觉化

p. 03

p. 06

p. 09

p. 16

收集中精炼/词素分析

文本挖掘情感分析矩阵

视觉化结果自定义

Ⅴ p. 20 增加数据用量

门户/SNS 持有数据

Ⅰ 收集门户/SNS 持有数据

Ⅰ 收集

门户/SNS

关键词

1

1

2

输入关键词搜索收集结果。选择所需的平台进行关键词收集，确认所收集数据信息是否正确 * 添加关键词-添加其它关键词进行对（时间，收集单位，平台）信息的设定并进行收集。

时间跨度 2

设定数据生成的时间跨度.

频道名收集量

百度最大 2,000个

谷歌最大 1,000个

微博最大 2,100个

微信最大 2,000个

知网最大 200个

万方数据最大 320个

人民日报最大 1,100个

全网收集数据.

04

<各平台最大数据采集量>

平台

请选择收集平台或分类各平台收集的数据内容存在差异。各平台收集的数据内容可通过"各平台收集信息"确认

※ 设定结束后，请点击按钮. 在点击的同时数据收集开始进行。

※ 收集所需的时间平均为30分钟左右,但根据数据量和使用者数量可能会存在差异。

수집리스트생성 →

3

3

上传数据 1

上传用户个人所持有的数据. ※ 可适用的拓展名文件类型: txt, pdf, xls, xlsx

指定行列 2

文件拓展名为xls,xlsx的时候，请选择需要分析的行列。 ※ 可进行多选，可在‘指定行列’一栏指定要分析的行列，在选择多个行列时需要用逗号隔开例） G,H

Ⅰ 收集

1

2

※设定结束后，请点击按钮. 在点击的同时开始进行数据收集。.

※ 上传所需的时间平均为10分钟左右,但根据数据容量不同可能会存在差异。上传完毕的持有数据可在“收集完成”页面

查看。

收集列表生成 →

持有数据对用户持有的数据进行分析

07

Ⅱ数据预处理收集中

精炼/词素分析

可查看平台和栏目分类的收集量和数据容量。

Ⅱ 数据预处理

可以查看正在生成的收集列表若数据收集完成，会在列表中消失，并在‘’收集完成‘’中出现

收集完成

可查看已收集完成的数据列表

1

可在列表中查看数据是否收集完成

1

1

2

3

4

1

2

3 点击容量按钮可提前查看收集数据。

4 请确认所收集的数据的内容和容量,选择想要进行提炼/词素分析的数据后点击数据清单的左侧按钮。

※ 收集完成阶段可预览结果，在‘文本挖掘’阶段可下载原文数据。

收集中确认收集中的数据列表

10


Ⅱ 数据预处理

分离提炼标题与原文分离或者统合分析

1

2

3

1

2

精炼/词素分析对收集的数据进行提炼

3

关键词过滤去除或提取包含特定关键词的文本

去除重复以URL或以内容为基础去除相同内容的文件

4 分析词语设置进行分析时关键词前后所包含单词个数.

5 用户词典对已进行过的相同的词语提炼或者类似的数据内容时，使用用户词典会更加方便。请提前更改"用户词典设定"中要提炼的单词。

6 列表综合生成把选择的收集列表合并成一个分析清单。（收集列表不合并） ※ 在‘收集清单’中未能选择的收集数据,可通过点击左下角的“收集列表”,从收集列表中重新选择。

11

※ 设置结束后请点击

★★ 分析列表生成的同时根据选择的收集清单的数据容量会从原有容量中直接扣除

请再次确认选择的数据设置内容是否正确


4

5

6

文本挖掘情感分析

矩阵

Ⅲ 分析列表

Ⅲ 分析列表

原文数据 1

收集到的数据原文可进行预览或者以xlsx形式的文件直接下载。

数据提炼 2

提炼/词素分析结果。提炼的数据可以预览或者以xlsx文件形式进行下载。 ※ 根据‘提炼/词素分析’的设置为基础实现数据的预处理，为了使数据的分析更加准确，可在’数据编辑’中对数据进行编辑。

数据编辑去除或修改固有名次，复合名词，同义词，非用语等操作。 ※ 使用‘直接编辑’编辑内容 - 完全一致：变更或删除完全一致的单词。

- 部分一致：变更或删除部分一致的单词。 * 编辑完成后请点击‘上传’进行数据的更新，结果才会生效。

3

苹果苹果树青苹果苹果果实苹果箱子

- 变更的词语: 苹果 - 修正的词语: 葡萄

以‘完全一致’形式来变更葡萄苹果树青苹果苹果果实苹果箱子

以‘部分一致’形式来变更葡萄葡萄树青葡萄葡萄果实葡萄箱子

1

示例)

※ 以‘文件上传’形式编辑的情况 1. 对‘提炼数据’进行下载 2. 在下载的xlsx文件中删除指定单词 3. 编辑后的文件用TXT文件（编码为UTF-8）进行‘文件上传’ 4. 点击‘适用上传文件’ * UTF-8 编码修改方法 ▶

(数据的记事本移动或者另存为时选择UTF-8进行保存)

14

2

3

文本挖掘编辑提炼数据后确认多种结果值.

Ⅲ 分析列表

文本挖掘

单词频度数确认提取的单词和频度数。

5

5

6

7

8

9

N-gram 表现n个单词的连锁性,可以确认实际表现出来的文章内容。TEXTOM对两个词进行分析。 (bigram,两个单词同时出现的频度数)

6

TF-IDF TF(词语频度、Term Frequency)和IDF(Inverse Document Frequency,文件数的倒数),是一个单词在特定的文章中的重要性的统计数据。在特定文件内,单词出现的频率越高且文件中包含单词的文章越少，TF-IDF数据会越高。利用TF-IDF值可以过滤掉在所有文章中出现的（虽然词频高，但是实际意义不大的（例如：是，所以，中国等））单词。

7

TOPIC MODELING 计算单词间同时出现在文章中的概率，将文件内容划分为几个群组（主题）。TEXTOM目前提供的基本值为10个群组，每个群组30个单词 * Topic Modeling 设置( ) - 可以变更群组数量以及每个群组中的单词数量 ※ 改变设置后，得到更新的数据大概需要10-20分钟的时间。

9

连接中心性说明特定单词与其他单词的连接程度。连接到特定节点（单词）的连接线越多,说明相应节点的连接中心性越高。

8

对象名称识别根据14个对象名称范围，可以确认单词的分类情况和频度数 (人物,学问,对象物,机关,地区,文明,日期,时间,数字,事件/事故,动物,植物,金属,术语) ※ 个体名称识别并非提炼数据,而是通过对原文数据进行词素分析的结果。

10

10

编辑提炼数据后确认多种结果值.

15

Ⅲ 分析列表

情感分析

原文数据可以对收集到的原文数据进行预览或下载（xlsx文件）

1

训练数据以上传的部分训练数据为依据，对全部原文进行自动分类。 -A列: 情感分析对象的文本信息 ※.请删除原文数据中日期，URL等的情感分析中不必要的列

- B列: 积极，中性，消极中选择并标记 ※ 对最少100个，最大1000个数据（行）进行标记，且使积极消极中性的比例尽量保持平衡。 ※ 以xlsx文件拓展名上传

2

分析结果可确认分类后的原文数据结果 - 补充分析：标记极性词语后的数据将会转移到数据挖掘页面

3

1

训练数据文件示例)

以机械学习技巧为基础对肯定,否定,中立的文章进行归类.

16

2

3

Ⅲ 分析列表

矩阵

▶ 直接选择选择要分析的单词,点击“适用”。 Matrix（矩阵）生成完成后,在"立即选择"上端会标出"已适用单词选择"的字样。 ▶ 文件上传文本挖掘（Text Mining）参考分析结果的“单词频度数”,选择单词并上传UTF-8编码的txt文件。

分析结果 2

单词间通过同时出现的相似度系数,按计算方式提供4种结果值

生成用于网络分析的矩阵数据

1

- 1-mode: 显示所选关键词间的关系，行与列输入的单词目录相同。 - 2-mode: 显示特定关键词和其他关键词间的关系。行与列输入的单词目录不相同。

1 分析词语选择

1-mode 上传文件事例 ▲ 1-mode 上传文件事例 (左-行 / 右-列)▲

欧几里得系数余弦系数 Jaccard 系数相关系数

17

3

Ⅲ 分析列表

矩阵数据适用于多种网络分析程序，利于进行数据补充分析

PAJEK

▶ 适用于矩阵数据的软件

18

矩阵生成用于网络分析的矩阵数据

视觉化结果自定义

Ⅳ 视觉化

Ⅳ 视觉化

视觉化结果

词语频度数 1

以TF（词语频度数）为基础生成词云，柱状图，自我网络分析图等。

N-gram 2

以N-gram为基础，可制成网络图标和网络词树，词树图。

Topic Modeling 3

群组分布图中，点击群组或者在’Selected Topic’中输入群组编号可确定各群组间单词的组成部分。

分析结果可以用多种视觉化图形来表现

1

▶ 图片上传将适用于词云的样本图片或作为jpg或png图片文件上传后点击“上传文件适用”,相应上传的图片将会以词云的形式显示出来。 ※ 上传的文件要求：背景颜色为单色系或透明色的jpg，png文件。

◀ 样品图片展示

2

3

4

对象名称识别 3

对象名称是以全文数据为基础生成可视化的个体识别数据

20

Ⅳ 视觉化

视觉化结果分析结果可以用多种视觉化图形来表现

[ 词云]

词语频度数

[ 柱形图] [ 自我网络图]

N-gram

[ 网络图表] [ 网络词树] [ 词树 ]

对象名称识别

21

群组分布图中，点击群组或者在’Selected Topic’中直接输入群组编号进行选择就可确认各群组组成部分的30个单词。

群组间的距离群组之间距离越远,区分效度（discriminant validity）越高,主题分得越明显。如果群组之间距离较近或重叠,则区分效度较低，说明两个群组的主题相近。

群组的大小表示群组的圆圈的大小是由较高频度数的单词构成，最大的圆圈可以说是主话题。 .

λ数值设定通过调整λ数值可以设定特定话题当中词语的构成条件 ※ 数值接近1，说明以TF（词语频度数）值为侧重点；接近0，说明以IDF（频度反函数）值为侧重点进行分析。 ※ λ数值越低构成话题的单词的差异越明显，但由较低频度数的单词构成。 ※ 因此,为了提高对群组的区分效度,对低频单词也需要精确的进行提炼。

1

2

3

4

1

2

3

4

Topic Modeling

22

视觉化结果分析结果可以用多种视觉化图形来表现

Ⅳ 视觉化

▶ 一个能将词频数差异视觉化的图表

[ 线形图 ]

▶ 对象名称识别结果的视觉化图表

上传数据可生成视觉化图表.

[ 词云 ] [ 柱状图 ] [ 自我网络分析图 ] [ 派图 ]

▶ 能将收集量变化视觉化反应的图表 ▶ N-gram 结果可用视觉化表示

[ N-gram网络 ] [1-way 词树]

▶ 关键词前后关系可以用视觉化图表来说明

[ 树状图 ] [ 2-way 词树]

※ 上传的Excel文件的容量从剩余数据中扣除. ※ 视觉化结果不进行保存,请务必在关闭窗口前下载视觉化图片

23

自定义

Ⅴ 增加数据用量

增加数据用量需要进行结算.

Ⅴ 增加数据用量

增加数据用量

1 2

1 剩余数据现状确认及个人信息 - 点击画面右上角的用户名,即可确认剩余数据容量和剩余数据的使用完成日(剩余日期)。 ※ 在将剩余数据全部耗尽前，请随时确认数据信息

- 通过点击‘会员信息’可查看个人信息，也可以在此修改密码

2 数据结算

-可以进行多次结算（例如：10M*5次） -交易取消或者100MB以上的大容量交易请联系工作人员（070-4269-8477） ※ 如果需要交易明细,发票等必要的结算文件,请咨询负责人或在Q&A公告栏留言即可为您处理

25

大数据解决方案 textomcn.textom.co.kr/home/video/textom_v3_manual_cn.pdf ·...

Documents