大数据解决方案 textomcn.textom.co.kr/home/video/textom_v3_manual_cn.pdf ·...
TRANSCRIPT
Version 3.0
大数据解决方案
TEXTOM
MANUAL
CONTENTS
Ⅰ 收集
Ⅱ 数据预处理
Ⅲ 分析列表
Ⅳ 视觉化
p. 03
p. 06
p. 09
p. 16
收集中 精炼/词素分析
文本挖掘 情感分析 矩阵
视觉化结果 自定义
Ⅴ p. 20 增加数据用量
门户/SNS 持有数据
Ⅰ 收集 门户/SNS 持有数据
Ⅰ 收集
门户/SNS
关键词
1
1
2
输入关键词搜索收集结果。选择所需的平台进行关键词收集,确认所收集数据信息是否正确 * 添加关键词-添加其它关键词进行对(时间,收集单位,平台)信息的设定并进行收集。
时间跨度 2
设定数据生成的时间跨度.
频道名 收集量
百度 最大 2,000个
谷歌 最大 1,000个
微博 最大 2,100个
微信 最大 2,000个
知网 最大 200个
万方数据 最大 320个
人民日报 最大 1,100个
全网收集数据.
04
<各平台最大数据采集量>
平台
请选择收集平台或分类 各平台收集的数据内容存在差异。 各平台收集的数据内容可通过"各平台收集信息"确认
※ 设定结束后,请点击 按钮. 在点击的同时数据收集开始进行。
※ 收集所需的时间平均为30分钟左右,但根据数据量和使用者数量可能会存在差异。
수집리스트생성 →
3
3
上传数据 1
上传用户个人所持有的数据. ※ 可适用的拓展名文件类型: txt, pdf, xls, xlsx
指定行列 2
文件拓展名为xls,xlsx的时候,请选择需要分析的行列。 ※ 可进行多选,可在‘指定行列’一栏指定要分析的行列,在选择多个行列时需要用逗号隔开 例) G,H
Ⅰ 收集
1
2
※设定结束后,请点击 按钮. 在点击的同时开始进行数据收集。.
※ 上传所需的时间平均为10分钟左右,但根据数据容量不同可能会存在差异。 上传完毕的持有数据可在“收集完成”页面
查看。
收集列表生成 →
持有数据 对用户持有的数据进行分析
07
Ⅱ数据预处理 收集中
精炼/词素分析
可查看平台和栏目分类的收集量和数据容量。
Ⅱ 数据预处理
可以查看正在生成的收集列表 若数据收集完成,会在列表中消失,并在‘’收集完成‘’中出现
收集完成
可查看已收集完成的数据列表
1
可在列表中查看数据是否收集完成
1
1
2
3
4
1
2
3 点击容量按钮可提前查看收集数据。
4 请确认所收集的数据的内容和容量,选择想要进行提炼/词素分析的数据后点击数据清单的左侧按钮。
※ 收集完成阶段可预览结果,在‘文本挖掘’阶段可下载原文数据。
收集中 确认收集中的数据列表
10
收集列表生成 →
Ⅱ 数据预处理
分离提炼 标题与原文分离或者统合分析
1
2
3
1
2
精炼/词素分析 对收集的数据进行提炼
3
关键词过滤 去除或提取包含特定关键词的文本
去除重复 以URL或以内容为基础去除相同内容的文件
4 分析词语 设置进行分析时关键词前后所包含单词个数.
5 用户词典 对已进行过的相同的词语提炼或者类似的数据内容时,使用用户词典会更加方便。 请提前更改"用户词典设定"中要提炼的单词。
6 列表综合生成 把选择的收集列表合并成一个分析清单。(收集列表不合并) ※ 在‘收集清单’中未能选择的收集数据,可通过点击左下角的“收集列表”,从收集列表中重新选择。
11
※ 设置结束后请点击
★★ 分析列表生成的同时 根据选择的收集清单的数据容量会从原有容量中直接扣除
请再次确认选择的数据设置内容是否正确
收集列表生成 →
4
5
6
文本挖掘 情感分析
矩阵
Ⅲ 分析列表
Ⅲ 分析列表
原文数据 1
收集到的数据原文可进行预览或者以xlsx形式的文件直接下载。
数据提炼 2
提炼/词素分析结果。提炼的数据可以预览或者以xlsx文件形式进行下载。 ※ 根据‘提炼/词素分析’的设置为基础实现数据的预处理,为了使数据的分析更加准确,可在’数据编辑’中对数据进行编辑。
数据编辑 去除或修改固有名次,复合名词,同义词,非用语等操作。 ※ 使用‘直接编辑’编辑内容 - 完全一致:变更或删除完全一致的单词。
- 部分一致:变更或删除部分一致的单词。 * 编辑完成后请点击‘上传’进行数据的更新,结果才会生效。
3
苹果 苹果树 青苹果 苹果果实 苹果箱子
- 变更的词语: 苹果 - 修正的词语: 葡萄
以‘完全一致’形式来变更 葡萄 苹果树 青苹果 苹果果实 苹果箱子
以‘部分一致’形式来变更 葡萄 葡萄树 青葡萄 葡萄果实 葡萄箱子
1
示例)
※ 以‘文件上传’形式编辑的情况 1. 对‘提炼数据’进行下载 2. 在下载的xlsx文件中删除指定单词 3. 编辑后的文件用TXT文件(编码为UTF-8)进行‘文件上传’ 4. 点击‘适用上传文件’ * UTF-8 编码修改方法 ▶
(数据的记事本移动或者另存为时选择UTF-8进行保存)
14
2
3
文本挖掘 编辑提炼数据后确认多种结果值.
Ⅲ 分析列表
文本挖掘
单词频度数 确认提取的单词和频度数。
5
5
6
7
8
9
N-gram 表现n个单词的连锁性,可以确认实际表现出来的文章内容。TEXTOM对两个词进行分析。 (bigram,两个单词同时出现的频度数)
6
TF-IDF TF(词语频度、Term Frequency)和IDF(Inverse Document Frequency,文件数的倒数),是一个单词在特定的文章中的重要性的统计数据 。 在特定文件内,单词出现的频率越高且文件中包含单词的文章越少,TF-IDF数据会越高。利用TF-IDF值可以过滤掉在所有文章中出现的(虽然词频高,但是实际意义不大的(例如:是,所以,中国等))单词。
7
TOPIC MODELING 计算单词间同时出现在文章中的概率,将文件内容划分为几个群组(主题)。TEXTOM目前提供的基本值为10个群组,每个群组30个单词 * Topic Modeling 设置( ) - 可以变更群组数量以及每个群组中的单词数量 ※ 改变设置后,得到更新的数据大概需要10-20分钟的时间。
9
连接中心性 说明特定单词与其他单词的连接程度。连接到特定节点(单词)的连接线越多,说明相应节点的连接中心性越高。
8
对象名称识别 根据14个对象名称范围,可以确认单词的分类情况和频度数 (人物,学问,对象物,机关,地区,文明,日期,时间,数字,事件/事故,动物,植物,金属,术语) ※ 个体名称识别并非提炼数据,而是通过对原文数据进行词素分析的结果。
10
10
编辑提炼数据后确认多种结果值.
15
Ⅲ 分析列表
情感分析
原文数据 可以对收集到的原文数据进行预览或下载(xlsx文件)
1
训练数据 以上传的部分训练数据为依据,对全部原文进行自动分类。 -A列: 情感分析对象的文本信息 ※.请删除原文数据中日期,URL等的情感分析中不必要的列
- B列: 积极,中性,消极中选择并标记 ※ 对最少100个,最大1000个数据(行)进行标记,且使积极消极中性的比例尽量保持平衡。 ※ 以xlsx文件拓展名上传
2
分析结果 可确认分类后的原文数据结果 - 补充分析:标记极性词语后的数据将会转移到数据挖掘页面
3
1
训练数据文件示例)
以机械学习技巧为基础对肯定,否定,中立的文章进行归类.
16
2
3
Ⅲ 分析列表
矩阵
▶ 直接选择 选择要分析的单词,点击“适用”。 Matrix(矩阵)生成完成后,在"立即选择"上端会标出"已适用单词选择"的字样。 ▶ 文件上传 文本挖掘(Text Mining)参考分析结果的“单词频度数”,选择单词并上传UTF-8编码的txt文件。
分析结果 2
单词间通过同时出现的相似度系数,按计算方式提供4种结果值
生成用于网络分析的矩阵数据
1
- 1-mode: 显示所选关键词间的关系,行与列输入的单词目录相同。 - 2-mode: 显示特定关键词和其他关键词间的关系。行与列输入的单词目录不相同。
1 分析词语选择
1-mode 上传文件事例 ▲ 1-mode 上传文件事例 (左-行 / 右-列)▲
欧几里得系数 余弦系数 Jaccard 系数 相关系数
17
3
Ⅲ 分析列表
矩阵数据适用于多种网络分析程序,利于进行数据补充分析
PAJEK
▶ 适用于矩阵数据的软件
18
矩阵 生成用于网络分析的矩阵数据
视觉化结果 自定义
Ⅳ 视觉化
Ⅳ 视觉化
视觉化结果
词语频度数 1
以TF(词语频度数)为基础生成词云,柱状图,自我网络分析图等。
N-gram 2
以N-gram为基础,可制成网络图标和网络词树,词树图。
Topic Modeling 3
群组分布图中,点击群组或者在’Selected Topic’中输入群组编号可确定各群组间单词的组成部分。
分析结果可以用多种视觉化图形来表现
1
▶ 图片上传 将适用于词云的样本图片或作为jpg或png图片文件 上传后点击“上传文件适用”,相应上传的图片将会以词云的形式显示出来。 ※ 上传的文件要求:背景颜色为单色系或透明色的jpg,png文件。
◀ 样品图片展示
2
3
4
对象名称识别 3
对象名称是以全文数据为基础生成可视化的个体识别数据
20
Ⅳ 视觉化
视觉化结果 分析结果可以用多种视觉化图形来表现
[ 词云]
词语频度数
[ 柱形图] [ 自我网络图]
N-gram
[ 网络图表] [ 网络词树] [ 词树 ]
对象名称识别
21
群组分布图中,点击群组或者在’Selected Topic’中直接输入群组编号进行选择就可确认各群组组成部分的30个单词。
群组间的距离 群组之间距离越远,区分效度(discriminant validity)越高,主题分得越明显。如果群组之间距离较近或重叠,则区分效度较低,说明两个群组的主题相近。
群组的大小 表示群组的圆圈的大小是由较高频度数的单词构成,最大的圆圈可以说是主话题。 .
λ数值设定 通过调整λ数值可以设定特定话题当中词语的构成条件 ※ 数值接近1,说明以TF(词语频度数)值为侧重点;接近0,说明以IDF(频度反函数)值为侧重点进行分析。 ※ λ数值越低 构成话题的单词的差异越明显,但由较低频度数的单词构成。 ※ 因此,为了提高对群组的区分效度,对低频单词也需要精确的进行提炼。
1
2
3
4
1
2
3
4
Topic Modeling
22
视觉化结果 分析结果可以用多种视觉化图形来表现
Ⅳ 视觉化
▶ 一个能将词频数差异视觉化的图表
[ 线形图 ]
▶ 对象名称识别结果的视觉化图表
上传数据可生成视觉化图表.
[ 词云 ] [ 柱状图 ] [ 自我网络分析图 ] [ 派图 ]
▶ 能将收集量变化视觉化反应的图表 ▶ N-gram 结果可用视觉化表示
[ N-gram网络 ] [1-way 词树]
▶ 关键词前后关系可以用视觉化图表来说明
[ 树状图 ] [ 2-way 词树]
※ 上传的Excel文件的容量从剩余数据中扣除. ※ 视觉化结果不进行保存,请务必在关闭窗口前下载视觉化图片
23
自定义
Ⅴ 增加数据用量
增加数据用量需要进行结算.
Ⅴ 增加数据用量
增加数据用量
1 2
1 剩余数据现状确认及个人信息 - 点击画面右上角的用户名,即可确认剩余数据容量和剩余数据的使用完成日(剩余日期)。 ※ 在将剩余数据全部耗尽前,请随时确认数据信息
- 通过点击‘会员信息’可查看个人信息,也可以在此修改密码
2 数据结算
-可以进行多次结算(例如:10M*5次) -交易取消或者100MB以上的大容量交易请联系工作人员(070-4269-8477) ※ 如果需要交易明细,发票等必要的结算文件,请咨询负责人或在Q&A公告栏留言即可为您处理
25