artigo webminig
TRANSCRIPT
1
Universidade do Vale do Rio dos SINOS - UNISINOS
Comunicação Digital – Turma 2009
Pesquisa com a ferramenta Eurekha:
“O uso do Twitter por um grupo de jornalistas da TV Record RS”
Ediqueli Bianca da Silva
Webminig – Silvio Cazella
São Leopoldo, dezembro de 2011
SUMÁRIO
2
LISTA DE IMAGENS:
Imagem 1: Processo da Mineração de textos ..............................................................04
Imagem 2: Escolha o nome do projeto ........................................................................05
Imagem 3: Escolha os arquivos ...................................................................................05
Imagem 4: Arquivos escolhidos ...................................................................................06
Imagem 5: Definir Stopwords .......................................................................................06
Imagem 6: Verificar ocorrências ..................................................................................07
Imagem 7: Relacionamento entre arquivos .................................................................07
Imagem 8: Conteúdos agrupados ................................................................................08
Imagem 9: Matriz de similaridades ..............................................................................08
Imagem 10: Grupos de Cluster ....................................................................................09
INTRODUÇÃO ….........................................................................................................03
MINERAÇÃO DE TEXTOS …......................................................................................04
A PESQUISA - DESENVOLVIMENTO ….....................................................................05
CONCLUSÃO …...........................................................................................................09
BIBILIGRAFIA …..........................................................................................................10
3
INTRODUÇÃO
Penúltimo semestre do curso de Comunicação Digital1 da UNISINOS, época de
escrever minha monografia. Tantos livros e artigos para ler. Para selecionar e melhor
organizar os materiais, utilizarei a ferramenta Eurekha.
O objetivo dessa pesquisa, é verificar se os artigos que selecionei na internet,
realmente, me auxiliariam na construção do meu Trabalho de Conclusão de Curso. O tema
do meu TCC é o uso do Twitter2 por um grupo de nove3 jornalistas da TV Record RS.
Durante meu estudo, vou analisar como esses profissionais de comunicação utilizam
essa Mídia Social. Para isso, precisarei me apoiar em artigos escritos por pesquisadores da
área, como Raquel Recuero, Alex Primo, Gabriela Zago e Adriana Amaral.
Esses pesquisadores produzem muito material e, para selecionar os que interessam
para a pesquisa, utilizei a ferramenta Eurekha para otimizar a seleção de conteúdo e,
consequentemente, aumentar o tempo disponível para a construção do meu trabalho.
Nesse artigo, além de apresentar o desenvolvimento da pesquisa, descreverei,
brevemente, a ferramenta, e mostrarei as conclusões, a partir da análise de agrupamento
criado com o auxílio da ferramenta.
1 Site do Curso: unisinos.br/digital 2 Segundo o próprio site, o Twitter é uma rede de informação em tempo real que conecta você às últimas informações sobre o que há de mais interessante. Basta encontrar os perfis que você mais se identifica e seguir as conversas. Ele pode ser acessado pela URL: https://twitter.com/ 3 São eles: Aline Schneider, Carmel Mostardeiro, Farid Germano Filho, Giórgia Bazotti, Leandro Olegário, Marcus Reis, Matheus Felipe, Mônica Rossi e Valessa Viega Prado.
4
MINERAÇÃO DE TEXTOS
A mineração de textos (Text Mining), também conhecida como Descoberta de
Conhecimento em Textos (KDT), refere-se a extração de informação (chamada de
conhecimento), de documentos não estruturados. O processo de mineração de textos está
dividido em três etapas: Pré-processamento, Mineração e Pós-processamento.
No pré-processamento, os artigos são selecionados e salvos no formato de texto
puro“.txt” (sem títulos, imagens, cabeçalhos, rodapés, numeração de páginas), apenas com
letras e números. A próxima etapa, mineração, é realizada por um software chamado
“Eurekha”. Esse software agrupa documentos, que possuam conteúdo semelhante e separar
documentos de assuntos diferentes.
Nela, são identificadas as “Stopwords” e é feita a clusterização dos textos.
“Stopwords” são palavras que o usuário, que está realizando a mineração de textos, deseja
que o software ignore durante a análise do projeto. Alguns exemplos dessas palavras são
advérbios, artigos, numerais, pronomes e vogais.
A segunda etapa, Clusterização dos textos, também conhecida como Identificação de
clusters, refere-se a identificação de co-relacionamentos entre os documentos e o
agrupamento dos mesmos por similaridades. A terceira, e última, etapa é o Pós-
processamento. Nela, os arquivos “.txt” são agrupados, de acordo com seus conceitos, para
melhor identificação das similaridades do conteúdo. Para melhor compreender, veja o
gráfico abaixo.
Imagem 1: Processo da Mineração de textos.
5
A PESQUISA - DESENVOLVIMENTO
Para desenvolver minha pesquisa, selecionei treze artigos disponibilizados em sites e
blogs de alguns autores que escrevem sobre comunicação, em especial o Twitter e o
jornalismo. Retirei os títulos, as imagens, os cabeçalhos e rodapés, a numeração de páginas,
e salvei-os no formato “.txt”.
Abri o programa Eurekha, e criei o nome do meu projeto.
Imagem 2: Escolha o nome do projeto.
Depois, inseri os meus arquivos “.txt” no software.
Imagem 3: Escolha os arquivos.
6
Imagem 4: Arquivos escolhidos.
O próximo passo é definir as “Stopwords”.
Imagem 5: Definir Stopwords.
Depois, verifiquei a totalidade de palavras e o número de ocorrências.
7
Imagem 6: Verificar ocorrências.
O próximo passo foi identificar os relacionamentos entre arquivos e verificar o
conteúdo que foi agrupado pelo software.
Imagem 7: Relacionamento entre arquivos.
8
Imagem 8: Conteúdos agrupados.
Antes de finalizar o trabalho, visualizei a matriz de similaridades.
Imagem 9: Matriz de similaridades.
9
CONCLUSÃO
Como é possível verificar na imagem 10, os arquivos são divididos em quatro grupos.
O primeiro, chamado de 1 (em vermelho), concentra três (A, G e I) dos treze artigos, com
27.27% de similaridade entre eles. O segundo, chamado de 2 (em verde), também concentra
três (B, C e D) dos treze artigos, com 27.27% de similaridade entre eles.
Já, o terceiro, chamado de 3 (em amarelo), que concentra dois (E e H) dos treze
artigos, possui 18,18% de similaridade entre eles. O quarto e último grupo formado, que é
chamado de 4 (em azul), concentra três dos treze artigos, com 27.27% de similaridade entre
eles.
É importante destacar que, apenas dois (F e J) dos treze artigos não puderam ser
agrupadas em algum grupo.
Imagem 10: Grupos de Cluster.
Com a realização desse artigo, percebi que a utilização de ferramenta Eurekha e com
a clusterização de documentos de textos “.txt”, a realização de muitos trabalhos acadêmicos,
podem ser facilitadas ou até mesmo ter seu tempo de realização, significativamente,
reduzido. Recomendo a aplicação a todos os alunos, mas principalmente àqueles que estão
realizando seu Trabalho de Conclusão de Curso.
10
BIBILIGRAFIA
• Tutorial Eurekha: moodle.unisinos.br/file.php/3455/Tutorial_Eurekha.pdf
Sites:
• twitter.com/about
• inf.ufrgs.br/~wives/wiki/doku.php?id=eurekha
• sare.unianhanguera.edu.br/index.php/rcext/article/viewPDFInterstitial/413/409