artigo webminig

1

Universidade do Vale do Rio dos SINOS - UNISINOS

Comunicação Digital – Turma 2009

Pesquisa com a ferramenta Eurekha:

“O uso do Twitter por um grupo de jornalistas da TV Record RS”

Ediqueli Bianca da Silva

Webminig – Silvio Cazella

São Leopoldo, dezembro de 2011

SUMÁRIO

2

LISTA DE IMAGENS:

Imagem 1: Processo da Mineração de textos ..............................................................04

Imagem 2: Escolha o nome do projeto ........................................................................05

Imagem 3: Escolha os arquivos ...................................................................................05

Imagem 4: Arquivos escolhidos ...................................................................................06

Imagem 5: Definir Stopwords .......................................................................................06

Imagem 6: Verificar ocorrências ..................................................................................07

Imagem 7: Relacionamento entre arquivos .................................................................07

Imagem 8: Conteúdos agrupados ................................................................................08

Imagem 9: Matriz de similaridades ..............................................................................08

Imagem 10: Grupos de Cluster ....................................................................................09

INTRODUÇÃO ….........................................................................................................03

MINERAÇÃO DE TEXTOS …......................................................................................04

A PESQUISA - DESENVOLVIMENTO ….....................................................................05

CONCLUSÃO …...........................................................................................................09

BIBILIGRAFIA …..........................................................................................................10

3

INTRODUÇÃO

Penúltimo semestre do curso de Comunicação Digital1 da UNISINOS, época de

escrever minha monografia. Tantos livros e artigos para ler. Para selecionar e melhor

organizar os materiais, utilizarei a ferramenta Eurekha.

O objetivo dessa pesquisa, é verificar se os artigos que selecionei na internet,

realmente, me auxiliariam na construção do meu Trabalho de Conclusão de Curso. O tema

do meu TCC é o uso do Twitter2 por um grupo de nove3 jornalistas da TV Record RS.

Durante meu estudo, vou analisar como esses profissionais de comunicação utilizam

essa Mídia Social. Para isso, precisarei me apoiar em artigos escritos por pesquisadores da

área, como Raquel Recuero, Alex Primo, Gabriela Zago e Adriana Amaral.

Esses pesquisadores produzem muito material e, para selecionar os que interessam

para a pesquisa, utilizei a ferramenta Eurekha para otimizar a seleção de conteúdo e,

consequentemente, aumentar o tempo disponível para a construção do meu trabalho.

Nesse artigo, além de apresentar o desenvolvimento da pesquisa, descreverei,

brevemente, a ferramenta, e mostrarei as conclusões, a partir da análise de agrupamento

criado com o auxílio da ferramenta.

1 Site do Curso: unisinos.br/digital 2 Segundo o próprio site, o Twitter é uma rede de informação em tempo real que conecta você às últimas informações sobre o que há de mais interessante. Basta encontrar os perfis que você mais se identifica e seguir as conversas. Ele pode ser acessado pela URL: https://twitter.com/ 3 São eles: Aline Schneider, Carmel Mostardeiro, Farid Germano Filho, Giórgia Bazotti, Leandro Olegário, Marcus Reis, Matheus Felipe, Mônica Rossi e Valessa Viega Prado.

4

MINERAÇÃO DE TEXTOS

A mineração de textos (Text Mining), também conhecida como Descoberta de

Conhecimento em Textos (KDT), refere-se a extração de informação (chamada de

conhecimento), de documentos não estruturados. O processo de mineração de textos está

dividido em três etapas: Pré-processamento, Mineração e Pós-processamento.

No pré-processamento, os artigos são selecionados e salvos no formato de texto

puro“.txt” (sem títulos, imagens, cabeçalhos, rodapés, numeração de páginas), apenas com

letras e números. A próxima etapa, mineração, é realizada por um software chamado

“Eurekha”. Esse software agrupa documentos, que possuam conteúdo semelhante e separar

documentos de assuntos diferentes.

Nela, são identificadas as “Stopwords” e é feita a clusterização dos textos.

“Stopwords” são palavras que o usuário, que está realizando a mineração de textos, deseja

que o software ignore durante a análise do projeto. Alguns exemplos dessas palavras são

advérbios, artigos, numerais, pronomes e vogais.

A segunda etapa, Clusterização dos textos, também conhecida como Identificação de

clusters, refere-se a identificação de co-relacionamentos entre os documentos e o

agrupamento dos mesmos por similaridades. A terceira, e última, etapa é o Pós-

processamento. Nela, os arquivos “.txt” são agrupados, de acordo com seus conceitos, para

melhor identificação das similaridades do conteúdo. Para melhor compreender, veja o

gráfico abaixo.

Imagem 1: Processo da Mineração de textos.

5

A PESQUISA - DESENVOLVIMENTO

Para desenvolver minha pesquisa, selecionei treze artigos disponibilizados em sites e

blogs de alguns autores que escrevem sobre comunicação, em especial o Twitter e o

jornalismo. Retirei os títulos, as imagens, os cabeçalhos e rodapés, a numeração de páginas,

e salvei-os no formato “.txt”.

Abri o programa Eurekha, e criei o nome do meu projeto.

Imagem 2: Escolha o nome do projeto.

Depois, inseri os meus arquivos “.txt” no software.

Imagem 3: Escolha os arquivos.

6

Imagem 4: Arquivos escolhidos.

O próximo passo é definir as “Stopwords”.

Imagem 5: Definir Stopwords.

Depois, verifiquei a totalidade de palavras e o número de ocorrências.

7

Imagem 6: Verificar ocorrências.

O próximo passo foi identificar os relacionamentos entre arquivos e verificar o

conteúdo que foi agrupado pelo software.

Imagem 7: Relacionamento entre arquivos.

8

Imagem 8: Conteúdos agrupados.

Antes de finalizar o trabalho, visualizei a matriz de similaridades.

Imagem 9: Matriz de similaridades.

9

CONCLUSÃO

Como é possível verificar na imagem 10, os arquivos são divididos em quatro grupos.

O primeiro, chamado de 1 (em vermelho), concentra três (A, G e I) dos treze artigos, com

27.27% de similaridade entre eles. O segundo, chamado de 2 (em verde), também concentra

três (B, C e D) dos treze artigos, com 27.27% de similaridade entre eles.

Já, o terceiro, chamado de 3 (em amarelo), que concentra dois (E e H) dos treze

artigos, possui 18,18% de similaridade entre eles. O quarto e último grupo formado, que é

chamado de 4 (em azul), concentra três dos treze artigos, com 27.27% de similaridade entre

eles.

É importante destacar que, apenas dois (F e J) dos treze artigos não puderam ser

agrupadas em algum grupo.

Imagem 10: Grupos de Cluster.

Com a realização desse artigo, percebi que a utilização de ferramenta Eurekha e com

a clusterização de documentos de textos “.txt”, a realização de muitos trabalhos acadêmicos,

podem ser facilitadas ou até mesmo ter seu tempo de realização, significativamente,

reduzido. Recomendo a aplicação a todos os alunos, mas principalmente àqueles que estão

realizando seu Trabalho de Conclusão de Curso.

10

BIBILIGRAFIA

• Tutorial Eurekha: moodle.unisinos.br/file.php/3455/Tutorial_Eurekha.pdf

Sites:

• twitter.com/about

• inf.ufrgs.br/~wives/wiki/doku.php?id=eurekha

• sare.unianhanguera.edu.br/index.php/rcext/article/viewPDFInterstitial/413/409

artigo webminig

Documents