escola de engenharia - ccnm | centro de convergência de...

UNIVERSIDADE FEDERAL DE MINAS GERAIS

ESCOLA DE ENGENHARIA

CURSO DE GRADUAÇÃO EM ENGENHARIA DE CONTROLE E

AUTOMAÇÃO

GABRIEL MASCARENHAS RIBEIRO DE PAULA

IDENTIFICAÇÃO DE PERFIS DE TORCEDORES NO TWITTER

BELO HORIZONTE, JUNHO DE 2013

GABRIEL MASCARENHAS RIBEIRO DE PAULA

IDENTIFICAÇÃO DE PERFIS DE TORCEDORES NO

TWITTER

Trabalho de conclusão de curso de curso de

Graduação em Engenharia de Controle e

Automação da Universidade Federal de

Minas Gerais, submetido à banca

examinadora, como requisito parcial para

obtenção do título de Bacharel em Engenharia

de Controle e Automação.

Orientador: Prof. Clodoveu Augusto Davis Jr.

Supervisora: Prof.ª Gisele Lobo Pappa.

BELO HORIZONTE, JUNHO DE 2013

Gabriel Mascarenhas Ribeiro de Paula

Identificação De Perfis De Torcedores No Twitter

Trabalho de conclusão de curso de curso de

Graduação em Engenharia de Controle e

Automação da Universidade Federal de Minas

Gerais, submetido à banca examinadora, como

requisito parcial para obtenção do título de

Bacharel em Engenharia de Controle e

Automação.

Aprovada por:

_____________________________

Prof. Clodoveu Augusto Davis Jr / DCC – UFMG

(Orientador)

______________________________

Profa. Gisele Lobo Pappa / DCC – UFMG

______________________________

Prof. André Paim Lemos / DELT – UFMG

Agradecimentos

Agradeço aos meus pais pelo apoio incondicional, aos meus avós pelo

exemplo, aos meus familiares e amigos pela força e a quem teve paciência

de compreender com carinho minha indisponibilidade durante esses meses.

À minha grande tutora no ambiente universitário Profª. Lena, que

me introduziu no CCNM, à Profª Geane, ao Pedro Marra e à Vitória. Aos

colegas de estrada, Pezzini, Marcos e aos companheiros de PFC 2.

Agradeço muito, tanto a acolhida pelo projeto quanto a orientação do

Prof. Clodoveu. Sou grato à Profª Gisele, por ter aceitado a supervisão da

monografia e também ao Prof. André, por ter aceitado compor minha

banca.

Este trabalho é parcialmente apoiado pelo InWeb (CNPq processo

573871/2008-6), e por projetos CNPq (308678/2012-5) e FAPEMIG (CEX-

PPM-00466-11).

“Você não pode confiar em seus olhos

quando sua imaginação está fora de foco.”

Samuel Langhorne Clemens (Mark Twain).

Resumo

Nos últimos anos, a World Wide Web (WEB) difundiu-se de maneira

expressiva na sociedade, passando a desempenhar um papel vital na

indústria da informação. Técnicas de extração de conhecimento em bancos

de dados (KDD – Knowledge Discovery in Database) foram desenvolvidas

com o intuito de facilitar a tarefa de análise de grandes volumes de dados,

com o auxílio de métodos automáticos. A análise de redes online de caráter

social, como o Twitter, permite traçar perfis de comportamentos diante de

determinados acontecimentos. Nesse panorama, este trabalho propõe

investigar o comportamento de usuários do Twitter, quanto ao seu

envolvimento com determinada equipe que atua no Campeonato Brasileiro

de futebol. Busca-se identificar entidades, tais como fontes jornalísticas,

torcedores rivais e torcedores da equipe – neste caso, os torcedores são

classificados de acordo com o nível de fanatismo a eles atribuído.

Palavras-chave: KDD, Twitter, Rede Social, Torcedores, Futebol

Brasileiro, Fanatismo.

Abstract

In the past few years the World Wide Web (WEB) emerged

expressively among the society, playing a vital role in the information

industry. Knowledge extraction techniques applied in database (KDD –

Knowledge Discovery in Databases) were developed in order to simplify the

task of analyzing large datasets with the aid of automatic methods.

Analysis of online social networks, such as Twitter, allows tracing behavior

profiles owing to certain events. In this overview, this work proposes to

investigate the behavior of Twitter users, based on the involvement with

certain soccer team that plays in Brazilian Soccer Championship. It seeks to

identify entities such as journalistic sources, detractors and supporters of

the chosen team. In the latter case the supporters are classified according

to the level of fanaticism assigned to them.

Keywords: KDD, Twitter, Social Network, Soccer Fans, Brazillian

Soccer Championship, Fanaticism.

Sumário

1. Introdução ................................................................................. 12

1.1. Objetivos .................................................................... 13

1.2. Motivação ................................................................... 13

1.3. Twitter ....................................................................... 14

1.4. Brasileirão .................................................................. 16

1.5. Projetos e Instituições Envolvidas .................................. 17

1.6. Organização do Texto ................................................... 19

2. Revisão Bibliográfica ................................................................... 20

2.1. Tecnologias de Bancos de Dados .................................... 20

2.1.1. O KDD ........................................................................ 21

2.1.2. Classificação via Árvores de Decisão. .............................. 25

2.2. Pesquisas no Twitter .................................................... 28

2.3. Comportamento de Torcedores de Times de Futebol ......... 30

3. Metodologia ............................................................................... 32

3.1. Coleta de Dados .......................................................... 32

3.2. Redução do Banco de Dados ......................................... 33

3.2.1. Seleção de Subconjunto de Atributos ............................. 34

3.2.2. Seleção de Usuários e Mensagens .................................. 38

3.3. Modelagem ................................................................. 43

3.3.1. Hierarquia Conceitual de Tempo .................................... 43

3.3.2. Repertório do Brasileirão............................................... 47

3.4. As Pesquisas ............................................................... 48

3.4.1. Processamento dos Resultados das Pesquisas .................. 51

3.5. Identificação de Perfis .................................................. 52

3.5.1. Procedimento de Inspeção das Páginas ........................... 54

4. Resultados ................................................................................. 60

4.1. Resultados Quantitativos .............................................. 61

4.2. Resultados Qualitativos ................................................ 73

5. Conclusões ................................................................................ 81

Referências Bibliográficas ................................................................. 84

Lista de Figuras

Figura 1 - O processo de KDD adaptada de Fayyad et al. (1996). ........... 22

Figura 2 - Arvore de decisão sobre risco de empréstimo, adaptado de

Camilo e da Silva (2009). .................................................................. 25

Figura 3 - Exemplo de uma estrutura em JSON. ................................... 36

Figura 4 - Distribuição dos usuários pelo número de mensagens referentes

ao Flamengo postadas. ..................................................................... 40

Figura 5 - Distribuição das páginas válidas, obtidas pela inspeção. ......... 57

Figura 6 – Diagrama de Identificação de Perfis de Usuários .................... 60

Figura 7 - Apresentação da árvore binária de decisão para a diferenciação

entre pessoas e entidades jornalísticas. ............................................... 74

Figura 8 – Resultados obtidos através do questionário sobre

comportamento fanático. ................................................................... 78

Figura 9 - Graduação atribuída a cada resposta das questões. ................ 91

Lista de Tabelas

Tabela 1 - Apresentação das ferramentas de interação caracteres de

identificação. ................................................................................... 15

Tabela 2 - Função dos caracteres especiais em JSON. ........................... 35

Tabela 3 - Percentual de usuários por faixa de número de mensagens. ... 41

Tabela 4 - Resultados da caracterização global aplicada diretamente ao

conjunto de classes. ......................................................................... 63

Tabela 5 – Comparação da caracterização global inicial com a rotulação

aleatória .......................................................................................... 64

Tabela 6 - Comparação da caracterização dos membros da superclasse

“Fontes Jornalísticas” com a rotulação aleatória. ................................... 65

Tabela 7 – Resultado da caracterização global, por categoria, após

eliminações...................................................................................... 66

Tabela 8 - Identificação dos tipos de páginas retratadas ........................ 68

Tabela 9 - Caracterização dos membros superclasse “Fontes Jornalísticas”

...................................................................................................... 69

Tabela 10 - Identificação do time ao qual o usuário é afiliado. ................ 70

Tabela 11 - Determinação do nível de fanatismo dos usuários. ............... 71

Tabela 12 - Diferenciação entre Torcedores e Fanáticos. ........................ 71

Tabela 13 - Identificação de Fanáticos pelo Flamengo ........................... 72

Abreviações

API – Application Programming Interface

BLOG – Web Log

CART – Classification and Regression Tree

CBF – Confederação Brasileira de Futebol

CCNM – Centro de convergência de novas mídias

GPS – Global positioning system

ID3 – Iterative Dichotomiser 3

InWeb – Instituto Nacional de Ciência e Tecnologia para a Web

KDD – Knowledge Discovery in Databases

MSE – Mean-squared Error

OLAP – On-line Analytical Processing

OLTP – On-line Transaction Processing

URL – Uniform Resource Locator

UTC – Coordinated Universal Time

WEB – World Wide Web

12

1. Introdução

As redes sociais se apresentam como um conjunto de ferramentas

que possibilitam novas formas de interação entre os usuários da internet.

Nos últimos anos, os diversos sites que seguem esse modelo

experimentam um crescimento expressivo, quanto ao número de adeptos.

Dentre as redes sociais mais bem sucedidas está o Twitter1,que é

conhecido por se limitar à propagação de mensagens curtas. Os dados

dessa rede social são amplamente utilizados em pesquisas dos mais

diversos tipos.

Dentro do Twitter trafega um grande volume de dados. A utilização

dos mesmos como fonte de pesquisa é possibilitada pelo site. Para que

sejam extraídas informações relevantes para os objetivos das análises, é

necessário o emprego de técnicas de KDD (Knowledge Discovery in

Databases).

As pesquisas no Twitter se diferem com relação ao escopo da

abordagem. Uma possibilidade muito explorada, geralmente com objetivos

mercadológicos, é traçar perfis de usuários de acordo com seus

comportamentos no ambiente de tal rede social.

Dentre os temas que circulam na rede, o futebol é um assunto em

destaque. Mensagens diversas, tais como comentários em relação aos

resultados das partidas e o uso de provocações contra torcedores de times

rivais são algumas das discussões transpostas para o ambiente das redes

sociais.

É culturalmente sabido que o futebol é uma das grandes paixões do

brasileiro. Como são variadas as formas do torcedor expressar seu

sentimento perante seu time, e estes comportamentos podem ser usados

1 http://twitter.com/

13

para identificar a força de tal relação, tem-se um campo fértil para o

desenvolvimento de um trabalho de pesquisa.

Trabalhos que utilizem técnicas diferenciadas de coletas de dados

para compreensão e exploração da paixão e fanatismo penetram em um

campo explorado e com grande potencial (CÁCERES, 2010).

1.1. Objetivos

O objetivo do trabalho é identificar perfis comportamentais entre

usuários que disseminam mensagens sobre futebol no Twitter.

1.2. Motivação

A atividade das chamadas “Torcidas organizadas2” pode, em alguns

casos, levar alguns de seus membros a um comportamento fanático

denominado “disfuncional”.

Neste caso extremo, o torcedor se encontra apto a defender seu

clube do coração, adquirindo uma psicologia quase bélica (MORAES,

2010). Fatos recentes atribuem a esse tipo de torcedor casos de

vandalismo, combate físico e até assassinato de torcedores de times

rivais.

Apesar de o trabalho não prever esse tipo de perfil, pretende-se

delimitar um grupo no qual um torcedor dessa natureza — caso utilize o

Twitter para expressar sua devoção — certamente estaria incluído.

O trabalho pode servir de base para estimular interações entre

torcedores na rede, Cáceres (2010) pontua que certos tipos de torcedores

têm como necessidade a interação com torcedores do mesmo time.

No que diz respeito à área do conhecimento abordada (KDD), esta

pode ser encarada como uma área bastante interdisciplinar.

2 Um agrupamento de pessoas que simpatizam por um clube de futebol. Em casos excepcionais tais grupos utilizam de violência para defender o time de afiliação.

14

Boa parte do trabalho se realiza em um grupo dotado de tal caráter,

o CCNM (Centro de Convergência de Novas Mídias), sendo assim, é

possível se obter um intercâmbio produtivo de conhecimentos e

descobertas.

Uma das atuais direções do grupo é o estudo de metodologias de

pesquisa em rede, tema que vai ao encontro do que aqui é proposto. Além

disso, o grupo possui um pesquisador que tem como assunto de pesquisa

o comportamento de torcidas de futebo. Seu auxílio enriqueceu as

análises desenvolvidas.

Finalmente, tal trabalho abre espaço para a proposição de novas

análises a partir dos dados obtidos pelo Observatório do Brasileirão.

1.3. Twitter

O Twitter é uma rede social criada em 2006, pelo estadunidense

Jack Dorsey. Sua característica principal é ser um veículo de mensagens

curtas que não ultrapassam 140 caracteres, trata-se, portanto, de um

serviço de microblogging3.

Do ponto de vista de mineração de dados, uma rede social é um

conjunto de dados heterogêneos e multirrelacionados representados por

um grafo (HAN e KAMBER, 2006, p. 556). De acordo com essa definição, o

Twitter pode ser visto como uma rede, cujos nós são os usuários e as

arestas representam a relação entre eles.

No que diz respeito às arestas, Benevenuto et al. (2010) as

classificam como unidirecionais, seguindo a regra: “Se A é um contato de

B, B não é obrigatoriamente um contato de A”. Esse tipo de relação

transcorre do fato do não recebimento de mensagens de A na página de

notícias de B, diz-se que A é seguido por B e B é um seguidor de A.

3 São ferramentas de BLOG (diários eletrônicos expostos na WEB) simplificadas

em que há redução no tamanho da mensagem e cujo conceito está originalmente associado a dispositivos móveis de comunicação.

15

Essa característica peculiar foi importante para que o Twitter se

tornasse a rede social preferida pelas celebridades, órgãos oficiais e

empresas. O Twitter pode ser visto por muitos como um diário virtual,

confirmando sua característica de BLOG (Web Log), todavia, este é

passível de ser utilizado para diferentes finalidades, tais como a

disseminação de notícias e divulgação de produtos.

Conexões também podem ser estabelecidas através do corpo das

mensagens. As formas de interação desse tipo estão esquematizadas na

Tabela 1 - Apresentação das ferramentas de interação caracteres de

identificação.

Tabela 1 - Apresentação das ferramentas de interação caracteres de identificação.

Nome Caractere Ferramenta

Retweet RT @usuáriofonte ou via @usuáriofonte

Retweet : Compartilhar uma informação de

outro usuário

Menção ou Resposta @usuáriodestino Menção: Citar outro

usuário em uma mensagem

A cada usuário é atribuído um pseudônimo único no sistema,

identificado pelo prefixo “@”. É facultado a cada usuário do sistema o

preenchimento de um perfil, que objetiva a exposição de características

pessoais, tais como idade, sexo e cidade atual, além de uma foto de

identificação.

As mensagens produzidas podem fazer uso de uma forma especial

de marcação, as hashtags. Segundo Marquez e Lima (2011) elas agregam

todos os relatos sobre determinados assuntos, servindo como um gerador

de memórias acerca de acontecimentos. Uma palavra é caracterizada com

uma hashtag quando é precedida pelo uma cerquilha(#), aquelas que

forem mais utilizadas durante um período de tempo são destacadas na

rede na forma de tópicos de tendência (Trending topics).

É conferida a cada postagem uma informação temporal, podendo

possuir também informações sobre a localização geográfica do emissor,

isso se este tiver habilitado tal opção. Segundo (DAVIS, PAPPA, et al.,

16

2011), os principais sistemas utilizados para identificar a localização do

usuário são o GEOIP4 e GPS5 (Global positioning system).

As mensagens produzidas por usuários autenticados, caso sejam

públicas, podem ser lidas por qualquer outro usuário autenticado e,

podendo até serem visíveis por quem não possui uma conta no site. O

acesso facilitado à informação e a possibilidade de coleta automática de

dados, devido à existência de uma API6 aberta, impulsiona o uso da rede

como base para uma grande quantidade de pesquisas, algumas delas

serão enunciadas no item 3.128.

1.4. Brasileirão

O campeonato brasileiro de futebol, popularmente conhecido como

“Brasileirão”, é a principal competição futebolística nacional, e é

organizado pela CBF (Confederação Brasileira de Futebol) anualmente.

O Brasileirão segue o padrão de competição de todos contra todos,

no Brasil mais conhecido como sistema de pontos corridos. Este padrão

consiste na disputa entre times, no qual, ao final da competição, todos

terão se enfrentado o mesmo número de vezes.

No campeonato nacional são realizados dois turnos com alternância

entre os mandatários das partidas. No torneio, vinte clubes participam do

grupo de elite da competição, a série “A”, totalizando assim 380 jogos por

competição.

4 Sistema que traça as coordenadas do local da postagem através de informações que dizem respeito ao endereço IP da máquina em que a postagem é feita.

5 Sistema que traça as coordenadas de um determinado local via triangulação de

satélites.

6 Uma API é um conjunto de ferramentas acessíveis exclusivamente via algoritmos

de programação. O acesso a uma API alavanca as possibilidades de uso de um software

no sentido de possibilitar ao programador acessar funções indisponíveis para o usuário comum.

17

Em 2012, em sua quinquagésima sétima edição, o campeonato teve

início no dia dezenove de maio e terminou no dia dois de dezembro.

Os jogos estão agrupados em rodadas, sendo que em cada rodada

todos os times jogam, totalizando dez partidas por rodada e 38 rodadas

por competição.

As rodadas acontecem aos finais de semana, durante as noites de

sábado e as tardes e noites de domingo. Algumas rodadas ocorrem

durante o meio da semana, os jogos são distribuídos nas quartas e

quintas à noite. Tal formato pode ser perturbado caso haja alterações de

datas de partidas (COMISSÃO BRASILEIRA DE FUTEBOL, 2011).

1.5. Projetos e Instituições Envolvidas

Os dados utilizados neste trabalho são provenientes do

“Observatório do brasileirão7”, projeto derivado do “Observatório da

Web8”.

O “Observatório da Web” foi apresentado por Santos et al. (2010),

podendo ser encarado como um projeto com grande preocupação na

visualização, em tempo real, do que se é comentado e divulgado na Web.

Além disso, o projeto pode ser visto como uma plataforma de fluxo de

dados, dividida em estágios: coleta de dados, extração, análise e

visualização (GOMIDE J., F., et al., 2011).

O Observatório da Web extrai informações de diferentes fontes,

dentre elas portais de notícias, repositórios de vídeos e redes sociais.

Serão utilizados apenas os dados oriundos do Twitter nesta proposição,

que foram coletados através do uso da API “Streaming” do Twitter. Outras

considerações referentes à coleta dos dados serão tecidas na seção 3.1.

7 http://www.observatorio.inweb.org.br/futebol/destaques/ Vertente do observatório da web para o Campeonato Brasileiro de 2012.

8 http://observatorio.inweb.org.br/.

http://www.observatorio.inweb.org.br/futebol/destaques/

http://observatorio.inweb.org.br/

18

A transferência do material do Observatório do Brasileirão, referente

ao Campeonato Brasileiro de 2012, deu-se no laboratório E-Speed9 do

Departamento de Ciência de Computação da UFMG. Além da transferência

dos dados, foram passadas orientações a respeito da forma de coleta e

instruções quanto ao manejo das estruturas de dados presentes nos

registros.

As análises posteriores foram feitas de maneira “off-line”,

desvinculadas do projeto “Observatório do Brasileirão” realizado no

Laboratório E-Speed, e de forma paralela às suas atividades.

A partir disso, boa parte das tarefas foram desenvolvidas no

laboratório de computadores do CCNM.

O CCNM, em suma, é um grupo de pesquisa, ensino e extensão da

UFMG, de caráter interdisciplinar, que tem como foco analisar as formas

de comunicação já consolidadas, e as emergentes, e a forma como elas se

inter-relacionam. O grupo é coordenado pela Profª Regina Helena Alves da

Silva do departamento de História da UFMG e é vinculado ao InWeb10

(Instituto Nacional de Ciência e Tecnologia para a Web)

9 http://www.speed.dcc.ufmg.br/Speed/. 10 http://www.inweb.org.br/

http://www.speed.dcc.ufmg.br/Speed/

http://www.inweb.org.br/

19

1.6. Organização do Texto

O Capítulo 1 apresentou o objetivo do trabalho, sua motivação, o

ambiente de estudo (o Twitter) e o cenário em que se concentra a análise

(o Brasileirão).

O Capítulo 2 abordará a revisão bibliográfica realizada acerca das

tecnologias de bancos de dados (área em que se encontra a metodologia

empregada), das pesquisas realizadas no Twitter e, por fim, a respeito do

comportamento de torcedores de times de futebol.

O Capítulo 3 descreverá a metodologia empregada para a

identificação de perfis.

O Capítulo 4 apresentará os resultados obtidos com o emprego da

classificação pretendida.

No Capítulo 5 serão tecidas considerações finais.

20

2. Revisão Bibliográfica

Neste capítulo se apresenta a revisão bibliográfica versando sobre os

temas que sustentam o trabalho proposto. Na seção 2.1 é apresentada a

área do conhecimento que abarca a metodologia utilizada no trabalho. A

seção 2.2 retrata uma série de pesquisas recentes realizadas a partir de

dados do Twitter. Na seção 2.3 estão enunciados estudos sobre

comportamentos de torcedores de futebol.

2.1. Tecnologias de Bancos de Dados

O início do uso de bancos de dados data da década de 60, com o

advento dos computadores de grande porte. Na década de 70 surgiram os

primeiros bancos de dados relacionais, possibilitando o armazenamento de

registros de transações de uma organização em bases de dados. Tais

dados eram depositados em bancos de dados dotados da tecnologia OLTP

(On-line Transaction Processing).

Com o passar do tempo, a produção de dados e a capacidade de

armazená-los cresceram rapidamente devido à popularização de sistemas

de computação. Tal panorama foi observado em diversos setores da

sociedade, tais como: Comércio, Indústria, Medicina, Astronomia,

Geologia, entre outras áreas (FAYYAD, PIATETSKY-SHAPIRO e SMYTH,

1996).

O vasto montante de dados disponíveis dificulta a tarefa de análise

manual, evidenciando a necessidade de técnicas automáticas capazes de

auxiliar os analistas na tarefa de transformar dados em informação útil e

conhecimento (HAN e KAMBER, 2006)

Tais fatores contribuíram para o advento da tecnologia OLAP (On-

line Analytical Processing). Esta tecnologia é uma forma diferenciada de

bancos de dados, ao contrário da tecnologia OLTP, que consiste em um

21

simples repositório, acessível através de consultas pontuais, a tecnologia

OLAP permite tarefas mais complexas, como a correlação entre dados e o

reconhecimento de padrões.

Apesar de a tecnologia OLTP ter surgido décadas antes da OLAP, não

é correto afirmar que uma tecnologia é evolução da outra, haja vista que

elas possuem diferentes configurações e objetivos diferentes, dentro de

uma organização.

2.1.1. O KDD

As técnicas de KDD (Knowledge Discovery in Databases) surgem

com o intuito de fornecer ferramentas para que seja possível aproveitar os

benefícios trazidos pelos novos paradigmas da tecnologia de bancos de

dados. Faz-se possível, através do uso dessas técnicas, confirmar ou

refutar hipóteses a partir de dados.

Um banco de dados que se utiliza da tecnologia OLTP é passível de

originar outro, dotado da tecnologia OLAP e para isso são empregadas

técnicas de pré-processamento de dados, uma parte importante do KDD.

O termo KDD se refere ao processo não trivial de identificar, em

dados, padrões válidos, novos, potencialmente úteis e compreensíveis

(FAYYAD, PIATETSKY-SHAPIRO e SMYTH, 1996).

O termo “Mineração de Dados” ou Data Mining é tratado por Fayyad

et al. (1996) como referente a uma das etapas do KDD. Por outro lado —

com o argumento de que o termo Data Mining tem sido utilizado

preferencialmente ao longo do tempo — Han e Kamber (2006) não

realizam tal distinção. Com a finalidade de evitar ambiguidades tal termo

fará referencia apenas à etapa do KDD (vide Figura 1).

A definição exata da quantidade de etapas de KDD e do conteúdo

específico de cada uma varia entre autores da área (SANTOS, 2007). Na

Figura 1 podemos ver uma representação do processo de KDD aos moldes

do que Fayyad et al. (1996) propõem.

22

Figura 1 - O processo de KDD adaptada de Fayyad et al. (1996).

2.1.1.1. Pré-Processamento de Dados

Segundo Han e Kamber (2006), técnicas de pré-processamento dos

dados são capazes de alavancar a qualidade dos dados fazendo com que

as etapas posteriores do KDD sejam dotadas de qualidade e eficiência

para a mineração. Tais técnicas se consistem basicamente em:

Limpeza dos dados

Não é incomum se encontrar dados inconsistentes errôneos ou

faltosos. De acordo com Han e Kamber (2006), tais tipos de dados, se não

tratados, podem gerar desconfianças acerca do resultado da mineração.

Algumas técnicas comuns de limpeza de dados são a remoção de

registros problemáticos e a atribuição de um valor padrão.

Integração dos dados

As técnicas de integração de dados são especialmente importantes

em ambientes industriais e organizacionais. Organizações tipicamente

trabalham independentemente, usando tecnologias diferentes, o que

confere ao desenvolvimento de estratégias de integração um caráter

desafiador (MICK, 2003). O processo de integração trata casos de

redundância, dependências entre variáveis, valores conflitantes, entre

outros.

23

Transformação dos dados

O emprego de técnicas de transformação de dados tem como

objetivo deixá-los aptos a se tornarem insumos para algoritmos de

mineração. São operações frequentes de transformação de dados:

normalização (confina os valores em uma faixa específica), generalização

(transforma valores específicos para valores mais genéricos) e adição de

atributos (são adicionados atributos com intuito de auxiliar no processo de

mineração).

Redução dos dados

A redução dos dados é motivada pelo grande volume de registros

encontrados em bancos de dados, o que dificulta até a análise automática.

Tais técnicas preveem a escolha de uma parcela dos dados que mantenha

a representatividade do conjunto.

São algumas das técnicas utilizadas para redução de dados a

seleção de um subconjunto dos atributos, a discretização dos dados e

redução do volume de dados (por meio de histogramas e regressões

lineares).

2.1.1.2. Mineração de Dados

Dentro do processo de KDD, a mineração de dados pode ser vista

como a etapa em que métodos inteligentes são aplicados com o intuito de

extrair padrões em dados. Segundo Fayyad et al. (1996), os principais

objetivos dos processos de Data Mining são a previsão de valores futuros

ou desconhecidos e a descoberta de padrões, interpretáveis por humanos,

que descrevam os dados.

24

Os métodos inteligentes empregados usualmente são:

Reconhecimento de Padrões Frequentes

Padrões frequentes são observados em casos de itens que aparecem

constantemente juntos em uma transação11. A mineração de padrões

frequentes em dados leva ao descobrimento de associações e correlações

entre os mesmos.

Classificação

Através de dados pré-rotulados, esta técnica possibilita a descoberta

de um modelo (ou função) que permite a distinção entre classes ou

conceitos. Um dos métodos de classificação (Árvore de decisão) será

abordado com mais detalhes na seção 2.1.2.

Agrupamento (Clustering)

A técnica de agrupamento incide sobre dados não rotulados

delimitando grupos. Os princípios que regem o agrupamento são

maximizar a similaridade intraclasse e minimizar a similaridade

extraclasse (HAN e KAMBER, 2006, p. 26).

Predição

A partir de dados numéricos contínuos, esta técnica objetiva a

construção de uma função contínua que possibilite a inferência de valores

futuros ou desconhecidos.

Identificação de Outliers

Em um conjunto de dados é possível encontrar dados

significativamente destoantes dos demais (Outliers). A descoberta de tais

elementos é o objetivo dessa técnica.

11 Refere-se uma a uma tupla de um banco de dados transacional. Este é

constituído de registros que contém basicamente um identificador e um conjunto de itens.

25

2.1.1.3. Apresentação dos Resultados

A etapa final do processo de KDD tem como objetivo apresentar o

“conhecimento” extraído ao usuário (HAN e KAMBER, 2006, p. 6)

utilizando-se de técnicas de visualização e representação de

conhecimento. Estas, segundo Han e Kamber (2006), podem ser: regras

de associação, tabelas, mapas, gráficos, árvores de decisão e cubos de

dados.

2.1.2. Classificação via Árvores de Decisão.

Uma árvore de decisão é uma estrutura de dados sob a forma de

uma árvore. Do ponto de vista de mineração de dados, o processo de

indução via árvore de decisão é uma forma de aprendizado através de

classes pré-rotuladas (HAN e KAMBER, 2006, p. 291).

Figura 2 - Arvore de decisão sobre risco de empréstimo, adaptado de Camilo e da

Silva (2009).

As folhas indicam as classes rotuladas, os nós — que não são folhas —

podem ser vistos como condicionantes, por fim, os ramos definem

encaminhamentos, definidos a partir dos resultados dos testes

condicionais. A Figura 2 mostra um exemplo de arvore de decisão.

26

A classificação via árvore de decisão se processa da seguinte forma:

uma tupla não rotulada é testada em uma árvore de decisão, de forma

que seus atributos sejam comparados com os nós condicionantes. A partir

dos resultados obtidos nessas comparações, traça-se um caminho,

através dos ramos, que culminará na identificação da classe atribuída à

tupla testada.

Para a construção das árvores, foram propostos algoritmos como:

ID3 (Iterative dichotomiser 3), C4.5 (uma atualização do ID3) e CART

(Classification and regression tree), que utilizam uma metodologia top-

down12 para realizarem tal procedimento.

O cerne da construção diz respeito à configuração dos atributos que

serão submetidos aos testes. De maneira geral, aqueles que possuem a

maior capacidade de discriminar as categorias existentes comporão os

condicionantes dispostos nos níveis superiores da árvore.

Para mensurar essa característica, são utilizados algoritmos de

seleção de atributos. Tais métodos, além do papel de seleção dos

melhores atributos para discriminação, indicam os pontos de corte

(valores dos atributos que definem os ramos de encaminhamento) e, por

conseguinte, determinam os caminhos de crescimento da árvore.

Em linhas gerais, se deseja obter, ao final de cada processo de

partição, nós derivados tão puros quanto possível. Um nó dito puro é

aquele em que a partir dele só se encontram tuplas da mesma classe.

12 Que parte dos nós superiores até alcançar as folhas da árvore de decisão.

27

Um método bastante utilizado para a seleção de atributos, o índice

de Gini, possui como métrica a “impureza” atribuída a um conjunto de

tuplas de treinamento, calculada por:

( ) ∑

onde é a probabilidade de uma tupla pertencer à classe Ci, valor

correspondente ao percentual de cada classe rotulada no montante.

Os algoritmos de seleção de atributos catalogam cada atributo que

descreve a tupla de teste e aquele que possui maior grau de impureza é

escolhido como atributo de partição. Além disso, o ponto de divisão é

escolhido entre um dado conjunto de pontos. Esses pontos correspondem

a valores intermediários de pares adjacentes de valores de atributos

ordenados. Da mesma forma, o valor em que o índice de Gini se minimiza

é escolhido como ponto de divisão. O condicionante (critério de

separação) é composto pelo atributo escolhido e o valor que corresponde

ao ponto de divisão.

O método apresentado (índice de Gini) requer que a árvore se

apresente da forma binária. Assim, a divisão faz com que as tuplas, cujos

atributos de análise são menores que o ponto de partição, sejam

encaminhadas ao ramo à esquerda e o restante ao ramo à direita dos

critérios de separação.

O processo de construção da árvore é executado de forma

recursiva, se encerrando quando as folhas remanescentes são puras, ou

então,quando não há mais atributos a serem testados.

A implementação da árvore não está imune ao fenômeno

denominado overfitting. Esta condição é marcada pelo fato do algoritmo

de classificação se atrelar a detalhes de um conjunto de dados de

treinamento. Isso faz com que o algoritmo perca a capacidade de

generalização, que é crucial para lidar com novos conjuntos de dados de

treinamento.

28

A ferramenta utilizada para atacar tal problema é a “poda” da

árvore. Esse processo — geralmente realizado posteriormente à

construção da árvore de decisão — transforma os nós condicionantes em

folhas rotuladas com a classe em que se observa maior número de itens a

partir do nó modificado.

Árvores podem ser utilizadas para lidar com dados numéricos,

apresentados como uma escala de números reais. Neste caso elas são

denominadas “Árvores de Regressão”. Tanto a estrutura de árvore, quanto

os procedimentos apresentados são preservados na nova abordagem. A

diferença recai sobre o critério de partição, no caso das árvores de

regressão usa-se o erro quadrático médio (MSE - Mean-squared Error)

para definir tanto o ponto quanto o atributo utilizados para a partição.

2.2. Pesquisas no Twitter

Sistemas de informação global, tais como a WEB, passaram por um

grande processo de difusão e atualmente possuem um papel vital na

indústria da informação (HAN e KAMBER, 2006, p. 3).

Como defendido anteriormente, os dados públicos do Twitter têm

sido utilizados como base para muitos trabalhos, boa parte de natureza

puramente estatística, e outros com propósitos de extração de

conhecimento, utilizando a metodologia de KDD.

O Twitter tem sido utilizado extensamente como uma forma de

“Sensor Social”, uma maneira popular de dizer que é possível rastrear a

reação de pessoas ante os eventos, através de suas postagens. Para tal,

Sakaki et al. (2010) realçam a importância da característica de tempo

real13 do Twitter, tratando como “evento” uma classificação arbitrária de

uma região no espaço/tempo.

13 O conceito de “Tempo Real” utilizado aqui advém de sua característica de

simultaneidade entre o acontecimento do evento e sua narração, que difere do significado do termo para a ciência da computação.

29

Análises que objetivam estudar a rede de microblogs, que atuam

como “Sensor Social” a partir de informações geo-localizadas, são

realizadas para estudo de fenômenos naturais, tais como terremotos

(SAKAKI, OKAZAKI e MATSUO, 2010), furacões (BACKSTROM, KLEINBERG

e KUMAR, 2008) e também doenças epidemiológicas (GOMIDE J., F., et

al., 2011), dentre várias outras possibilidades.

Em outra classe de eventos, se encontram aqueles programados

para ocorrerem em uma determinada data e hora. Inúmeros estudos

foram feitos tendo como base de fundo as eleições Estadunidenses (2008

e 2012). Pennacchiotti e Popescu (2011) utilizam como um dos critérios a

distribuição das postagens ao longo de um intervalo de tempo, critério-

chave para as pretensões do trabalho a ser apresentado.

No contexto da classificação de usuários, alguns trabalhos se

destacam. Contribuições relevantes, no que diz respeito à identificação de

perfis de acordo com o comportamento de usuários, foram feitas por

Benevenuto et al. (2010) para a identificação de spammers14.

Pennacchiotti e Popescu (2011) utilizam-se de vários temas para testar

um mecanismo de aprendizado de máquina dentre eles, a afiliação política

e a simpatia por uma franquia de cafeteria. Este estudo possibilita

extrapolar o conceito de fãs por outra entidade — times de futebol

permitem tal análise.

Ainda sobre comportamento de usuários no Twitter Bigonha et al

(2010) propõe uma técnica para medição de influência (de usuários) no

Twitter. Tal técnica possibilitou a separação entre simpatizantes e

detratores de uma marca de refrigerante. Tal separação é

indubitavelmente importante para caracterizar membros que postam

mensagens a respeito de um time.

14 Usuário que espalha spams na rede. O spam é uma mensagem que contém

propaganda não solicitada, em muitos casos com intuito malicioso.

30

Classificar o produtor de informações de acordo como o teor de suas

mensagens, como forma de expressão ou de caráter noticioso, foi

abordado por Choudhury et al. ( 2012), servindo como ponto de partida

para proposição de critérios que permitem diferenciar pessoas e páginas

de notícias.

As pesquisas sobre o futebol brasileiro no Twitter são realmente

parcas. De forma indireta, Rebustini et al. (2011) classifica reportagens de

acordo com a repercussão de mensagens postadas no Twitter por

entidades relacionadas a esportes de alto nível — categoria onde o

Brasileirão se encontra — identificando se a mensagem possui teor

provocativo, expositivo, esclarecedor, dentre outras possíveis intenções.

2.3. Comportamento de Torcedores de Times de Futebol

Tanto de Morais (2010) quanto de Assis (2008) concordam que o

assunto “futebol” é pouco explorado no ambiente acadêmico.

Em um país onde o futebol está embebido em suas entranhas,

seria normal supor que a produção sobre temas relacionados a

esse assunto fosse farta. Mas não é assim. Poucos estudos foram

publicados sobre esportes e, mais especificamente, futebol no

Brasil. (ASSIS, 2008).

A contribuição do futebol para a sociedade brasileira é discutida por

de Morais (2010), que também discute o conceito de fanatismo e a

evolução da forma de torcer do Brasileiro.

A maior parte dos estudos sobre o tema é permeada por aspectos

mercadológicos, estes impactados pelos perfis dos torcedores. Cáceres

(2010) realiza uma vasta revisão na literatura acerca de tipos de

torcedores, investigando a relação entre perfis de torcedores e

características de consumo — voltada à aquisição de produtos

relacionados ao time de torcida.

31

Ainda na mesma vertente Giulianotti (2012) propõe uma taxonomia

de identidades de torcedores. Tal classificação utiliza, além de perfis de

consumo, a intensidade da relação entre o torcedor e sua equipe. Thorne

e Bruner (2006) tratam do fanatismo relacionado a diferentes temas. Sua

pesquisa indica que há certas características comuns encontradas em fãs

de diferentes entidades.

Embasando-se em uma abordagem psicossocial, Wachelke et al.

(2008) utiliza-se de duas escalas, constituídas de questionamentos que

apontem graduações de comportamento fanático.

O aspecto violento das torcidas organizadas (instituições criadas

como forma de expressão coletiva da paixão pelo time) é abordado por

Assis (2008). Tal estudo aponta de uma maneira mais clara a forma de

expressão de torcedores fanáticos.

O estudo de Dutra e Silva (2012) aborda manifestações de

torcedores rivais, sob a roupagem das provocações bem humoradas, que

se acentuam na ocorrência de fracassos dos adversários.

32

3. Metodologia

Neste capítulo são apresentadas as etapas executadas para a

concepção do trabalho. Na Seção 3.1 é apresentada a forma de coleta dos

dados. A seção 3.2 trata dos procedimentos de redução do banco de

dados. Na seção 3.3 são apresentados os modelos utilizados no trabalho.

Na seção 3.4 serão apresentados os conceitos que regem as pesquisas

realizadas. Na seção 3.5 são explicitados os perfis de usuários, alvos de

estudo e o processo de inspeção das páginas.

3.1. Coleta de Dados

Como citado na seção 1.5, foi utilizada a API Streaming do Twitter

para a coleta automática de mensagens que se referem ao Campeonato

Brasileiro.

A API do Twitter possibilita a extração de dados de maneira

simplificada e bem documentada15. Diversos tutoriais são apresentados

por (RUSSELL, 2011) a fim de guiar o desenvolvedor na execução de

diferentes consultas.

O mecanismo no qual se baseia a API, prevê a coleta quando é

verificada no corpo de uma mensagem a existência de ao menos uma

palavra-chave dentro de um conjunto informado pelo consultor. A escolha

criteriosa das palavras-chave que compõem esse conjunto é de extrema

importância.

15 A documentação está descrita no site: <https://dev.twitter.com/docs/streaming-apis>

https://dev.twitter.com/docs/streaming-apis

33

Do ponto de vista dos termos que se referem ao Campeonato

Brasileiro, mais precisamente aqueles referentes às equipes que o

compõe, é necessário incluir dentre as palavras chaves:

Nomes das equipes (p. ex. Flamengo);

Adjetivos que qualificam o torcedor (p. ex. Vascaíno);

Alcunhas dos times (p. ex. Timão);

Referências às cores dos times (p. ex. Tricolor).

A inclusão de tais termos objetiva minimizar o problema de erros na

captura do tipo “falso negativo16”. Para uma abrangência maior ainda da

coleta, podem-se acrescentar variações comuns nas palavras, tais como a

flexão de número, o uso de aumentativo/diminutivo e, em alguns casos,

erros comuns de grafia e o uso, ou não, de acentuação.

Outro tipo de coleta errônea que pode ocorrer é a do tipo “Falso

Positivo17”. Uma proposta para se contornar tal problema, se tratando de

palavras ambíguas, é fazer uma avaliação do contexto da mensagem

como tratado por Walton e Macagno (2009)

Será utilizado um conjunto de dados previamente rotulados por um

mecanismo de reconhecimento de entidades — neste caso as entidades

são as equipes do brasileirão — a partir de termos que as identifiquem.

3.2. Redução do Banco de Dados

Fayyad et al. (1996) preconizou o aumento da dimensão dos bancos

de dados tanto no sentido do número de registros quanto na quantidade

de campos. Tal previsão é confirmada no caso dos dados coletados do

Twitter: sua característica de microblog o torna um sistema dotado de um

grande fluxo de mensagens curtas.

16 Negligência na coleta de dados relacionados ao tema de consulta.

17 Coleta de dados não relacionados ao tema de consulta.

34

No caso da coleta abarcar temas populares — como é certamente o

caso das equipes brasileiras de futebol — a população do banco de dados

se mostra expressivamente elevada. A coleta realizada pelo Observatório

do Brasileirão culminou em um banco de dados da ordem de dezenas de

milhões de elementos!

Os registros coletados são dotados de dezenas de atributos. O

número elevado de atributos se deve ao fato de estarem embutidos no

registro dados referentes à mensagem publicada, ao seu emissor e

também aos resultados do mecanismo de identificação das equipes

mencionado em 3.1.

Cada registro possui um tamanho, em memória, de poucos

kilobytes. O montante, por sua vez, é da ordem de centenas de gigabytes.

Assim sendo, o manejo desse volume de memória demanda alta

capacidade de processamento. Tal panorama denuncia a necessidade do

emprego de métodos de redução do banco de dados — poderiam ser

empregados também métodos capazes de tratar grandes volumes de

dados, entretanto a existência de um grande volume de informação

considerada irrelevante reforça o emprego de técnicas de redução do

banco de dados.

3.2.1. Seleção de Subconjunto de Atributos

Dentre as técnicas de redução de dados mais comuns a seleção de

um subconjunto de atributos é de especial interesse. (HAN e KAMBER,

2006, p. 73) pontua que atributos irrelevantes, pouco relevantes e

redundantes devem ser detectados e removidos. Muitos dos campos

existentes nos registros se apresentam dessa forma, como estes são

vistos apenas como lastros para o processamento, a remoção é

empregada.

Antes de se aprofundar no algoritmo empregado para tal, deve-se

apresentar a forma em que os dados estão estruturados.

35

O formato JSON

O formato JSON foi originalmente criado por Douglas Crockford para

representar formas de dados no ambiente JavaScript18. Posteriormente

passou a ser utilizado para intercâmbio de dados entre computadores,

graças a sua estrutura compacta e simplicidade de uso.

Dessa forma, ele tem sido bastante utilizado em novas APIs. O

Twitter possui, nativamente, suporte ao formato JSON19. As estruturas de

dados em JSON são construídas utilizando-se dos caracteres

delimitadores, descritos na Tabela 2.

Tabela 2 - Função dos caracteres especiais em JSON.

Caractere(s) Ferramenta

[] Delimitam um vetor

{} Delimitam uma estrutura

“” Delimitam os nomes dos campos

: Separa os campos dos dados

, Separador entre os campos

O formato permite que os tipos de dados sejam aninhados, isto é,

pode haver estruturas dentro de outras, vetores dentro de estruturas, e

ainda estruturas dentro de vetores. São permitidos dados na forma de:

valores numéricos, booleanos (verdadeiro ou falso) e cadeias de

caracteres, neste caso apresentadas entre aspas.

Um exemplo de registro em JSON é mostrado na Figura 3. Neste é

descrita uma estrutura fictícia contendo resultados obtidos de um

identificador de equipes mencionadas em textos.

18 Uma linguagem de programação interpretada com enfoque em desenvolvimento para WEB.

19 A página dinâmica:

<https://search.twitter.com/search.json?&q=brasileirão&rpp=1&page=1> traz a última postagem contendo em si a palavra “brasileirão” estruturada em JSON.

https://search.twitter.com/search.json?&q=brasileirão&rpp=1&page=1

36

Figura 3 - Exemplo de uma estrutura em JSON.

O programa de redução de atributos

O mecanismo de redução de atributos foi construído em C++20. Os

requisitos que guiaram sua concepção foram: capacidade de remover os

campos irrelevantes, manutenção dos campos de interesse para o

trabalho, assim como a integridade da estrutura em JSON. A minimização

do tempo de execução do algoritmo também é um requisito importante.

O algoritmo é pautado em operações sob uma longa cadeia de

caracteres — cerca de quatro mil por registro — que segue um padrão de

formatação (Definido pelo JSON).

Apesar do padrão do registro das postagens do Twitter ser bem

definido, existe certa variabilidade na apresentação dos resultados. Isto se

configura como um desafio para a proposta de um mecanismo

automático. Os principais problemas identificados foram:

20 Linguagem de programação desenvolvida por Bjarne Stroustrup a partir da Linguagem C. <http://www.cplusplus.com/>

http://www.cplusplus.com/

37

Incompatibilidade de tipos: Os mesmos campos podem apresentar

diferentes tipos de dados.

Campos adicionados ao longo da coleta: Durante o período de coleta

o Twitter adicionou ao registro das postagens novos campos como a

possibilidade de colocar conteúdo multimídia (fotos e vídeos).

Variação na sequência de campos: A sequência dos campos

presentes é violada em alguns casos.

No que se refere ao formato JSON, o principal problema identificado

é o caso em que a vírgula (caractere especial do formato, vide Tabela 2) é

utilizada como caractere de pontuação.

Para contornar os problemas apresentados são executados testes

sistemáticos, as inconsistências identificadas são prontamente corrigidas.

O mesmo ocorre com registros em que ocorre algum tipo de violação na

estrutura JSON. Neste caso, no entanto, os registros não conformes são

eliminados como forma de “Limpeza de Dados”, prevista por (HAN e

KAMBER, 2006, p. 61).

O procedimento de redução de atributos

Um “laço” percorre linha após linha do arquivo que contém os

dados, as copiando em um espaço de memória, na forma de uma string21.

Um ponteiro percorre os itens da string. Associados a ele, está um

conjunto de buffers22 que possuem função como: armazenar os caracteres

que delimitam o início da descrição do campo, início e fim da apresentação

do conteúdo e fim do registro.

Após um campo ser identificado, é definido se este é de interesse.

Caso afirmativo, seu conteúdo será transmitido ao destino e, caso

contrário, os caracteres referentes ao seu valor serão ignorados.

21 Cadeia de caracteres.

22 Espaço em memória para manobras temporárias.

38

Além dos campos e conteúdos, os caracteres de delimitação próprios

do JSON são copiados. Assim, garante-se que a sintaxe referente ao

formato seja preservada, mantendo-se a natureza original dos dados.

3.2.2. Seleção de Usuários e Mensagens

Na seção 3.2.1 foi abordada a aplicação de uma técnica que culmina

na redução da dimensão do banco de dados no sentido do número de

atributos. Todavia, a redução se faz necessária também com o intuito de

diminuir a quantidade de registros existentes. Tais métodos serão

abordados nesta seção.

Seleção do time de estudo

A primeira decisão tomada no sentido de diminuir o número de

registros é a escolha de apenas uma equipe para análise. Além do

objetivo já anunciado, tal decisão visa delimitar o escopo de análise. Isto

é importante, pois se busca uma análise centrada na relação íntima dos

torcedores com seu time. Esta abordagem, no entanto, não seria possível

caso se utilizasse o montante indistinto de usuários que publicam

mensagens sobre times futebol.

A redução do número de registros é baseada no descarte de

mensagens não referentes ao time escolhido. Tal tarefa é realizada pelo

programa de redução de atributos descrito anteriormente. A identificação

dos times citados, por sua vez, é realizada por um mecanismo de

classificação construído pelo Observatório do Brasileirão (mencionado na

seção 3.1).

Os rótulos atribuídos às equipes não estão totalmente protegidos de

erros do tipo “falso positivo”. Sendo assim, a não ambiguidade dos termos

que referenciam as equipes é um critério que guia a escolha do time a ser

estudado. Outro critério relevante é o tamanho da torcida da equipe.

39

Por atender positivamente à condição referente à ambiguidade dos

termos, que o referenciam, e também por ser considerado o time de

maior torcida do Brasil, definiu-se o Flamengo-RJ como time de estudo.

Uma vez que o foco da pesquisa é o Campeonato Brasileiro, a

escolha pelo Flamengo é reforçada, já que em 2012 o time não participou

de outras competições futebolísticas simultâneas ao torneio ao longo da

competição — isso porque o Flamengo foi eliminado prematuramente da

Taça Libertadores da América23 e da Copa Sul-Americana24.

Seleção de usuários de acordo com o número de mensagens

O processo de remoção incide também sobre usuários que postam

poucas mensagens referentes ao Flamengo. Tal atitude objetiva definir

quando um usuário que menciona times no Twitter pode ser de interesse

para análise.

O que sustenta a importância de tal atitude é a existência de pouca

informação a respeito do comportamento do usuário. A não remoção

desses usuários potencializaria a existência de casos “falso-positivos” da

coleta.

Como um exemplo, expõe-se o caso de um usuário cujos registros

se encontram no banco de dados apenas por ele ter feito poucos

comentários reclamando do barulho de foguetes na comemoração de um

time vitorioso. Em casos como este, não existe um vínculo significativo

entre o usuário e o time, portanto tal indivíduo não seria um alvo de

interesse do estudo.

23 Principal competição futebolística da América latina organizada pela

Confederação Sul-americana de Futebol (CONMENBOL) <http://www.conmebol.com/pt-br/content/copa-libertadores-0>

24 Segunda competição internacional em importância, também organizada pela

Confederação Sul-americana de Futebol (CONMENBOL) <http://www.conmebol.com/pt-br/content/copa-sul-americana-0>

http://www.conmebol.com/pt-br/content/copa-libertadores-0

http://www.conmebol.com/pt-br/content/copa-libertadores-0

http://www.conmebol.com/pt-br/content/copa-sul-americana-0

http://www.conmebol.com/pt-br/content/copa-sul-americana-0

40

Para a definição do valor do limite inferior — referente ao número de

materiais produzidos por um indivíduo que faça com que ele seja mantido

na base de dados — contou-se com o auxílio de um gráfico que relaciona

o número de usuários que possuem certas quantidades de mensagens. A

Figura 4 apresenta a distribuição de usuários que produzem entre 38 a 53

mensagens referentes ao Flamengo durante o período de coleta.

.

Figura 4 - Distribuição dos usuários pelo número de mensagens referentes ao Flamengo

postadas.

A Figura 4 mostra ainda que a distribuição do número de usuários

que postam certo número de mensagens segue uma função potência, ou

seja, poucos usuários postam uma grande quantidade de mensagens, e

existe uma grande quantidade de usuários que emitem poucas

mensagens.

Os resultados apresentados na Tabela 3 reforçam essa

característica, uma vez que mais da metade dos usuários postaram

apenas uma única mensagem relacionada ao Flamengo.

41

Tabela 3 - Percentual de usuários por faixa de número de mensagens.

Número de Mensagens Valor Percentual

1 51%

2 a 37 40%

38 a 100 8%

Mais do que 101 1%

O valor do limiar escolhido foi 41, este valor indica que o usuário

postou pouco mais de uma postagem por rodada, assim, são pré-

selecionados para pesquisa menos de 2% dos torcedores.

Seleção de usuário de acordo com critérios espaços-

temporais

Informações sobre a localização geográfica do emissor são

importantes para que seja determinada a correta relação entre o

momento da postagem e os momentos do campeonato.

O mecanismo de inferência da localização do usuário a partir da

localização de seus relacionamentos no Twitter, proposto por (DAVIS,

PAPPA, et al., 2011), é empregado posteriormente à coleta dos dados,

possibilitando um incremento significativo de usuários com indicações

geográficas.

A partir do dia 20 de outubro de 2012, nas regiões: Sul, Sudeste e

Centro-Oeste, por causa da adoção do horário de verão25, ocorre o

adiantamento do horário, nessas regiões, em uma hora.

A identificação do local de emissão das mensagens permite

identificar se em tal localidade ocorre o horário de verão. Tal informação é

de suma importância, uma vez que a informação temporal existente no

Twitter não leva em consideração essa alteração. O atributo temporal do

25 Medida adotada pelo governo federal com intuito de redução do consumo de

energia. Os relógios existentes nessas regiões foram adiantados em uma hora, voltando ao normal em 17 de fevereiro de 2013.

42

Twitter é compatibilizado — atrasado em uma hora — de acordo com a

aplicação ou não do horário de verão na localidade identificada.

A separação entre os estados de acordo com a adoção do horário de

verão é feita a partir de uma simplificação, empregando-se uma

delimitação a partir de retas paralelas e meridianas. Caso o ponto

referente às coordenadas geográficas atribuídas ao emissor esteja abaixo

da demarcação, infere-se que o horário de verão é adotado.

O percentual de registros com identificação geográfica de um

usuário abaixo de 90% é considerado impreciso culminando com sua

remoção do banco de dados. Quando o usuário não é removido, mas há

um conjunto de coordenadas faltantes no registro é usado o par de

coordenadas mais frequente atribuído ao usuário. (HAN e KAMBER, 2006,

p. 62) prevê tal abordagem para valores ausentes.

Um atributo de fundamental importância, previsto nos registros

coletados, é o campo que se refere ao fuso-horário declarado pelo

usuário. Tal valor é dado em medidas do número de horas relativo ao

meridiano de Greenwich26. Os valores “-3” e “-4” são encontrados na

porção continental do Brasil27, apenas tais valores são considerados.

Quando mais de um terço dos atributos de fuso-horário de certo

usuário são vazios, o usuário é desconsiderado. Dessa forma, seus

registros são removidos do banco de dados.

Quando é encontrado mais de um fuso-horário nos registros do

usuário, porém são encontrados também registros faltantes, a remoção do

usuário é realizada — a fim de evitar que se atribua valores

26 Linha meridional que divide o globo terrestre entre ocidente e oriente, serve com referência de longitude.

27 O valor “-3” se refere aos estados das regiões sul, sudeste, nordeste. Tal valor

também é atribuído aos estados do Pará, Tocantins, Amapá, Goiás e o Distrito Federal. Aos demais estados é atribuído o valor de UTC de “-4”

43

erroneamente. No último dos casos é atribuído a todos os registros do

usuário o único fuso-horário taxado em suas mensagens.

Os procedimentos apresentados nessa seção culminaram em um

conjunto contendo o montante de registros de 3995 usuários. A fim de

tornar o processo de inspeção (apresentado em 3.5.1) factível, foram

selecionados cerca de um quarto desse total (1004 usuários

acompanhados de seus registros). A seleção foi realizada de forma a

priorizar os usuários com mais mensagens (a fim de estimular a coleta de

perfis de interesse), porém mantendo uma quantidade relevante dos

demais.

3.3. Modelagem

Nos processos subsequentes, utiliza-se o MATLAB28 como plataforma

de desenvolvimento. A escolha por tal ambiente se deve ao fato deste

possuir uma linguagem própria intuitiva e fácil de manipular, além de

possuir nativamente ferramentas de Mineração de Dados.

3.3.1. Hierarquia Conceitual de Tempo

O Campeonato Brasileiro possui uma estrutura baseada em eventos

— dotados de data, hora e local para serem realizados —, como exposto

em 1.4. Utilizando-se de informações como o início e fim dos jogos,

disponíveis em (COMISSÃO BRASILEIRA DE FUTEBOL, 2012), pode-se

modelar a estrutura de tempo do Brasileirão.

Assim como apresentado por Han e Kamber (2006), o Brasileirão

pode ser visto como sendo uma “hierarquia conceitual de tempo”.

28 O Matlab® é um produto desenvolvido pela MathWorks®, sendo apresentado

como um ambiente interativo para computação numérica, visualização e programação. <http://www.mathworks.com/products/matlab/>

http://www.mathworks.com/products/matlab/

44

A abordagem via hierarquias conceituais é de especial interesse,

pois permite modificar o escopo temporal das pesquisas pretendidas,

abordadas em 3.4, com maior facilidade.

Como discutido anteriormente, na seção 3.2.2, para se desbravar a

relação entre o torcedor e seu time é necessário que a análise seja

direcionada aos eventos relacionados ao time de estudo. Sendo assim, é

utilizada uma hierarquia conceitual baseada nos mesmos, a despeito da

que representaria o Brasileirão. Esta seria indicada caso a análise fosse

estendida a usuários que mencionam os diversos times do campeonato.

A partir de um Timestamp, alterado pelas devidas compatibilizações

de fuso-horário e de horário de verão, é possível, através da hierarquia

utilizada, se obter respostas para algumas questões, tais como: “a

postagem da mensagem ocorre durante o campeonato?”; “ocorre durante

uma rodada?”; “ocorre durante o jogo do Flamengo?”; “ocorre durante o

intervalo de um jogo do Flamengo?”.

Para responder tais perguntas são necessárias, no entanto,

definições de contorno, que estabeleçam o momento de início e término

de cada um dos níveis da hierarquia.

A hierarquia de tempo empregada, no que diz respeito aos níveis de

tempo utilizados, é resultado de um esforço de enxergar o campeonato do

ponto de vista do torcedor. Sendo assim, as unidades de tempo que

compõem a estrutura do torneio são mantidas, no entanto são

adicionados novos níveis temporais, com o intuito mencionado.

Os principais níveis de tempo da hierarquia utilizada são

apresentados a seguir.

Interno ao Jogo

As unidades de menor granularidade de tempo se encontram em

subdivisões dos “Jogos de interesse” — estes se referem às partidas em

que o time alvo de estudo (Flamengo) está em campo.

45

A divisão se incide sobre o intervalo de tempo compreendido entre o

inicio e o final do jogo previsto, tal período é dividido em sete partes de

quinze minutos. São agregados às subdivisões outros dois blocos de

mesma duração, um anterior e outro posterior ao duelo.

O motivo desse acréscimo segue a intenção de considerar definições

de tempo do ponto de vista do torcedor — em tais momentos acontecem

os rituais de preparação do torcedor para a partida e a repercussão de

comentários dos jogadores e comentaristas ao final do embate. O outro

objetivo dessa atitude é amenizar os efeitos de acréscimos e atrasos nas

partidas.

A partir da modelagem mencionada, são passíveis de identificação

entidades como: primeiro tempo, segundo tempo, intervalo. A partir delas

é possível determinar os momentos em que o jogo está ou não em

andamento.

Esta abordagem é levada à definição do domínio de tempo atribuído

a um jogo de futebol, portanto define-se que seu início ocorre quinze

minutos antes do tempo previsto de início da partida e se encerra ao final

da extensão apresentada.

Envolvendo o Jogo

Análises preliminares indicaram que o percentual de torcedores que

postam mensagens sistematicamente durante os jogos do time é

consideravelmente baixo (menos de um quarto do total). Muitas

considerações, no entanto, dependem dessa característica para que sejam

tecidas afirmativas acerca do comportamento do usuário.

Diante disso, resolveu-se modelar uma unidade de tempo mais

abrange do que aquela referente à partida. Arbitrou-se que esta

compreende o espaço de tempo entre um dia antes e outro depois da

delimitação temporal atribuída aos jogos. São definidas unidades de

tempo advindas de recortes dessa envoltória: a porção anterior e

posterior aos jogos.

46

Os três níveis definidos aqui se referem a alguns momentos

experimentados pelos torcedores diante dos jogos de seus times. A faixa

anterior ao jogo diz respeito à “expectativa” em relação à partida. Nesse

momento são temas recorrentes as escalações do time e as condições de

jogo: clima, gramado, arbitragem entre outras.

Os momentos posteriores ao jogo dão conta da “repercussão” do

embate. Nesse intervalo de tempo são debatidas diversas questões

referentes ao resultado: os possíveis erros de arbitragem, gols perdidos,

lances bonitos, desempenho de jogadores…

Por fim, a envoltória da partida reflete o “clima” do jogo, uma

denominação de caráter amplo que envolve interações, rituais e expressão

de sentimentos em relação à partida.

Durante a Rodada

Uma rodada é composta por dez jogos distribuídos em diferentes

faixas de horários, de modo que em cada faixa ocorre um ou mais jogos.

Rodadas podem diferenciar-se bastante de acordo com a distribuição dos

jogos e da combinação dia da semana/horário, porém, a maior

singularidade é observada no caso de rodadas que possuem jogos

adiados.

Como previsto em 1.4, a ocorrência destes traz incompletude

temporária à tabela de classificação. Como seus efeitos são observados

posteriormente à rodada, à qual pertencem, decidiu-se por não vinculá-los

a rodada alguma.

É interessante se observar que os horários dos jogos são deslocados

com o horário de verão, contudo a estrutura das faixas de jogos não é

alterada.

Definiu-se que uma rodada é delimitada pelo inicio de sua primeira

faixa de jogos e o final dos jogos de sua última faixa. O período que

compreende o intervalo entre rodadas é denominado “Entre Rodadas”.

47

Por fim, o campeonato é definido de forma bastante simples. Este se

inicia no início da primeira rodada e termina ao final da última rodada. O

conceito de turno, por sua vez, não foi utilizado nas pesquisas.

3.3.2. Repertório do Brasileirão

A identificação de perfis está intimamente ligada ao comportamento

ante ao universo do Campeonato Brasileiro, posto isso é necessária a

coleta de dados de forma a montar um “repertório virtual” contendo

informações dos mais variados tipos que se referem à competição.

A grande maioria das informações está disponível na tabela do

Campeonato Brasileiro, disponibilizada pela súmula da CBF29.

A tabela do campeonato é composta por informações referentes às

partidas, tais como: times confrontantes, horário, data, placar final, local

de realização entre outras informações. Os registros dos jogos são

agrupados de acordo com a rodada em que ocorrem.

Dados referentes à tabela de classificação, apesar de não estarem

explícitos na tabela de jogos, são facilmente deriváveis da mesma.

Outras informações, necessárias para a construção do repertório,

são encontradas em outros sites:

O percentual de ocupação do estádio se encontra no site do Globo

Esporte30;

Um mapeamento31 dos estádios para o Google Earth32.

29 Disponível em:

http://www.cbf.com.br/Competi%C3%A7%C3%B5es/S%C3%A9rie%20A/Tabela/2012 guia: súmula.

30 Disponível em: <http://globoesporte.globo.com/futebol/brasileirao-serie-

a/publicobrasileirao>.

HTML

31 Apresentado em: <http://depokafe.wordpress.com/2007/10/02/440-estadios-

para-google-earth>

http://www.cbf.com.br/Competi%C3%A7%C3%B5es/S%C3%A9rie%20A/Tabela/2012

http://globoesporte.globo.com/futebol/brasileirao-serie-a/publicobrasileirao

http://globoesporte.globo.com/futebol/brasileirao-serie-a/publicobrasileirao

http://depokafe.wordpress.com/2007/10/02/440-estadios-para-google-earth

http://depokafe.wordpress.com/2007/10/02/440-estadios-para-google-earth

48

A tarefa final se consiste em transpor o repertório criado para o

ambiente de desenvolvimento (MATLAB®) na forma de estruturas de

dados. A criação do repertório é feita concomitantemente com um

conjunto de códigos que tem como intuito realizarem consultas sobre seus

dados, de acordo com os objetivos das pesquisas.

3.4. As Pesquisas

O Dicionário Aurélio da língua portuguesa, no verbete pesquisa,

traz: “2. Investigação e estudo, minuciosos e sistemáticos, com o fim de

descobrir fatos relativos a um campo do conhecimento” (FERREIRA,

1993).

Reserva-se o uso da palavra pesquisa, contudo, para designar o

processamento de insumos que tem como intuito extrair características

comportamentais de usuários do Twitter.

Foram realizadas trinta e seis pesquisas que, a partir de diferentes

análises, promovem tais caracterizações. Apenas algumas dessas

pesquisas serão enunciadas, com o propósito de instanciarem os aspectos

considerados no trabalho.

Para a realização das pesquisas são avaliados o conjunto de

registros de cada usuário, a hierarquia conceitual de tempo e o repertório

montado sobre o Campeonato Brasileiro de 2012.

Uma classificação de acordo com o(s) tipo(s) de insumos que

necessitam para serem executadas é proposta, para auxiliar na

apresentação das mesmas. São definidas, então, quatro classes:

Pesquisas puras de tempo;

Pesquisas puras de atributo;

32 Mapa interativo desenvolvido pelo Google, disponível em: <http://www.google.com.br/intl/pt-BR/earth/index.html>

http://www.google.com.br/intl/pt-BR/earth/index.html

49

Pesquisas gerais;

Pesquisas geográficas.

Pesquisas puras de tempo

São denominadas “Pesquisas puras de tempo” as pesquisas que

necessitam apenas de informações extraídas da “Hierarquia conceitual de

tempo” descrita em 3.3. Tais pesquisas visam observar a distribuição das

mensagens de acordo com os níveis de tempo constituintes da hierarquia,

traçando comparativos entre número de mensagens em diferentes

granularidades de tempo.

Alguns exemplos de pesquisas desse tipo são: o percentual de

mensagens fora do campeonato, a relação entre postagens dentro e fora

do domínio dos jogos, a relação entre postagens após e antes das partidas

do time, dentre outras análises.

Pesquisas puras de atributo

Neste caso, as pesquisas necessitam apenas de atributos presentes

nos registros. São possíveis de serem avaliadas diversas características,

como o numero de marcas de interação próprias do Twitter (apresentados

na seção 1.3) que os usuários utilizam em suas mensagens.

Além disso, é contabilizado o número de mensagens postadas

durante o período de coleta, assim como a relação entre seguidores dos

usuários e páginas que eles seguem. As equipes identificadas no corpo

das mensagens também são alvo de análise.

São avaliadas as distribuições de postagens de acordo com os dias

da semana e horários do dia — nestes casos consideram-se pesquisas de

atributo por necessitarem apenas da informação contida no horário,

dispensando relações com o campeonato propriamente.

Pesquisas gerais

Nas “Pesquisas gerais” são levados em considerações insumos de

diferentes naturezas. Esse tipo de pesquisa tem como via de regra

estabelecer relações entre diferentes informações.

50

Relações entre informações presentes no corpo das mensagens e os

momentos próximos aos jogos do time, são capazes de denotar mudanças

de comportamento de torcedores em tais ocasiões.

A relação entre a hierarquia de tempo e o repertório do Brasileirão

fornece relações importantes no que diz respeito à atitude dos torcedores

de acordo com os adversários do Flamengo. São analisados os números

de postagens publicadas próximo de jogos contra adversários regionais

(Vasco, Botafogo e Fluminense) e adversários importantes de acordo com

a tabela de classificação.

Outro fator passível de ser mensurado é a conexão entre a

quantidade de postagens e o desempenho da equipe. Para tal, faz-se a

correspondência entre o número de postagens e o percentual de pontos

conquistados nas últimas três e oito rodadas. Em um horizonte mais

estreito, é confrontado o volume de mensagens dos usuários após vitórias

e derrotas da equipe.

Pesquisas geográficas.

Pesquisas geográficas levam em consideração as coordenadas

geográficas do emissor. O registro destas, caso habilitado, indica o local

de emissão das mensagens, que em tese é capaz de sugerir a forma em

que o torcedor acompanha a partida.

Posto isso, é possível determinar se o torcedor se encontra no

estádio no decorrer da partida ou não. Para investigar a ocorrência de tal

situação, foi desenvolvido um algoritmo que se processa da seguinte

forma:

A partir do ponto central dos estádios estabeleceu-se um raio que

varia de acordo com a dimensão do estádio — estimada por sua

capacidade numérica de torcedores —, caso a coordenada da mensagem

enviada esteja dentro dos limites do círculo imaginário criado, considera-

se que o torcedor está acompanhando o jogo in loco.

51

Apesar de a pesquisa ser teoricamente possível, tal situação não foi

observada em análises exploratórias subsequentes, portanto as pesquisas

geográficas não foram agregadas ao trabalho.

Uma das principais causas da inabilidade de verificar tal situação é a

cobertura insuficiente de internet móvel no entorno dos estádios

Brasileiros.

3.4.1. Processamento dos Resultados das Pesquisas

Exposto um apanhado geral sobre as pesquisas — a listagem

completa das pesquisas válidas está colocada no Anexo A —, são

explicados a seguir alguns procedimentos empregados de pré-

processamento de dados, que tornam os resultados das pesquisas aptos a

receberem o algoritmo de classificação.

Como pôde ser observado na apresentação das pesquisas, grande

parte delas se baseia na operação de contagem de itens que satisfazem

dadas condições, outras são frutos de comparações.

No que se refere às análises comparativas, o segundo termo de

comparação pode ser um valor fixo (usualmente o número de mensagens

por produzidas pelo usuário) ou então um resultado oriundo de uma

contagem submetida à outra condição.

O valor numérico final atribuído à pesquisa passa por um processo

de normalização. Esta técnica condiciona os possíveis valores a uma dada

excursão, variando normalmente de -1 a 1 ou de 0 a 1 (HAN e KAMBER,

2006, p. 71).

As duas variações enunciadas são utilizadas com objetivos

diferentes. A primeira se emprega em casos de análises comparativas. O

segundo caso, é utilizado quando um dos valores é sabidamente menor

que o outro. A normalização é empregada com objetivo de facilitar a

análise comparativa entre as diferentes pesquisas.

52

Após a confecção das pesquisas, notou-se que cerca de 2% dos

valores são “vazios”. A estes dados são atribuídos os valores médios de

cada pesquisa ao qual se relacionam. Com a execução deste procedimento

o mecanismo de classificação é possível de ser aplicado.

Após a apresentação das formas dos resultados é conveniente

relacioná-las à identificação de perfis de usuários. Tal relação é tecida na

seção 3.5.

3.5. Identificação de Perfis

O principal objetivo do trabalho é diferenciar os usuários que torcem

para o Flamengo. Para isso, é realizada uma categorização a partir de

graus de fanatismo atribuídos aos afiliados ao Flamengo.

Como posto na seção 3.1, os termos atribuíveis às equipes

brasileiras, que disputavam a Série A em 2012, identificam as mensagens

alvo da coleta. Como não se é possível determinar as intenções por detrás

das mensagens coletadas, abre-se margem para a caracterização de

diversos perfis de usuários.

Dessa forma, além dos torcedores afiliados ao Flamengo, são perfis

de interesse fontes noticiosas (e possíveis desdobramentos destas) e

torcedores de times rivais.

Afiliado do Time

A literatura acerca de perfis de torcedores de futebol tem como linha

de base o conceito de “fanatismo”. O Dicionário Aurélio, da língua

portuguesa no verbete fanático, traz: “2. Que adere cegamente a doutrina

e partido. 3. Que tem grande dedicação ou amor a alguém ou algo.”

(FERREIRA, 1993). Tal conceito, no entanto, pode ser definido de maneira

ferramental como sendo: “A força da relação entre o torcedor com seu

time”.

53

Tanto a literatura, quanto o conhecimento comum e ainda uma

pesquisa de opinião, são fontes consultadas para determinar o que se

entende como “um usuário fanático”.

A partir da revisão bibliográfica realizada, foram observadas

diversas nomenclaturas atribuídas aos torcedores, além disso, são

apresentados diferentes quantidades de patamares de fanatismo.

Uma vez que quanto maior a quantidade de níveis de fanatismos

mais difícil é a tarefa de diferenciação entre categorias na etapa de

inspeção, apresentada em 3.5.1. Usam-se, portanto, apenas três níveis:

Torcedor;

Fã;

Fanático.

Torcedores de Times Rivais

A grande maioria dos torcedores de times rivais costuma mencionar

o Flamengo de forma negativa, por isso estes também serão identificados

pelo termo “Detratores”.

O Flamengo, em especial, é um alvo em potencial desse tipo de

perfil. Por ser considerado o time brasileiro de maior torcida este fato

aliado à preferência desta equipe pela mídia — que é alegada pelos

torcedores rivais — gera em grande parte dos torcedores de outros times

uma rivalidade natural.

Há de se avaliar também que o time possui três rivais que o

consideram como principal adversário: Vasco, Fluminense e Botafogo.

Página de Noticias

As páginas33 de notícias são fontes de informações que possuem

respaldo da sociedade em termos de credibilidade. Estas podem ser de

33 A palavra “página” quando utilizada se refere à “página de perfil de um usúario no Twitter”.

54

caráter geral (tratar tanto de futebol quanto de economia e política) ou

então de caráter esportivo.

Os desdobramentos dessa classe dizem respeito à especialização

das notícias em um time, podendo ser também páginas de fã clubes de

jogadores ou também de torcidas organizadas.

3.5.1. Procedimento de Inspeção das Páginas

O processo de inspeção das páginas é realizado com objetivo de

validar os resultados.

As páginas do Twitter referentes ao conjunto amostral, composto

por 1004 usuários, são insumos do processo de inspeção. Sendo assim,

cada uma dessas páginas é avaliada e um rótulo a elas é atribuído dentre

as opções:

Página Inexistente ou Não Conforme;

Página de Notícias Esportivas ou Genéricas;

Página de Notícias a Respeito do Flamengo;

Página de Notícias a Respeito de Outro Time;

Torcedor de Outro Time;

Pessoa Cujo Time de Torcida é Indefinido;

Torcedor do Flamengo;

Fã do Flamengo;

Fanático pelo Flamengo.

A inspeção não considera nenhum dos itens passíveis de ser

identificado pelas pesquisas, isso para evitar algum tipo de tendência.

O processo de inspeção pode ser apresentado em linhas gerais de

acordo com os tipos de entidades envolvidas, no caso da determinação de

fontes jornalísticas tal procedimento é bastante simples.

55

Verificação de páginas de cunho jornalístico

1. Verifica-se se o nome da página não é um nome próprio, isto é, faz

referência a alguma organização.

2. Verifica-se a presença de símbolos ou declarações que evidenciem a

afiliação a algum time.

O passo 1, se confirmado denota que a página é de caráter

jornalístico. Caso o passo 2 seja refutado, define-se que a página é

considerada neutra, se confirmado e o time relacionado é o Flamengo,

define-se que tal página é uma “Página de notícias do Flamengo”. Se a

página for voltada para outro time, tal página é considerada uma “Página

de Notícias a Respeito de Outro Time”.

O procedimento de identificação do usuário como afiliado ao

Flamengo ou torcedor de outra equipe possui a capacidade de indicar

também o nível de fanatismo — no caso de se tratar de um torcedor

afiliado ao Flamengo.

Identificação do time de afiliação

1. São inspecionadas: as imagens componentes do perfil, o nome de

fantasia do usuário e também o texto de autodescrição do usuário a fim

de encontrar indícios acerca do time de torcida.

2. Caso o time de torcida não seja evidenciado no passo anterior são

observados se os vídeos e figuras postadas pelos usuários fazem algum

tipo de referência a algum time.

3. Persistindo a indefinição, verifica-se se dentre as pessoas, as quais o

torcedor segue, existem algumas que são facilmente relatadas a algum

time.

4. Finalmente são observadas as últimas postagens — datadas do mês

de maio de 2013 — publicadas por eles, em busca de indicativos de

torcida.

56

Caso nenhum dos quesitos seja observado, taxa-se o usuário como

“Pessoa Cujo Time de Torcida é Indefinido” ou simplesmente “Não

Identificado”.

Como mencionado, o processo de determinação do grau de

fanatismo atribuído ao usuário afiliado ao Flamengo segue o mesmo

procedimento de identificação do time de torcida. A diferença está

basicamente na quantidade de indícios que reafirmem a identificação com

o clube.

A identificação do Fanático é imediata, os indícios do passo 1 já são

suficientes para identificá-lo. O estereótipo é constituído pelos usuários

que: possuem imagens simbólicas referentes ao time, colocam como foto

de perfil alguma em que esteja trajado com camisa do clube, seu nome de

fantasia possui algum termo que referencie ao Flamengo e, finalmente, a

sua autodescrição faz referência à paixão pelo clube.

Os Fãs costumam ter alguns dos indícios apresentados pelos

fanáticos, aliado a eles, espera-se que o fã tenha em sua coleção de

vídeos publicados, alguns que referenciem o Flamengo.

O Torcedor comum do Flamengo se atém a se apresentar como tal

em sua descrição, ou então postar alguns vídeos sobre a equipe. Há casos

em que a torcida pelo time só é constatada no passo 3 ou então no passo

4 de identificação de afiliação.

Tratamento de casos excepcionais

Páginas que desrespeitam as regras do Twitter são passíveis de

serem suspensas pelo site. Os usuários, também, podem optar por

excluírem a conta ou então apagar todo o conteúdo postado no passado.

Páginas com tais características, caso alvos de inspeção, são consideradas

inexistentes, fazendo com que sejam removidas da análise.

Seguindo os preceitos colocados por Benevenuto et al. (2010) foi-se

possível a identificação manual de usuários considerados Spammers.

57

Foram observadas nessas páginas, onde deveriam estar suas descrições,

propagandas34 típicas de spammers. Tal perfil indesejado é corroborado

pelo fato de todas as postagens conterem URLs (Uniform Resource

Locators) que versavam sobre temas aleatórios (alguns sobre futebol).

Retirando o conjunto de páginas consideradas como não conformes

— que contabilizam 23% do total avaliado —, as 777 páginas restantes

são rotuladas e assim utilizadas como dados de validação do trabalho. A

Figura 5 mostra a distribuição das classes atribuídas às páginas avaliadas.

Figura 5 - Distribuição das páginas válidas, obtidas pela inspeção.

O processo de inspeção, apesar de parecer simples, é dotado de

muitos detalhes que se negligenciados ou superdimensionados poderiam

comprometer a qualidade final de todo o trabalho.

Há casos em que usuários torcem para mais de um time. Alguns

deles nutrem admiração declarada por times internacionais, mesmo

torcendo por times nacionais. O mesmo caso costuma ocorrer com

torcedores de localidades distantes da região Sudeste (onde se encontram

a maioria das equipes que disputam a Série A do Campeonato Brasileiro).

34 São os casos de anúncios chamativos do tipo: “Enriqueça sem sair de casa”.

3% 4%

9%

12%

15%

16%

19%

22%

Página de Notícias do Flamengo

Página de Notícias de Outros Times

Página de Notícias

Não Identificado

Fanático pelo Flamengo

Fã do Flamengo

Torcedor de Outro Time

Torcedor do Flamengo

58

Estes costumam torcer por times da região e também para outro time de

expressão nacional, como o Flamengo.

A tentativa de dimensionar essas duas facetas da torcida é um

grande desafio, o avaliador desavisado poderia interpretar as cores do

time internacional ou regional como sendo de um rival e assim rotular

erroneamente a página.

Outro fato observado são pessoas que adotam uma maneira

jornalística de reportarem os fatos. Estes usuários geralmente se

descrevem como produtores de conteúdos para veículos midiáticos ou

jornalistas autônomos. Tal grupo foi classificado por (CHOUDHURY et al,

2012) como sendo um perfil intermediário entre páginas de notícias e

usuários comuns. Como esta classe não está prevista no trabalho, são

avaliados caso a caso para definir a classe de destino.

Muitas das classificações errôneas se potencializam em casos de

detalhes que exigem um maior nível de atenção. Os vídeos e fotos

postados devem ser avaliados sob a ótica do teor da menção, se é

positiva ou negativa. O mesmo crivo serve para a análise das páginas

seguidas pelos usuários.

A análise criteriosa desses detalhes, em contrapartida, pode se

tornar uma tarefa morosa, principalmente no que diz respeito aos passos

derradeiros da identificação de afiliação (Em que se tem que analisar um

grande volume de informações).

Contribuições voluntárias, que analisem todo o conjunto de dados,

muito provavelmente trariam avaliações errôneas ao longo do tempo —

devido à morosidade do processo de inspeção.

Além disso, a divisão das páginas para inspeção de um conjunto de

voluntários perderia a correlação necessária à graduação dos perfis

quanto ao nível de fanatismo.

Finalmente, seria muito difícil descrever todas as exceções expostas

na forma de regras, e ainda ter a esperança de que os voluntários as

assimilem da maneira correta e as sigam à risca.

59

Dessa forma, a despeito do que é usual em Validação de dados35, o

responsável para a tarefa de definição de rótulos para as páginas foi o

próprio pesquisador.

Afasta-se o argumento de contaminação dos resultados da

inspeção, pela alegação de conhecimento prévio dos dados de entrada,

uma vez que como mencionado: “nenhum dos critérios avaliados na

inspeção são alvos das pesquisas que fundamentam o trabalho”. É

interessante reafirmar que as mensagens avaliadas no passo 4 da

identificação da afiliação são datadas de, no mínimo, cinco meses após a

coleta dos dados.

35 É comum, para a atribuição de rótulos aos objetos de estudo, a análise de especialistas ou voluntários.

60

4. Resultados

A apresentação dos resultados obtidos no trabalho se encontra

dividida em duas partes. Na seção 4.1 são apresentados os resultados

obtidos na forma de métricas indicativas de qualidade. Na seção 4.2 são

discutidos os conceitos por detrás dos resultados das caracterizações e

suas possíveis causas.

Na seção 3.5.1, foi apontado que dentre as páginas indicadas pela

amostra, algumas são impróprias para o uso no trabalho — por se

tratarem de contas excluídas, suspensas e até veículos de propagandas

maliciosas (spams) — sendo então removidas do conjunto de páginas

analisadas.

Os perfis restantes, previstos em 3.5 e identificados em 3.5.1,

estão representados na forma de um diagrama na Figura 6 – Diagrama de

Identificação de Perfis de Usuários. Tal diagrama mostra uma

configuração semântica a eles atribuída. Esta objetiva explicitar diferenças

e semelhanças entre as classes, com o intuito de elucidar possíveis formas

de classificação.

Figura 6 – Diagrama de Identificação de Perfis de Usuários

61

O diagrama pode ser entendido observando-se os eixos (linhas

pontilhadas) que o compõem. As classes que se encontram abaixo do eixo

horizontal se referem a páginas institucionais de caráter noticioso, já as

que se encontram sobre e acima do mesmo representam páginas

pessoais.

O eixo meridional separa as classes de acordo com a polarização em

termos do time de afiliação. Sobre o eixo central, estão as entidades

inferidas como sendo neutras, do lado esquerdo se encontra a classe dos

torcedores de times rivais. Por fim, à direita do eixo central, se encontram

as entidades diretamente ligadas ao Flamengo. Neste caso, o nível de

fanatismo atribuído a cada entidade é evidenciado pela intensidade dos

tons que recobrem os círculos que representam as classes.

As entidades que se conectam através de linhas sólidas fazem parte

de uma mesma superclasse. A superclasse “Fontes Jornalísticas” engloba

todos os tipos de páginas de cunho noticioso, já a superclasse “Afiliados

ao Flamengo” abarca todos os tipos de pessoas que mantém algum tipo

de afinidade perceptível em relação ao Flamengo.

4.1. Resultados Quantitativos

Esta seção apresenta os diversos ensaios realizados para

identificação de perfis. Visando a melhoria na qualidade dos resultados,

algumas decisões de projeto foram tomadas.

Os testes realizados se diferenciam de acordo com o escopo de

análise. A proposta inicial do trabalho é realizar a “Caracterização Global”

dos perfis. Neste caso, os usuários são identificados diretamente de

acordo com as classes apresentadas na Figura 6.

O mecanismo de classificação que será utilizado neste trabalho é a

Classificação via Árvores de Decisão, enunciado em 2.1.2. A decisão do

uso deste método, em específico, remonta à facilidade de extração de

conhecimento acerca da natureza do problema.

62

Tal método de classificação se processa sem a necessidade de

informações prévias — que muitas vezes são inexistentes ou se revelam

como sendo sofismas. Além disso, tal classificador é capaz de lidar com

dados multidimensionais, como se apresentam os resultados das

pesquisas realizadas.

Com objetivo de checar de uma maneira confiável a qualidade dos

resultados obtidos, utilizou-se a validação cruzada do tipo “K-fold Cross

Validation”. Foi utilizada a configuração que prevê a separação dos dados

em 10 partições. Em cada partição, 90% dos dados (escolhidos

aleatoriamente) servem de treinamento para o algoritmo de classificação

e o restante como validação do resultado.

Métricas tradicionais em reconhecimento de padrões são

empregadas para indicar a qualidade atribuída ao processo de

classificação. A precisão determina a porcentagem de acertos do

mecanismo de classificação, sua fórmula é dada por:

,

em que “Vp” é o número de verdadeiros positivos e “Fp” o número de

falsos positivos.

Outra métrica utilizada é a revocação, esta função objetiva

determinar o percentual de itens rotulados, dentre o montante com o

mesmo rótulo, que o mecanismo foi capaz de rotular corretamente. Sua

fórmula é dada por:

,

sendo “Fn” o número de falsos negativos.

Devido à natureza aleatória do processo de validação cruzada, todos

os procedimentos realizados são repetidos 50 vezes. São apresentados

então os valores médios e dos desvios padrões referentes aos valores

empíricos encontrados como resultados das métricas.

63

Os insumos do mecanismo de classificação são os resultados das

pesquisas enunciadas em 3.4 e listadas no Anexo A. Estes refletem

características dos usuários. Dessa forma, a entrada do algoritmo de

classificação se apresenta na forma de uma matriz numérica (777 x 36).

Os dados de saída são uma matriz (777 x 1) contendo os rótulos

(em formato de uma cadeia de caracteres) atribuídos às páginas através

do processo de inspeção enunciado em 3.5.1.

Como apontado anteriormente, a “Caracterização Global” é o ponto

de partida da análise. Todavia a aplicação direta desse procedimento

gerou resultados dotados de pouca qualidade. Estes podem ser verificados

na Tabela 4 - Resultados da em termos de precisão e revocação,

avaliados para cada classe.

Tabela 4 - Resultados da caracterização global aplicada diretamente ao conjunto de

classes.

Entidade Revocação Precisão

Página de Notícias 0,44 ± 0,05 0,54 ± 0,08

Página de Notícias de outros times 0,36 ± 0,04 0,40 ± 0,05

Página de Notícias do Flamengo 0,36 ± 0,06 0,40 ± 0,05

Torcedor de outro time 0,51 ± 0,03 0,47 ± 0,02

Não Identificado 0,21 ± 0,03 0,22 ± 0,03

Torcedor do Flamengo 0,35 ± 0,04 0,36 ± 0,04

Fã do Flamengo 0,32 ± 0,04 0,30 ± 0,04

Fanático pelo Flamengo 0,37 ± 0,04 0,37 ± 0,04

Como apresentado em 2.1.2, as árvores de decisão podem se

utilizar do processo de poda como artifício capaz de aumentar a qualidade

dos resultados — por minimizar o caso conhecido como Overfitting.

64

A poda nesse estágio, no entanto, é contraindicada, pois se verificou

experimentalmente neste teste que ela produz classes inalcançáveis —

nenhum caminho entre os ramos é capaz de chegar até elas. Assim, esse

artifício só será levado em consideração em testes futuros.

Tabela 5 – Comparação da caracterização global inicial com a rotulação aleatória

Procedimento de Classificação Precisão média

Rotulado Aleatoriamente 0,20 ± 0,02

Rotulado via Inspeção 0,37 ± 0,02

A despeito dos resultados imprecisos a Tabela 5 – Comparação

mostra que o teste inicial realizado proporciona um ganho de 85% na

precisão comparando-se à rotulação aleatória dos dados.

Este procedimento consiste na permutação dos rótulos de saída a

fim de desconectá-los de suas entradas correspondentes. A comparação

realizada tem como objetivo estabelecer um ponto de comparação que

possibilite inferências acerca da qualidade da classificação. Este tipo de

comparação será repetido constantemente nos testes subsequentes.

A comparação sugere que realmente existe um padrão que rege os

perfis identificados, mesmo que esse se apresente de forma pouco clara.

Para enfrentar o problema da baixa relevância dos resultados é

necessário que sejam feitas algumas modificações. Como observado na

Figura 5, o número de itens nas classes referentes às paginas de notícias

do Flamengo ou de outros times é baixo, 7% do total.

A manutenção de tais classes, da forma com que se apresentam,

gera uma discrepância elevada entre o número de itens das classes. A

essa circunstância é dado o nome de desbalanceamento e será tratada

com mais detalhes posteriormente.

Tal situação é indesejada, principalmente na aplicação da poda, pois

potencializa o caso de classes inalcançáveis, fato que foi observado nos

teste da caracterização global quando aplicado o processo de poda.

65

A fim de reduzir possíveis problemas encontrados, duas atitudes são

passíveis de serem tomadas. A primeira delas seria aproveitar o fato de

que as classes são derivadas da superclasse “Fontes Jornalísticas” e

englobá-las à classe “Páginas de Notícias”. A segunda seria simplesmente

excluí-las das análises seguintes. A decisão pode ser tomada baseada nos

resultados da caracterização dos membros da superclasse supracitada.

Tabela 6 - Comparação da caracterização dos membros da superclasse “Fontes

Jornalísticas” com a rotulação aleatória.

Procedimento de Classificação Precisão média

Rotulado Aleatoriamente 0,41 ± 0,05

Rotulado via Inspeção 0,73 ± 0,02

Haja vista a discrepância entre os resultados — a classificação via

inspeção é 78% mais precisa que o caso randômico — não é possível

negligenciar as diferenças entre as classes.

Sendo assim, as classes apontadas como minoritárias serão

simplesmente removidas da análise global. A despeito dessa decisão, não

se espera um incremento visível na qualidade dos resultados com essa

atitude, justamente pelo fato de se tratarem de uma parcela pouco

significativa da amostra.

Para obter melhores resultados são necessárias outras

simplificações, como a exclusão dos membros do Twitter que se

encontram na classe em que não identificação explícita do time de torcida

do usuário.

Os elementos da classe mencionada, que correspondem a 12% do

total de páginas, são dotados de uma incerteza inata — não se é possível

identificar, de maneira segura, perfis para esses elementos, já que não se

sabe o time de torcida de tais indivíduos.

Os índices muito baixos de precisão e revocação na identificação

(vide Tabela 4 - Resultados da caracterização global ) sustentam tal

incerteza. Dessa forma, tais indivíduos podem ser considerados como

66

“ruídos” para a classificação e, portanto a desconsideração da classe nas

análises subsequentes é justificada.

Com as remoções enunciadas obteve-se um incremento na

qualidade dos resultados por categoria, apresentados na Tabela 7 –

Resultado da caracterização global, por categoria, após eliminações. A

precisão e a revocação médios aumentaram 16% e 27% respectivamente.

Tabela 7 – Resultado da caracterização global, por categoria, após eliminações.

Entidade Revocação Precisão

Página de Notícias 0,52 ± 0,03 0,59 ± 0,03

Torcedor de outro time 0,63 ± 0,03 0,62 ± 0,01

Torcedor do Flamengo 0,44 ± 0,02 0,42 ± 0,02

Fã do Flamengo 0,35 ± 0,02 0,34 ± 0,02

Fanático pelo Flamengo 0,40 ± 0,05 0,41 ± 0,04

Delimitadas as classes em que a análise se centrará, porém sem

ainda alcançar ainda resultados satisfatórios, fazem-se necessárias

modificações na abordagem.

Neste ponto, pretende-se atacar o estado de desequilíbrio

populacional entre as classes. Para isso, se utiliza de uma estratégia

conhecida em Mineração de Dados como balanceamento de classes.

Prati (2003) aponta que muitos métodos foram propostos na

literatura com este fim. Neste trabalho utiliza-se o método Under-

sampling de balanceamento.

O método enunciado se inicia na criação de um conjunto vazio.

Todos os “N” itens da classe minoritária (que contém o menor número de

itens) são incluídos no conjunto. Posteriormente, são colocados no

conjunto um subconjunto de “N” itens, escolhidos aleatoriamente, das

demais classes.

67

A aplicação desse procedimento no âmbito da “Caracterização

Global” não surtiu melhora significativa nos resultados. Portanto,

resolveu-se abandonar esse tipo de caracterização e adotar uma nova

estratégia, baseada em análises parciais para identificações de perfis.

Desse modo, são abandonados também os descartes apresentados

anteriormente. As novas análises se debruçam em recortes de classes

seguindo as considerações semânticas das classes encontradas, que são

elucidadas pelo diagrama da Figura 6.

Os testes de identificação a serem apresentados objetivam:

Diferenciar páginas de notícias de usuários comuns;

Diferenciar tipos das páginas de notícias;

Diferenciar detratores de afiliados;

Diferenciar graus de fanatismo entre afiliados ao Flamengo.

Como nos testes subsequentes são utilizadas classes balanceadas, o

comparativo com a rotulação randômica é de fácil identificação. Espera-se

que os valores de precisão e evocação, no caso randômico, convirjam para

1/M em que “M” é o número de classes rotuláveis.

A apresentação dos resultados dos testes seguintes, como previsto,

contemplará o emprego do mecanismo de poda da árvore. As colunas

contendo o símbolo “SP” contêm os resultados obtidos sem uso do recurso

de poda. O símbolo “CP”, no entanto, indica que tal recurso foi utilizado.

Tendo em vista que o processo de poda pode ser realizado em

diversos níveis de profundidade, apresenta-se em cada caso a

configuração que apontou resultados mais relevantes. A profundidade da

poda pode ser entendida da seguinte maneira: quanto mais profunda a

poda, menos nós se mantêm presentes na árvore, os que se mantém são

aqueles dotados de maior capacidade de discriminação.

68

Teste 1: Diferenciação entre páginas de notícias e usuários

comuns.

O primeiro teste da nova abordagem diz respeito à diferenciação do

tipo de autor da página. Este permite a separação do conjunto contendo

todas as classes válidas em dois grupos. Como o número de páginas

referentes a usuários comuns é aproximadamente cinco vezes maior que o

número de itens do outro grupo, o balanceamento é fortemente indicado.

Tabela 8 - Identificação dos tipos de páginas retratadas

Entidade Revocação SP Precisão

SP

Revocação

CP

Precisão

CP

Página de

Notícias 0,77± 0,03 0,76 ± 0,03 0,80 ± 0,03 0,80 ± 0,03

Página Pessoal 0,76± 0,04 0,76 ± 0,02 0,80± 0,02 0,80 ± 0,02

Os resultados obtidos no teste estão apresentados na Tabela 8. Os

melhores indicativos de qualidade foram encontrados realizando-se a poda

até o antepenúltimo nível de profundidade. Tal atitude fez com que a

qualidade geral — medida que considera o incremento médio nos índices

de precisão e revocação — aumentasse em torno de 5%.

Esse procedimento culminou em uma qualidade 60% maior que a

rotulação aleatória, além disso, as classes são dotadas de índices

aproximadamente semelhantes em ambas as situações. Dessa forma diz-

se que a classificação é dotada de acurácia, termo que indica que o

classificador é efetivo em seu propósito.

Teste 2: Diferenciação do tipo das páginas de notícias.

Tal tarefa foi previamente enunciada na abordagem da

caracterização geral, porém naquela análise não se aplicou o

balanceamento. Os resultados obtidos estão colocados na Tabela 9. O

procedimento de poda — realizado até o penúltimo nível de profundidade

— aumentou em 7% os valores dos indicadores de qualidade.

69

Tabela 9 - Caracterização dos membros superclasse “Fontes Jornalísticas”

Entidade Revocação

SP Precisão SP

Revocação

CP

Precisão

CP

Página de

Notícias

Genéricas

0,61± 0,10 0,62 ± 0,09 0,67 ± 0,09 0,73 ± 0,11

Página de

Notícias do

Flamengo

0,87± 0,08 0,91 ± 0,05 0,95 ± 0,02 0,93 ± 0,04

Página de

Notícias de

outros times

0,73± 0,09 0,70 ± 0,07 0,76± 0,12 0,74 ± 0,09

A classificação indica uma grande acurácia na classificação das

“Páginas de Notícias do Flamengo”, isso denota que tal entidade é mais

facilmente reconhecida pelo mecanismo de classificação.

Os baixos valores de desvios atribuídos às métricas indicativas de

qualidade, em detrimento aos mesmos das demais classes, se devem ao

fato de que a classe citada é a minoritária.

É interessante observar que a qualidade dos resultados na

identificação de páginas de times rivais é bastante inferior àquela

observada na classe minoritária. Isso é devido ao fato de tal classe ser de

natureza heterogênea, uma vez que é composta por páginas de diversos

times de futebol. A forma de referenciar ao Flamengo possivelmente se

diferencia em termos da rivalidade entre as partes.

Teste 3: Diferenciação entre detratores e afiliados ao

Flamengo.

Nesta análise são consideradas apenas as páginas pessoais, em que

há uma afiliação explícita a algum time de futebol Brasileiro.

70

Os resultados obtidos estão expostos na Tabela 10, estes são

dotados de qualidade considerável, os índices são superiores em mais de

60% do que àqueles atribuíveis à rotulação aleatória. Além disso, com o

processo de poda até o antepenúltimo nível de profundidade experimenta-

se um ganho adicional de 4% nos valores dos indicadores de qualidade.

Tabela 10 - Identificação do time ao qual o usuário é afiliado.


SP Precisão SP

Revocação

CP

Precisão

CP

Afiliados ao

Flamengo 0,81± 0,03 0,81 ± 0,02 0,84 ± 0,04 0,84 ± 0,02

Torcedores de

outros times 0,80± 0,03 0,81 ± 0,03 0,84± 0,02 0,84 ± 0,03

Teste 4: Determinação de graus de fanatismo entre afiliados

ao Flamengo.

Naturalmente, este teste só se aplica aos afiliados ao Flamengo.

Esta análise evidencia a multivariedade atribuída às formas

comportamentais dos indivíduos selecionados nesta análise.

Pelo fato do fanatismo ser abordado como uma graduação dotada de

níveis utilizou-se de uma Árvore de Regressão para esse teste. O emprego

do mecanismo de regressão remonta à necessidade de reforçar a

discrepância entre torcedores e fanáticos.

Tal mecanismo, como exposto em 2.1.2, requer que os “rótulos”

sejam transformados em números reais. Para isso, os valores numéricos

atribuídos às classes foram: “1” para os “Torcedores”, “2” para os “Fãs” e

“3” para os “Fanáticos”. Os resultados obtidos pelo teste estão expostos

na Tabela 11.

71

Tabela 11 - Determinação do nível de fanatismo dos usuários.


SP

Precisão

SP

Revocação

CP

Precisão

CP

Torcedor do

Flamengo 0,47± 0,04 0,49 ± 0,04 0,44 ± 0,09 0,62 ± 0,09

Fã do Flamengo 0,40± 0,05 0,35 ± 0,03 0,57 ± 0,11 0,37 ± 0,03

Fanático pelo

Flamengo 0,43± 0,03 0,46 ± 0,04 0,42± 0,09 0,57 ± 0,06

Como se pode perceber, os índices de qualidade se encontram bem

abaixo daqueles apresentados nos testes anteriores. Apesar disso com a

realização da poda, até o quarto nível da árvore, foram obtidos índices de

qualidade 50% mais elevados do que no caso aleatório.

O fato que chama a atenção nos resultados é a dificuldade em se

determinar um “Fã do Flamengo”, mesmo a revocação tendo aumentado

com o processo de poda, a precisão se mantém muito baixa.

O caráter intermediário de fanatismo, atribuído ao Fã, faz com que

seu comportamento seja mais difícil de ser delimitado. Para corroborar

essa afirmativa foi realizado outro teste, mantendo-se apenas os

torcedores e os fanáticos. A Tabela 12 apresenta os resultados obtidos

com o teste.

Tabela 12 - Diferenciação entre Torcedores e Fanáticos.


SP

Precisão

SP

Revocação

CP

Precisão

CP

Torcedores do

Flamengo 0,69± 0,03 0,68 ± 0,03 0,71± 0,05 0,83 ± 0,01

Fanáticos pelo

Flamengo 0,70± 0,03 0,68 ± 0,03 0,85± 0,01 0,75 ± 0,03

72

Os resultados revelados para a diferenciação entre afiliados, se

atendo apenas aos perfis extremos, foram notavelmente melhores do que

aqueles que foram apresentados anteriormente.

Mesmo sem a aplicação do processo de poda o ganho em qualidade

já supera ao do outro teste, haja vista que os valores dos índices são 57%

maiores que o da rotulação aleatória. Quando é realizada a poda drástica

(até o primeiro nível da árvore), observou-se um incremento nos índices

de quase 80%!

Teste Suplementar: Detecção de Fanáticos.

A identificação de torcedores dotada de alto nível de fanatismo é de

notório interesse social. Posto isso, foi realizado um teste adicional com o

objetivo de isolar torcedores fanáticos do Flamengo das demais classes.

Os dados referentes às páginas atribuídas aos usuários fanáticos

pelo flamengo — que representam a classe minoritária — foram

adicionadas em um conjunto conjuntamente com uma porção de itens

escolhidos aleatoriamente de outras classes, de forma a se manter o

balanceamento.

Os conjuntos referentes à classe majoritária (não fanático) são

modificados a cada época do processo de classificação. Os resultados

obtidos neste teste estão colocados na Tabela 13.

Tabela 13 - Identificação de Fanáticos pelo Flamengo


SP

Precisão

SP

Revocação

CP Precisão CP

Fanáticos pelo

Flamengo 0,70± 0,04 0,70 ± 0,02 0,85± 0,02 0,74 ± 0,03

Os indicativos de qualidade dos testes, sobretudo quando utilizado o

recurso de poda em seu nível drástico, mostram que a identificação é

possível, uma vez que os índices são 60% mais altos que no caso da

rotulação aleatória.

73

4.2. Resultados Qualitativos

Pretende-se reapresentar nesta seção alguns dos testes realizados

na seção 4.1. A abordagem, no entanto, remete a uma característica

especial do mecanismo de classificação, podendo ser vista como uma

análise qualitativa.

Busca-se entender mais a fundo as características que promovem a

diferenciação dos perfis. Isso é possível, uma vez que como apresentado

na seção 2.1.2 a árvore de decisão prioriza os critérios que possuem

maior capacidade de diferenciação de classes.

A investigação acerca dos motivos que levaram a esses critérios

serem dotados dessa capacidade é o principal interesse desta análise.

O procedimento de resgate dessas informações é bastante simples.

É definido o tipo de investigação (como a determinação de graus de

fanatismo) que se queira abordar e com isso as classes que serão

utilizadas, aplica-se uma vez a classificação por árvores de indução (ou

regressão, se for o caso) ao montante de dados de entrada e saída.

Essa configuração permite que se tenha a árvore em sua forma

completa. A partir desse cenário, utiliza-se o processo de poda até se

chegar a uma árvore concisa e dotada de todas as classes previstas pelos

testes.

Neste ponto são apresentados os critérios de maior poder de

descriminação, revertendo-se o processo de poda, os critérios

subsequentes — dotados de um poder menos acentuado de diferenciação

entre classes — são revelados.

Por serem capazes de caracterizar totalmente os perfis de interesse,

a análise incidirá sobre os quatros testes destacados na seção 4.1.

Diferenciando páginas de notícias de usuários comuns

O Twitter tem sido utilizado, de forma crescente, como meio de

propagação de informação por fontes jornalísticas. Para a diferenciação

entre páginas de caráter noticioso e páginas de usuários comuns

74

Choudhury et al. (2012) utilizou-se de informações extraídas tanto do

perfil do usuário quanto das mensagens por eles postadas.

É interessante observar como essa caracterização se revela em

termos da cobertura futebolística no Brasil, uma vez que o esporte

retratado é de grande apelo e importância no âmbito nacional, são

esperadas diferenças (em relação ao trabalho destacado) quanto à

manifestação das instituições que tratam sobre o futebol Brasileiro no

Twitter.

Utilizando-se de algumas das ideias propostas pelo trabalho

supracitado e também de observações quanto à forma dos torcedores se

expressarem a respeito de seus times, foram selecionadas pesquisas

focadas nessa distinção.

A identificação gerou uma árvore aos moldes da Figura 7, onde os

critérios são os nós condicionantes constituídos por um número que se

refere a uma pesquisa específica. Os quatro critérios mais importantes

para a distinção tratada se mantém na árvore. Os demais foram

descartados pelo processo de poda, no entanto estes podem ser

identificados a partir do esboço da árvore completa.

Figura 7 - Apresentação da árvore binária de decisão para a diferenciação entre

pessoas e entidades jornalísticas.

75

Constatou-se que o critério de maior poder de separação foi o que

se relaciona à polidez atribuída ao usuário do Twitter — Índice obtido

através de uma média ponderada entre o percentual de ocorrência de

termos de baixo calão e palavras grafadas em caixa alta nas mensagens.

Usuários comuns tendem a se expressar de maneira mais visceral e,

portanto menos polida. Fontes jornalísticas tendem a manter uma maior

polidez ao se reportarem nos meio de comunicação.

O segundo critério mais importante é o que se refere ao caráter

informativo da mensagem. Esta condição é evidenciada a partir da

presença de URLs no corpo da mensagem, bem como o uso de Hashtags.

Como explicado em 1.3, tais partículas têm como objetivo marcar, e assim

destacar, o assunto das mensagens.

Páginas de notícias tendem a atrair mais seguidores do que

propriamente seguirem outras páginas, tal característica é evidenciada

como terceiro quesito de importância para a separação proposta.

As definições posteriores, obtidas através da observação dos

atributos de separação menos prioritários, permitem a conclusão de que:

os usuários comuns tendem a comentar sobre os rivais regionais mais

frequentemente; as fontes jornalísticas tendem a manter uma frequência

de postagens ao longo do dia mais acentuada; finalmente, estas se

conectam a um maior número de pessoas.

Diferenciando tipos das páginas de notícias

As páginas de notícias a respeito do Flamengo são facilmente

identificadas — a se julgar pelos altíssimos índices obtidos nesta

caracterização, previamente apresentados — pelo percentual das

mensagens postadas que fazem referência ao time.

As fontes jornalísticas referentes a outros times são identificadas

pela flutuação do número de postagens ao longo do campeonato. As

demais páginas de notícias postam com certa frequência ao longo do

torneio e são dotadas de maior polidez no teor de suas mensagens.

76

Descobriu-se na identificação das entidades jornalísticas que as

páginas de notícias referentes a outros times postam mensagens sobre o

Flamengo independentemente da posição em que este se encontra na

classificação do Campeonato. Fato ao qual não se atribui uma justificativa

imediata, reforçando a importância do fato do mecanismo utilizado não

requerer informações prévias, as quais possivelmente não contabilizariam

esse comportamento.

Diferenciando detratores de afiliados

Esta análise visa salientar os atributos que possibilitam diferenciar

os usuários que torcem pelo Flamengo dos torcedores dos demais times.

O critério dotado de maior poder de diferenciação de tais entidades é o

percentual de citação de outros times no corpo das mensagens. Os

afiliados ao Flamengo possuem este índice mais elevado que os demais.

Tal descoberta foi recebida como uma surpresa. Afirmações

categóricas sobre o achado não são seguras, porém, com o intuito de

tentar elucidá-lo, deve-se dirigir a análise para o envolvimento do

torcedor com o time.

Os afiliados possuem um envolvimento com assuntos relacionados

ao time, simulando resultados de confrontos, avaliando possibilidades de

contratações de jogadores de outros times, entre outras atitudes que

culminam na citação de termos relacionados a outras equipes.

Os torcedores de times rivais, em contrapartida, não chegam a esse

nível de detalhamento. Seus comportamentos se atêm à disseminação de

mensagens que fazem referência ao flamengo com teor provocativo e

muitas vezes através de comentários humorísticos. Tal faceta é

diagnosticada por Dutra e Silva (2012) como forma popular de expressão

da rivalidade em redes sociais.

Como apontado em 3.5, o Flamengo é um alvo preferencial de

torcedores rivais, fato confirmado pelo alto número de torcedores de

times rivais identificados na inspeção.

77

O segundo critério de mais importância é o percentual de

mensagens que fazem referência ao Flamengo ao longo do intervalo de

tempo avaliado. Como se é de prever, os afiliados ao time possuem tal

valor mais elevado que os demais.

Verifica-se, através da análise dos critérios subsequentes, que os

torcedores do Flamengo postam mais fora das rodadas que os torcedores

de outros times — corroborando o aspecto referente ao envolvimento com

o time. Além disso, observa-se que a dispersão de mensagens na

decorrência do campeonato é menor entre os Flamenguistas.

Diferenciando graus de fanatismo

O principal objetivo do trabalho é promover a segmentação dos

usuários que demonstram afiliação ao Flamengo, apresentado-a em uma

escala compostas por graus de fanatismo. Tal caracterização foi realizada

na Seção 4.1 utilizando-se de uma árvore de regressão.

O objetivo nesta fase do trabalho é finalmente responder à pergunta

“Quais comportamentos definem o grau de fanatismo do indivíduo?”. As

respostas são obtidas através do procedimento de análise apresentado

nesta seção. Estas serão confrontadas tanto com a revisão bibliográfica

realizada na seção 2.3, quanto com um questionário criado.

O questionário desenvolvido tem como objetivo descobrir quais

características comportamentais a sociedade (representada pela amostra

de participantes do questionário) atribui a um torcedor fanático.

A construção do questionário é baseada em escalas de fanatismo

(WACHELKE, DE ANDRADE, et al., 2008) e conceituações sobre o tema na

literatura. A escolha criteriosa de perguntas permite abrager os conceitos

tratados tanto na inspeção das páginas quanto na extração de

características por meio das pesquisas enunciadas.

Sua realização tem início no dia 01/05/2013 e término em

05/06/2013, foram coletadas 163 respostas. O formulário apresentado se

encontra descrito no Anexo B.

78

Como o resultado esperado de cada pesquisa é sempre superior a

dois — uma vez que sua fundamentação é baseada em critérios que

identificam alto envolvimento com o time, segundo a literatura revisada —

as respostas com média inferior a este valor são descartadas, uma vez

que nestes casos a possibilidade do questionado ter feito interpretações

discordantes com o enunciado é maior.

Os resultados dos valores médios atribuídos e desvios padrões de

acordo com cada conceito comportamental estão expostos na Figura 8 –

Resultados obtidos através do questionário sobre comportamento

fanático.. No Anexo B, os conceitos enunciados são apresentadas de uma

forma mais contextualizada.

Figura 8 – Resultados obtidos através do questionário sobre comportamento fanático.

Apresentado o questionário desenvolvido, retorna-se a atenção à

caracterização de usuários quanto ao grau de fanatismo. O principal

conceito relacionado à separação entre os tipos de torcedores é o que se

chama de Obsessão.

Segundo Wachelke et al. (2008), o comportamento obsessivo, no

contexto do futebol, é definido como aquele em que o torcedor possui o

futebol — nesse caso mais precisamente seu time de torcida — como seu

principal assunto.

0 0,5 1 1,5 2 2,5 3 3,5

Apoio incondicional

Dedicação como expectador

Acompanhamento do time

Interação com torcedores de seu time

O Time como parte de sua identidade

Colecionar tudo que se refere ao time

Atenção exclusiva na hora da partida

Comparecimento

Rivalidade

Mudança de comportamento

Obsessão

Valor Médio Desvio Padrão

79

Indícios de obsessão podem ser obtidos através de pesquisas

referentes ao número de mensagens relacionadas ao time no intervalo de

tempo da coleta de dados. Sendo esse número expresso tanto em termos

absolutos quanto relativos.

Um baixo percentual de mensagens referentes ao Flamengo, dentre

as postagens produzidas no período de tempo avaliado, caracteriza, de

forma contundente, um torcedor comum, dotado de baixo envolvimento

com o time.

Um percentual elevado de mensagens referentes ao time,

consequentemente, dá margem à identificação de perfis mais fortemente

relatados ao time. O valor absoluto de postagens separa os ditos “Fãs” do

time dos torcedores considerados “Fanáticos”.

Um número elevado de postagens referentes ao time leva à

caracterização de torcedores fanáticos. É no mínimo intrigante notar que o

conceito “Obsessão”, presente no questionário através da pergunta

relacionada ao comportamento obsessivo: “Pensa em seu time o dia

inteiro, é seu assunto principal”, tenha tido o menor valor de importância

para os questionados.

Apesar de não se poder identificar de maneira única essa

discrepância, acredita-se que a hipérbole utilizada (“Pensa em seu time o

dia inteiro”) tenha sido interpretada literalmente, levando à descrença

acerca da existência de fanáticos que cheguem a tal comportamento

extremo.

Prosseguindo com a caracterização, os Fanáticos tendem a postar

mais durante as rodadas dos finais de semana. Este fato transgride a ideia

pré-concebida que pontua que o fanático possui acompanhamento

incondicional das partidas, porém, reafirma o fato de que os jogos dos

finais de semana fazem parte de um ritual “sagrado” para o torcedor, cujo

ponto alto é o jogo de seu time.

Fanáticos costumam seguir mais páginas do Twitter do que serem

seguidos por outros usuários. Tal característica, caso a analogia com o

80

acompanhamento de fontes de notícias padrões (jornais e revistas

esportivas) seja válida, revela um comportamento típico de fãs altamente

comprometidos (CÁCERES, 2010).

Em contrapartida, Giulianotti (2012) atribui esse comportamento

para torcedores dotados de baixo grau de fanatismo, colocando que estes

seguem — por meio de fontes de mídia eletrônica (internet) — não só o

clube, mas também os jogadores, técnicos e outras pessoas do futebol.

As linhas controversas são confrontadas com o resultado do

questionário realizado. O comportamento em pauta se relaciona com o

conceito de “Acompanhamento do time” (Quando o torcedor está sempre

por dentro do que acontece com seu time), item apontado como mais

forte identificador de fanatismo de acordo com os participantes do

questionário (vide Figura 8).

Desdobramentos adicionais apontam que os torcedores pouco

envolvidos são caracterizados por variarem significativamente o número

de postagens de acordo com os dias da semana.

A mudança de comportamento em momentos próximos às partidas

é atribuída aos torcedores fanáticos. Cáceres (2010) classifica o jogo

como uma experiência central, não obstante o dia já carregar uma grande

carga emocional.

Os Fanáticos também são responsáveis por mensagens dotadas de

pouca polidez (utilizando-se de palavras de baixo calão e grafia em caixa-

alta). Segundo Preti (1984), tais artifícios servem como forma de

compensação para as insatisfações, atuando como válvula de escape para

sua suas revoltas — ou então demonstrações de euforia.

81

5. Conclusões

O trabalho realizado cumpre o objetivo que se propõe — identificar

perfis de torcedores no Twitter — como é possível de se prever, alguns

perfis são mais facilmente detectados do que outros.

Há casos em que uma pesquisa é capaz de identificar de maneira

muito precisa uma determinada identidade. Muitas vezes essa

identificação é pautada em induções óbvias: “uma fonte jornalística

relacionada ao Flamengo posta muito sobre o time”. Entretanto, há casos

em que os critérios mais importantes não são, de forma alguma, óbvios

(como o caso da menção de times rivais para detecção de afiliação).

Existem ocasiões, nas quais os resultados, tidos como

imprescindíveis, não são verificados como tal pelo processo de

identificação. A previsão de que os detratores postam mais após derrotas

do Flamengo ou em períodos de baixo desempenho do time não se

confirmou como critério importante de caracterização.

Os casos apresentados reforçam a importância do uso do

mecanismo de classificação via árvores de decisão ou regressão, uma vez

que estas prescindem de informações prévias para a realização da

classificação.

A questão que se refere à dificuldade de detectar certos perfis recai

sobre a identificação dos “Fãs do Flamengo”. O grande problema da

identificação de torcedores dotados de um nível intermediário de

fanatismo é o fato do pressuposto que une o procedimento de

classificação e o processo de inspeção não ser sempre verdadeiro.

82

Em outras palavras, o processo de inspeção consegue desvendar um

conjunto de características do usuário:

“O Time como parte de sua identidade”: Menção de termos

referentes ao time tanto no nome-fantasia do usuário, quanto na

descrição.

“Colecionar tudo que se refere ao time”: Coletânea de fotos e vídeos

(e talvez páginas de notícias) a respeito do Flamengo.

“Obsessão”: Decorar a página do perfil com fotos que simbolizam o

clube ou fotos suas trajando o uniforme da equipe.

Em nenhuma das pesquisas realizadas os dois primeiros

comportamentos são retratados, a terceira, todavia é abordada de outra

forma (através de valores relativos e absolutos que se referem ao

Flamengo no período do Brasileirão de 2012).

O pressuposto mencionado se refere à requisição de que a

demonstração de envolvimento com o time, observado através dos

resultados das pesquisas, seja coerente com as características levantadas

na inspeção.

Tais características, curiosamente, se referem aos comportamentos

colocados como menos relevantes para identificação de um perfil fanático,

segundo o questionário apresentado em 4.2, cujos resultados se

encontram expostos na Figura 8 – Resultados obtidos através do

questionário sobre comportamento fanático..

Além disso, a literatura a respeito do fanatismo costuma divergir

bastante na definição dos níveis intermediários de fanatismo. Em suma, o

processo de inspeção pode ser considerado pouco confiável e, de certa

forma, incapaz de lidar com a variabilidade das formas de torcer do

usuário.

Dessa forma o processo de inspeção via análise das páginas do

Twitter é tido como a causa atribuível à dificuldade em se identificar o

perfil “Fã do Flamengo”.

83

Uma estratégia que possibilitaria alavancar os resultados para

identificação dos afiliados ao Flamengo seria convidar os perfis analisados

ao preenchimento do questionário criado, ou então alguma das escalas de

identificação com o time propostas por Wachelke et al. (2008).

A identificação de perfis dotados de alto grau de fanatismo, ponto

chave do trabalho, não apresenta a mesma dificuldade observada na

identificação de fãs. Isso porque indivíduos com tal perfil tendem a

convergir em uma série de comportamentos, mesmo com a alteração do

objeto de adoração (THORNE e BRUNER, 2006).

Em estudos futuros, a pesquisa realizada pode ser aplicada no

restante das equipes do campeonato, isso possibilitaria capturar

semelhanças e diferenças entre as torcidas dos times Brasileiros. A partir

daí, pode-se ter uma boa margem de confiança para responder a pergunta

emblemática: “Qual a torcida mais fanática do Brasil?”.

Nesse ponto, é importante salientar que as análises a respeito do

comportamento de torcedores no Twitter podem versar sobre temas

diferentes do “Fanatismo”. Outro tema de grande apelo, o qual se cogitou

utilizar como norte do trabalho. é a “Rivalidade entre Torcidas”.

Este tema abordado foi por Dutra e Silva (2012) sob o ponto de

vista do humor e por de Assis (2008) no contexto da violência. O

impedimento de tal escolha recai sobre o fato de que as palavras-chave —

escolhidas para mecanismo de coleta — não contemplam os termos

pejorativos, frequentemente atribuídos às torcidas rivais.

O uso de outras técnicas de Mineração de Dados é totalmente

plausível nesse contexto. Uma análise de agrupamento, por não

necessitar de rótulos prévios, possibilitaria expressar o fanatismo na

forma de um valor contínuo.

Por outro lado, a mesma análise revelaria a diversidade de formas

de manifestar a paixão pelo futebol — travestida pelo sentimento que une

o torcedor ao seu time de torcida — que é frequentemente colocada como

forma maior de expressão da identidade brasileira.

84

Referências Bibliográficas

ASSIS, T. C. F. de A Representação Social Da Violência Em

Torcidas. Universidade Católica de Goiás (Dissertação de Mestrado).

Goiânia. 2008.

BACKSTROM, L.; KLEINBERG, J.; KUMAR, R. . N. J. Spatial

Variation in Search Engine Queries. WWW 2008 / Refereed Track:

Search - Query Analysis. Beijing, China: [s.n.]. 2008. p. 357-363.

BENEVENUTO, F.; MAGNO, G. . R. T.; ALMEIDA, V. Detecting

Spammers on Twitter. Proceedings of the Annual Collaboration,

Electronic messaging, Anti-Abuse and Spam Conference (CEAS’10).

Redmond, Washington, USA: [s.n.]. 2010.

BIGONHA, C.; CARDOSO, T. N. C.; MORO, M. M.; ALMEIDA, V. A. F.;

GONÇALVES, M. A. Detecting Evangelists and Detractors on Twitter.

Proceedings of the Brazilian Symposium on Multimedia and the Web

(WebMedia), 2010. Belo Horizonte: [s.n.]. 2010.

CÁCERES, P. P. Fanatismo e Paixão: A Experiência de Consumo de

Torcedores Porto-Alegrenses de Futebol, Porto Alegre, 2010.

CAMILO, C. O.; SILVA, J. C. Mineração de Dados: Conceitos,

Tarefas, Métodos e Ferramentas. Instituto de Informática,

Universidade Federal de Goiás. Goiânia. 2009.

CHOUDHURY, M. de; DIAKOPOULOS, N.; NAAMAN, M. Unfolding

the event landscape on twitter: classification and exploration of user

categories. In Proceedings of the ACM 2012 conference on Computer

Supported Cooperative Work. Seattle,EUA: [s.n.]. 2012. p. 241–244.

COMISSÃO BRASILEIRA DE FUTEBOL. Seção de uploads do site

da Federação Pernambucana de Futebol, 2011. Disponivel em:

<http://www.fpf-pe.com.br/fpf-novo/wp-

content/uploads/2012/06/reg_a2_12.pdf>. Acesso em: 21 Outubro 2012.

85

COMISSÃO BRASILEIRA DE FUTEBOL. Campeões do Futebol. Seção

de anexos da página Campeões do Futebol, 2012. Disponivel em:

<http://www.campeoesdofutebol.com.br/anexos/regulamento_seriea_201

2.pdf>. Acesso em: 21 Outubro 2012.

COMISSÃO BRASILEIRA DE FUTEBOL. www.cbf.com.br. Tabela da

série A do campeonato brasileiro de 2012, 2012. Disponivel em:

<http://www.cbf.com.br/Competi%C3%A7%C3%B5es/S%C3%A9rie%20

A/Tabela/2012/Todos%20os%20Jogos>. Acesso em: 21 Outubro 2012.

DAVIS, C.; PAPPA, G. L.; OLIVEIRA, D. R. R.; ARCANJO, F. L.

Inferring the location of Twitter messages based on user relationship.

Transactions in GIS (Print), p. v. 15, p. 735-751, 2011.

DUTRA, D. N. M.; SILVA, S. F. da Futebol e Rivalidade no Riso e

em Rede: O Facebook Como Campo Para Antagonismo de Torcidas.

Intercom – Sociedade Brasileira de Estudos Interdisciplinares da

Comunicação XXXV Congresso Brasileiro de Ciências da Comunicação.

Fortaleza: [s.n.]. 2012.

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining

to Knowledge Discovery in Databases. AI Magazine, Providence, Rhode

Island, EUA, v. Volume 17, p. 37-54, 1996.

FERREIRA, A. B. H. Minidicionário da Língua Portuguesa. 3ª

Edição. ed. Rio de Janeiro: Nova Fronteira, 1993.

GIULIANOTTI, R. Fanáticos, Seguidores, Fãs E Flaneurs: Uma

Taxonomia de Identidades de Torcedores no Futebol. Journal of Sport &

Social Issues, Leicestershire, v. 26, n. 1, p. 25-46, Janeiro 2012.

GOMIDE, J.; VELOSO, A., MEIRA, W. JR.; BENEVENUTO, F. ;

ALMEIDA, V. ; FERRAZ, F.; TEIXEIRA, M. Dengue surveillance based

on a computational model of spatiotemporal locality of Twitter.

Proceedings of the Third International Conference on Web Science (ACM

WebSci’11). Koblenz, Alemanha: [s.n.]. 2011.

HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. 2ª

Edição. ed. San Francisco, California, EUA: Morgan Kaufmann, 2006.

86

MARQUEZ, A. C.; LIMA, F. L. M. #SpanishRevolution e o poder

do jornalismo participativo na criação de narrativas sociais no

Twitter. 1º Encontro Nacional de Jovens Pesquisadores em Jornalismo.

Rio de Janeiro, ECO- Universidade Federal do Rio de Janeiro: [s.n.].

novembro 2011.

MICK, R. Process Industry P2B Integration Strategies. ARC

Advisory Group. Dedham. 2003.

MORAES, C. H. C. de Uma Paixão Em Três Capítulos: Análise

Sócio-Histórica Do Futebol Brasileiro. Universidade Estadual de

Alagoas. Palmeira dos Índios. 2010.

PENNACCHIOTTI, M.; POPESCU, A. A machine learning approach

to twitter user classification. In Proceedings of the International

Conference on Weblogs and Social Media. [S.l.]: [s.n.]. 2011.

PRATI, R. C.; BATISTA, G. E. A. P. A.; MONARD, M. C. Uma

Experiência no Balanceamento Artificial de Conjuntos de Dados

para Aprendizado com Classes Desbalanceadas utilizando Análise

ROC. IV Workshop de Inteligência Artificial (ATAI'2003). São Paulo:

[s.n.]. 2003.

PRETI, D. A gíria e outros temas. São Paulo: EDUSP, 1984.

REBUSTINI, F.; ZANETTI, M. C.; MOIOLI, A.; MACHADO, A. A.

Análise da Repercussão do Uso do Twitter no Esporte de Alto

Desempenho. "Jogos, Redes Sociais, Mobilidade e Estruturas

Comunicacionais Urbanas", V Simpósio Nacional da ABCiber. Florianópolis:

[s.n.]. 2011.

RUSSELL, M. A. Mining the Social Web. 1ª Edição. ed. Sebastopol:

O'Reilly, 2011.

SAKAKI, T.; OKAZAKI, M.; MATSUO, Y. Earthquake Shakes

Twitter Users: Real-time Event Detection by Social Sensors. WWW '10

Proceedings of the 19th international conference on World wide web. New

York, NY, USA: [s.n.]. 2010. p. 851-860.

87

SANTOS, L. C. O. Aplicação do Processo de KDD a um

Ambiente Industrial (Dissertação de Mestrado). Universidade

Federal de Minas Gerais. Belo Horizonte. 2007.

SANTOS, W.; PAPPA, G.; MEIRA JR., W.; GUEDES, D.; VELOSO, A.;

ALMEIDA, V.; PEREIRA, A.; GUERRA, P.; SILVA, A.; MOURÃO, F.;

MAGALHÃES, T.; MACHADO, L. F.; CHERCHIGLIA, L. SIMÕES,R. BATISTA,

F. ARCANJO, G. BRUNORO, N. MARIANO, G. MAGNO, M. T. RIBEIRO,L.

TEIXEIRA.Observatório da web: Uma plataforma de monitoração,

síntese e visualização de eventos massivos em tempo real. Anais do

XXXVII Seminário Integrado de Hardware e Software, SEMISH’10. [S.l.]:

[s.n.]. 2010. p. pages 110–120.

THORNE, S.; BRUNER, G. C. An exploratory investigation of the

characteristics of consumer fanaticism. Qualitative Market Research:

An International Journal, v. 9, p. 51-72, 2006.

WACHELKE, J. F. R.; ANDRADE, A. L. de; TAVARES, L.; NEVES, J. R.

L. L. Mensuração Da Identificação Com Times De Futebol: Evidências De

Validade Fatorial E Consistência Interna De Duas Escalas. Arq. bras.

psicol. [online], Rio de Janeiro, v. 60, n. 1, p. 96-111, 2008. ISSN ISSN

1809-5267.

WALTON, D.; MACAGNO, F. CLASSIFICATION AND AMBIGUITY.

STUDIES IN LOGIC, GRAMMAR AND RHETORIC 16 (29). [S.l.]: [s.n.].

2009.

88

Anexo A: Apresentação das pesquisas de

características dos usuários

Nº Categoria Pesquisa

1 Pura de

Tempo

Comparação entre o número de postagens antes e

após o campeonato

2 Pura de

Tempo

Oscilação do número de postagens ao longo do

campeonato

3 Pura de

Tempo

Aumento/diminuição do número de postagens ao longo

do campeonato

4 Pura de

Tempo

Comparação entre o número de postagens dentro e

fora do período temporal em que ocorre o campeonato

5 Pura de Tempo

Comparação entre o número de postagens durante rodadas e entre-rodadas

6 Pura de Tempo

Comparação entre o número de postagens um dia antes e um dia depois de jogos do Flamengo

7 Pura de Tempo

Comparação entre o número de postagens somadas as postagens um dia antes e um dia depois dos jogos do

Flamengo e durante a ocorrência da partida

8 Pura de Tempo

O percentual entre o número de postagens que ocorrem durante um jogo do Flamengo e o total de

postagens

9 Pura de

Atributo

Oscilação do número de postagens de acordo com os

dias da semana

10 Pura de Atributo

Oscilação do número de postagens de acordo com o horário do dia em que ocorrem as postagens

11 Pura de

Atributo

Relação entre o número de seguidores e seguidos (da

página do usuário)

12 Pura de Atributo

Numero total de contatos do usuários (somando seguidores e seguidos)

13 Pura de Atributo

Média ponderada entre o número de ocorrências de URLs, hashtags e retweets nas mensagens

14 Pura de

Atributo

Média ponderada entre o número de ocorrências de

menções, retweets e respostas nas mensagens

89

15 Pura de Atributo

Percentual de menções ao Flamengo com relação dentre o montante de equipes citadas nas mensagens

16

Pura de Atributo

Comparação entre o total de termos íntimos e não intimos, presentes nas mensagens (alcunhas são tidas

como indício de intimidade em detrimento do nome do time ou adjetivo ao torcedor)

17

Pura de

Atributo

Número de postagens em que o Flamengo é

mencionado (corresponde ao total de mensagens coletadas)

18 Pura de Atributo

Percentual entre o número total de mensagens coletadas e o número total de postagens pelo usuário

durante o período de coleta

19

Pura de

Atributo

Percentual de menções aos outros times cariocas

(Fluminense, Vasco e Botafogo) com relação ao montante de menções a equipes

20

Geral Oscilação do número de postagens em momentos

próximos aos jogos do Flamengo de acordo com a natureza do rival (rival regional, rival nacional ou

outros times)

21

Geral Comparação entre o o número de postagens em momentos próximos aos jogos do Flamengo com rivais

regionais e com outros times

22 Geral Aumento/diminuição do número de postagens de

acordo com o número de pontos obtidos pelo Flamengo

nos últimos três jogos

23

Geral Aumento/diminuição do número de postagens de acordo com o número de pontos obtidos pelo Flamengo

nos últimos oito jogos

24 Geral Relação entre o número de postagens após jogos em

que o Flamengo é goleado e os demais jogos.

25 Geral Aumento/diminuição do número de postagens de

acordo com a posição do Flamengo na tabela de

classificação

26 Geral Oscilação do número de postagens de acordo com a

posição do Flamengo na tabela de classificação

27

Geral Relação entre o número de postagens, durante

rodadas, de acordo com o percentual de ocupação do estádio em que a partida, com mando do Flamengo,

ocorre

90

28 Geral Relação entre o número de postagens após jogos em

que o Flamengo vence e aqueles em que o time é

derrotado.

29 Geral Comparação entre o número de postagens em

momentos próximos a partidas realizadas no final de

semana e no meio da semana

30

Geral Comparação entre o número de postagens em

momentos próximos a partidas de acordo com certos horário de exibição (Quarta à noite e domingo à tarde

versus os demais horários)

31

Geral Comparação entre a média ponderada do número de ocorrência de palavras de baixo calão, grafadas em

caixa alta, com repetição de vogais e pontos de exclamação, nas mensagens em momentos próximos

da partida e o restante do campeonato

32

Geral Comparação entre a média ponderada do número de ocorrência de palavras de baixo calão e grafadas em

caixa alta nas mensagens em momentos próximos da partida e o restante do campeonato

33

Geral Média ponderada entre o número de ocorrência de

palavras de baixo calão e grafadas em caixa alta no total de mensagens


momentos próximos a partidas contra times em

posição inferior na tabela de classificação


momentos próximos a partidas contra times próximos

na tabela de classificação


momentos próximos a partidas contra times em

posição superior na tabela de classificação

91

Anexo B: Questionário sobre características de

um torcedor fanático

Termo de consentimento de participação voluntária:

A minha participação nesta pesquisa é totalmente voluntária. Se eu

optar em não participar, não haverá nenhuma consequência negativa.

Lembre-se que você poderá interromper a pesquisa em qualquer

momento.

Prosseguindo como preenchimento das respostas, eu atesto que li e

compreendi as informações acima e concordo em participar desta

pesquisa.

Explicações:

Cada questão trará consigo o conceito de análise envolvido, e

também, uma explicação na forma de frase que o ilustra. Atribua a cada

quesito um valor de importância para que caracterizar um torcedor

fanático.

Importante:

Essa pesquisa não visa questionar seu caráter de torcedor, mas sim,

saber o que você entende como sendo um torcedor fanático.

Cada uma das pesquisas listadas será respondida de acordo com

uma nota graduada entre 1 e 4, como mostradas na Figura 9 - Graduação

atribuída a cada resposta das questões..

Figura 9 - Graduação atribuída a cada resposta das questões.

As pesquisas realizadas estão listadas abaixo:

92

1. Apoio incondicional: na vitória ou na derrota, sempre está ao lado

de seu time.

2. Dedicação como expectador: não deixa de assistir nenhum jogo

de seu time, este momento pra ele é sagrado.

3. Acompanhamento do time: está sempre por dentro do que

acontece com seu time.

4. Interação com torcedores do mesmo time: gosta de interagir

com pessoas que também torcem por seu time.

5. O Time como parte de sua identidade: se ele pudesse, colocaria

o nome de seu time como seu sobrenome.

6. Colecionar tudo que se refere ao time: mantém um local onde

gosta de coletar informações e tudo que simboliza seu time.

7. Atenção exclusiva na hora da partida: no momento do jogo

esquece que o mundo existe, desliga seu celular e fica de olho

grudado na tela.

8. Comparecimento: não abre mão de ir ao estádio incentivar seu

time.

9. Rivalidade: gosta muito de zombar os principais adversários de seu

time.

10. Mudança de comportamento em momentos importantes:

quando seu time vence a alegria é tanta que quer gritar para o

mundo que ama seu time, quando perde se revolta.

11. Obsessão: pensa em seu time o dia inteiro, é seu assunto

principal.

escola de engenharia - ccnm | centro de convergência de...

Documents