pesquisa em lingüística de corpus com wordsmith tools
TRANSCRIPT
Pesquisa em Lingüística de Corpus com WordSmith Tools
Tony Berber Sardinha
2006
2
Sumário
1. Introdução.................................................................................................................. 6
1.1. Visão Geral ......................................................................................................... 6
1.2. As ferramentas e os utilitários.............................................................................. 8
1.3. Plano da obra....................................................................................................... 9
2. Ensino de língua estrangeira..................................................................................... 11
2.1. Introdução ......................................................................................................... 11
2.2. Recursos............................................................................................................ 13
2.3. Análise do texto................................................................................................. 14
2.4. Análise do corpus .............................................................................................. 17
2.5. Conjugando as duas análises.............................................................................. 19
2.6. Comentários finais............................................................................................. 21
3. Análise de Gênero .................................................................................................... 23
3.1. Introdução ......................................................................................................... 23
3.2. O gênero Código de Ética.................................................................................. 27
3.3. Recursos............................................................................................................ 29
3.4. Delimitando o enfoque ...................................................................................... 29
3.5. O que é definido no âmbito da ética................................................................... 31
3.6. O que é coibido ................................................................................................. 34
3.7. O que é geralmente valorizado........................................................................... 38
3.8. Comentários finais............................................................................................. 39
3
4. Metáfora................................................................................................................... 40
4.1. Introdução ......................................................................................................... 40
4.2. Recursos............................................................................................................ 44
4.3. Análise do corpus .............................................................................................. 44
4.4. Análise de palavras-chave do corpus.................................................................. 45
4.5. Análise de metáfora........................................................................................... 46
4.6. Comentários finais............................................................................................. 54
5. Tradução .................................................................................................................. 55
5.1. Introdução ......................................................................................................... 55
5.2. Recursos............................................................................................................ 55
5.3. Simplificação..................................................................................................... 56
5.4. Explicitação....................................................................................................... 60
5.5. Normalização .................................................................................................... 64
5.6. Comentários finais............................................................................................. 70
6. Lingüística Forense .................................................................................................. 72
6.1. Introdução ......................................................................................................... 72
6.2. Breve histórico da Lingüística Forense .............................................................. 73
6.3. Recursos............................................................................................................ 76
6.4. Autoria questionada........................................................................................... 76
6.5. Comentários finais............................................................................................. 86
7. A ferramenta Concord.............................................................................................. 87
4
7.1. Visão Geral ....................................................................................................... 87
7.2. Procedimento básico para feitura de concordâncias no Concord......................... 88
7.3. A janela Getting Started..................................................................................... 88
7.4. A janela do Concord........................................................................................ 100
7.5. Os botões da barra de ferramenta do Concord.................................................. 138
7.6. Os botões da janela da concordância................................................................ 138
8. A ferramenta WordList........................................................................................... 154
8.1. Visão Geral ..................................................................................................... 154
8.2. Tipos de lista de palavra .................................................................................. 155
8.3. Procedimento básico para feitura de lista de palavras no WordList .................. 157
8.4. A janela Getting Started................................................................................... 167
8.5. Janelas do WordList ........................................................................................ 171
8.6. Os botões da barra de ferramenta do WordList ................................................ 202
8.7. Os botões da janela de lista de palavras (.lst) ................................................... 203
A ferramenta KeyWords ............................................................................................... 210
8.8. Visão Geral ..................................................................................................... 210
8.9. Procedimentos básicos para feitura de lista de palavras-chave.......................... 213
8.10. O corpus de referência ................................................................................... 225
8.11. A janela Getting Started................................................................................. 228
8.12. A janela do KeyWords................................................................................... 229
8.13. Os botões da barra de ferramentas.................................................................. 252
5
8.14. Botões da janela de palavras-chave ................................................................ 253
8.15. Botões da janela de palavras-chave chave (‘database’)................................... 261
Os utilitários ................................................................................................................. 269
8.16. File Manager ................................................................................................. 269
8.17. Splitter........................................................................................................... 270
8.18. Text Converter............................................................................................... 275
8.19. Viewer & Aligner .......................................................................................... 286
9. Referências bibliográficas ...................................................................................... 296
10. Outras fontes de referência ................................................................................... 299
6
1. Introdução
1.1. Visão Geral
A Lingüística de Corpus é um campo que se dedica à criação e análise de corpora (plural
latim de corpus1), que conjuntos de textos e transcrições de fala armazenadas em arquivos
de computador (Berber Sardinha, 2004). A Lingüística de Corpus vem revolucionando a
maneira como se investiga a linguagem, nos seus mais diversos níveis, colocando à
disposição do analista quantidades de dados antes inacessíveis. Um dos grandes agentes
dessa revolução é a informática; sem ela, a Lingüística de Corpus contemporânea não
poderia existir. Assim, o lingüista de corpus depende de programas de computador para
lidar com corpora. Dentre os vários software que existem para auxiliar o lingüista de
corpus, um deles se destaca: WordSmith Tools.
O programa WordSmith Tools é um conjunto de programas integrados (‘suíte’) destinado
à análise lingüística2. Mais especificamente, esse software permite fazer análises baseadas
na freqüência e na co-ocorrência de palavras em corpora. Além disso, ele permite pré-
processar os arquivos do corpus (retirar partes indesejadas de cada texto, organizar o
conjunto de arquivos, inserir e remover etiquetas, etc.), antes da análise propriamente dita.
O programa foi criado em 1996 por Mike Scott, da Universidade de Liverpool, Reino
Unido. Inicialmente, era composto por programas independentes; tempos depois, os
programas foram reunidos num conjunto integrado, conhecido por ‘suíte’. Hoje, o
WordSmith Tools possui um grande número de usuários no mundo todo, inclusive no
Brasil, onde os cursos, oficinas e palestras sobre seu funcionamento se multiplicam.
Podemos afirmar que o WordSmith Tools tem sido um fator de divulgação da Lingüística
1 Adotamos aqui a forma latina corpus e seu plural corpora por estarem dicionarizadas (Houaiss). Além
dessa, existe ainda a forma córpus, que começa a ser usada em português para indicar tanto a forma singular
quanto a plural.
2 Para facilitar a referência no corpo do texto, ele será chamado de ‘programa’, muito
embora seja, como dissemos, um conjunto de programas integrados.
7
de Corpus no Brasil.
Embora já se vão dez anos desde o seu lançamento, não há ainda uma obra que registre a
variedade de pesquisa que o WordSmith Tools propicia aliada à uma explicação detalhada
de seu funcionamento. Tampouco existe um guia de usuário: o manual que acompanha o
download do programa é apenas a reprodução do menu de ajuda.
Desse modo, esta é justamente a intenção deste livro: mostrar um leque de pesquisa
possível com WordSmith Tools bem como uma explicação detalhada do funcionamento do
programa, para que o leitor possa desenvolver pesquisa nas áreas enfocadas, replicando-as
ou adaptando-as da maneira que desejar.
A versão que enfocamos aqui é a 3, por ser a mais usada e mais estável (e portanto
confiável). A versão 4, a mais recente, incorpora alguns instrumentos novos e maior
capacidade de processamento de corpus, mas sofre de instabilidade e travamento das
funções. Alguns comandos são diferentes na versão 4 em relação à 3, mas o usuário que
souber lidar com a versão 3 conseguirá dominar a versão 4 sem grande esforço. Os
programas principais (WordList, KeyWords e Concord) permanecem os mesmos nas duas
versões e servem aos mesmos propósitos.
A intenção do programa é servir como uma ferramenta que permita a consecução de
tarefas relacionadas a análises de corpora. Isso significa que ele não foi concebido para
efetuar por si só uma determinada análise para o usuário. Em outras palavras, o
WordSmith Tools não foi feito para efetuar análises de projetos específicos; ele
disponibiliza uma série de opções de ferramentas (daí o ‘tools’ em seu nome), algumas
mais gerais, outras mais restritas, sem jamais supor que a análise termine com o
processamento de dados que ele efetua.
Cada vez mais, o programa torna-se referência para a análise lingüística via computador.
Há várias razões para esta preferência. A primeira é a facilidade de uso; trata-se de um
programa escrito para o ambiente Windows, o ambiente operacional dominante no mundo
de hoje, o que significa dizer que a maioria dos interessados já terão alguma familiaridade
com operações exigidas pelo WordSmith Tools, como abrir e fechar janelas, clicar em
botões específicos, escolher opções de menus, selecionar arquivos, etc. A segunda razão é
decorrência da primeira: devido ao fato de rodar num ambiente gráfico como Windows, o
programa oferece uma facilidade maior na utilização de seus recursos disponíveis, o que
8
por sua vez propicia um aprendizado mais rápido e intuitivo de suas várias funções. A
terceira razão é a facilidade de obtenção: o programa é distribuído por uma grande editora
internacional (Oxford University Press), o que facilita sua penetração em vários cidades do
mundo e em pontos de venda de alta visualização, como congressos e encontros
acadêmicos. Além disso, o programa é também disponibilizado via Internet, o que
significa que o usuário não precisa comprá-lo numa loja ou por correio, bastando baixá-lo
da rede e encomendar a sua senha pagando com cartão de crédito. A quarta razão do
sucesso de WordSmith Tools é sua versatilidade. O software consiste na verdade de uma
‘suíte’ de diferentes programas, que se destinam a várias aplicações, que compreendem o
pré-processamento, a organização de dados, e a análise propriamente dita de corpora ou
textos isolados. O programa oferece ferramentas para a consecução de tarefas essenciais,
como listas de palavras (através do programa WordList) e de concordâncias (por meio do
Concord).
1.2. As ferramentas e os utilitários
O programa WordSmith Tools possui três ferramentas e quatro utilitários. As ferramentas
são:
• WordList: produz listas de palavra contendo todas as palavras do arquivo ou arquivos
selecionados, elencadas em conjunto com suas freqüências absolutas e percentuais.
Também compara listas, criando listas de consistência, onde é informado em quantas
listas cada palavra aparece.
• Concord: realiza concordâncias, ou listagens de uma palavra específica (o ‘nódulo’,
node word ou search word) juntamente com parte do texto onde ocorreu. Oferece
também listas de colocados, isto é, palavras que ocorreram perto do nódulo.
• KeyWords: extrai palavras de uma lista cujas freqüências são estatisticamente
diferentes (maiores ou menores) do que as freqüências das mesmas palavras num outro
corpus (de referência). Calcula também palavras-chave chave, que são chave em vários
textos.
Essas ferramentas possuem ainda outras funções e permitem executar diversas outras
tarefas, que são apresentadas e discutidas nos capítulos subseqüentes.
9
Os utilitários do programa são:
• File Manager: abre uma janela para gerenciamento de arquivos.
• Splitter: permite dividir um arquivo em vários arquivos menores.
• Text Converter: oferece várias funções para o pré-processamento de textos, como a
substituição de palavras, partes de palavras ou partes de textos, simultaneamente num
conjunto de arquivos, a renomeação em massa de arquivos, e a mudança de pasta
(diretório) de arquivos que apresentem certas características.
• Viewer & Aligner: Fornece meios para a visualização de textos e para o alinhamento
(combinação) de dois textos num só.
1.3. Plano da obra
O livro é dividido em duas partes. A primeira mostra pesquisa realizada com o WordSmith
Tools em cinco áreas: ensino de língua estrangeira, análise de gênero, metáfora, tradução e
lingüística forense. Essas cinco áreas reúnem focos de pesquisa onde o WordSmith Tools
pode atuar como instrumento central da análise de corpus e foram escolhidas porque serem
campos onde a pesquisa com corpus aliada ao WordSmith Tools pode trazer muitos
benefícios. Elas foram seqüenciadas dessa maneira em termos do conhecimento que
exigem do usuário para manusear as ferramentas e os procedimentos adicionais de análise
dos dados, em ordem crescente de exigência.
A segunda parte do livro traz um guia completo do funcionamento do WordSmith Tools.
Cada capítulo oferece uma descrição detalhada de cada ferramenta e utilitário, com
detalhes de cada comando e de cada janela presente no programa. Quando necessário, são
apresentadas informações mais detalhadas a respeito de processos envolvidos na análise,
como a estatística Mutual Information, para cálculo de associação entre pares de palavras
(via ‘Index File’, do WordList) e a influência do tipo e extensão do corpus de referência na
obtenção de palavras-chave (via KeyWords). O último capítulo traz ainda uma apreciação
da versão 4 do programa, ainda em desenvolvimento quando da preparação deste volume.
A obra se encerra com alguns endereços de Internet com catálogos de trabalhos de
pesquisa que se valeram do WordSmith Tools para análise de dados.
10
Esperamos que a leitura deste livro abra horizontes para o desenvolvimento e consolidação
da Lingüística de Corpus no Brasil, mostrando como o WordSmith Tools pode ser usado
para investigar questões de áreas centrais da Lingüística e da Lingüística Aplicada.
11
2. Ensino de língua estrangeira
2.1. Introdução
Neste capítulo, apresentaremos algumas maneiras de usar o WordSmith Tools no ensino de
língua estrangeira, mais especificamente no ensino de vocabulário por meio de colocações.
Esta é uma área em que o programa atua naturalmente, pois seu Mike Scott, seu criador,
foi um professor de língua estrangeira e continua ligado à pesquisa nessa área, como
atesta um seu livro recente (Scott e Tribble, 2006).
Ilustraremos o capítulo com exemplos da língua inglesa, mas não queremos com isso dizer
que os procedimentos mostrados aqui sejam válidos apenas para o inglês; muito pelo
contrário, eles podem ser aplicados a diversas outras línguas, estrangeiras ou materna.
Há algum tempo tem-se encorajado o uso de textos autênticos no ensino de inglês como
língua estrangeira. Nos anos de 1980, o projeto Nacional Inglês Instrumental propôs uma
abordagem centrada no uso de textos autênticos para ensinar inglês para alunos de
qualquer nível. As premissas básicas eram de que (1) a dificuldade da tarefa era
independente da dificuldade do texto e (2) um texto autêntico não era mais difícil do que
um inventado (Celani, Deyes et al., 2005).
A mesma linha de argumentação pode ser seguida em relação a corpora, já que eles
normalmente são coletâneas de textos autênticos. Temos, desse modo, duas grandes fontes
de input de língua na sala de aula: o texto e o corpus.
Tomando como base essas premissas, que me parecem válidas até hoje, seja para o
contexto de ensino instrumental de línguas quanto para o de inglês geral, surge um
problema que ainda não foi enfrentado diretamente na literatura: como tirar proveito de um
texto autêntico e de um corpus, conjuntamente, em sala de aula?
Essa pergunta faz sentido por uma razão bem simples: um corpus, por mais interessante e
rico que seja, não pode ser lido, no sentido normal do termo! Um texto, por sua vez, pode
ser lido do começo ao fim, relido, entendido, questionado, entre outras coisas; já um
corpus pode ser lido via concordâncias, que são recortes do conteúdo de vários textos ao
mesmo tempo. A leitura de uma concordância não é a leitura de um texto: o texto convida
a uma leitura textual, enquanto o corpus suscita uma leitura hipertextual; o texto supõe a
intertextualidade, mas o corpus a expõe de modo explícito. Ou seja, texto e corpus são
12
duas unidades de língua que se completam naturalmente, até por que a segunda é uma
coletânea da primeira; em outras palavras, o trabalho com corpus na sala de aula pede um
texto. Sem um texto em que se apoiar, o aluno pode se sentir perdido, sem um apoio em
uma unidade concreta de comunicação humana.
Porém, ao mesmo tempo em que texto e corpus se completam, nesses níveis teórico e
prático, eles impõe um desafio ao professor de língua, pois um deve completar o outro. A
questão que fica é justamente esta, portanto: como usar texto e corpus de modo
complementar e coerente na sala de aula?
O princípio teórico que seguimos ao responder essa pergunta é o da existência da
padronização léxico-gramatical (Sinclair, 1991). Um padrão léxico-gramatical é uma
seqüência recorrente de (pelo menos duas) palavras, dentro de um espaço delimitado
(normalmente equivalente a até quatro palavras de distância), que possui um sentido
específico. Dentre os vários tipos de padrão existentes, o que é mais saliente são os
agrupamentos (‘clusters’), também conhecidos por ‘bundles’ (pacotes) (Biber e Conrad,
1999). Agrupamentos são seqüências fixas de palavras, como ‘bom dia’ ou ‘que possui
um’. Esse padrões são bastante salientes devido à sua rigidez e assim se tornam bons
padrões para ensinar em aula de inglês, pois são facilmente notados. A existência de
padrões em abundância faz com que possamos falar em uma natureza associativa e
probabilística da linguagem, como princípios teóricos de organização em larga escala.
Dizemos natureza associativa porque as palavras tendem a se associar em grupos
padronizados, recorrentes; e falamos em caráter probabilístico porque essas associações
não são aleatórias: as palavras se combinam umas às outras com graus diferentes de
probabilidade.
Do ponto de vista da sala de aula, há várias razões que salientam a importância de padrões
no aprendizado de língua estrangeira. Os padrões são um tipo de ‘unidade pré-fabricada’
da língua, que parece residir na memória em forma ‘bruta’, isto é, sem estar decomposto
em unidades individuais. Assim, um agrupamento como ‘que possui um’ parece estar
disponível por inteiro na memória, para produção e recepção, na mente dos falantes
nativos. Quando falamos, possivelmente acessamos nossa estoque lexical mental e
retiramos de lá tal unidade semi-pronta e a utilizamos ‘in natura’ na fala e na escrita. Do
mesmo modo, ao processar a linguagem falada ou escrita, é possível que decomponhamos
a seqüência de fala ou escrita em unidades compostas, muitas vezes em forma de padrões.
13
Esse acesso a unidades pré-fabricadas permite uma maior rapidez no processamento, o que
por sua vez, sustenta nossa capacidade natural de falar e escrever fluentemente, de ouvir e
entender de modo síncrono com nosso interlocutor e de (muitas vez) poder ler com
rapidez, sem nos deter a cada palavra individual do texto (Sinclair, 1991). Embora essas
sejam habilidades naturais que todo falante nativo possui, em maior ou menor grau, elas
não são automaticamente transferidas para a língua estrangeira. Normalmente, os
aprendizes de língua estrangeira tendem a ver a linguagem como um conjunto de palavras
individuais sustentadas por regras gramaticais; desse modo, a compreensão e a produção se
dão em muitos casos com base na junção de palavras individuais. O resultado disso é que,
por exemplo, a fluência, um aspecto natural da fala na língua materna, é conseguida
somente a duras penas na língua estrangeira.
O trabalho com corpora em sala de aula pode ajudar a melhorar essa situação, pois ele
naturalmente faz saltar aos olhos essas ‘unidades pré-fabricadas’, que são os padrões
léxico-gramaticais. Ou seja, começando por um trabalho de conscientização, o aluno passa
a ter uma visão diferente do que é o vocabulário de uma língua, deixando de lado a idéia
de que se trata de um conjunto de palavras isoladas que se juntam por meio de regras
gramaticais. Ele passa a perceber que as palavras se juntam por meio de atração mútua, via
de regra explicadas somente pelo uso e não por regras de gramática, e que essa atração cria
os agrupamentos, pacotes e ‘chunks’, que por sua vez se juntam e formam o tecido da
linguagem.
Com a ajuda de corpus e do programa WordSmith Tools podemos começar a propor
algumas maneiras de lidar com essa questão do uso coerente de corpus e texto autêntico na
sala de aula.
2.2. Recursos
Os recursos necessários para realizar as análises mostradas neste capítulo são:
• Um texto autêntico em língua estrangeira, salvo em arquivo de computador, que
sirva de material de ensino.
• Um corpus de referência da mesma língua em que foi escrito o texto; vide mais na
seção 2.4 abaixo.
• Os seguintes elementos do WordSmith Tools:
14
• WordList: feitura de lista de palavras com ‘clusters activated’.
• Concord: feitura de concordâncias e, dependendo da necessidade, o uso da opção
‘View / Spaces Cut’.
2.3. Análise do texto
Nossa recomendação é que o professor inicie escolhendo um texto que seja relevante para
a aula ou material que deseje desenvolver. A seguir, é preciso analisar o texto, começando
com uma lista de palavras com ‘clusters activated’ do texto autêntico em questão.
O texto que empregamos nesta análise foi retirado da Internet, do sítio:
http://www.foodconsumer.org/777/8/Update_Bird_flu_kills_two_more_in_Indonesia.shtm
l. O trecho inicial do texto é o seguinte:
‘Update: Bird flu kills two more in Indonesia
Two more siblings in Indonesia died of bird flu, officials said Friday, citing the rest results
were preliminary and needed to be confirmed by a laboratory accredited by the World
Health Organization.
The report came as the WHO and officials from the Ministry of Health in Indonesia have
struggled to search for the source of infection for a cluster of eight bird flu cases in a
family in the village of Kubu Sembelang. (...)’
A recomendação que fazemos é de que sejam feitas duas listas, uma com ‘clusters’ de duas
palavras e outra com de três palavras. A figura a seguir mostra a tela do Wordlist com
‘clusters’de duas e três palavras, respectivamente:
15
Em seguida, é preciso observar as duas listas e encontrar ‘clusters’ que possam ser
trabalhados com os alunos, de acordo com os objetivos da unidade ou da aula. Por
16
exemplo, poderíamos escolher ‘bird flu’ e ‘got infected with’. O primeiro parece
interessante pois é um grupo nominal, uma estrutura que algumas vezes é problemática
para alunos brasileiros. O segundo cluster possui de interessante o fato de ser um exemplo
de voz passiva com ‘get’. Além disso, ambos são freqüentes dentro do texto, o que ajuda
para que sejam internalizados.
Para trabalhar esses itens com os alunos, o professor pode preparar concordâncias, por
meio do Concord. Para tanto, basta iniciar o Concord e digitar em ‘Search Word’ o
‘cluster’ exatamente como aparece na lista do Wordlist. Para ilustrar, usamos ‘bird flu’. A
tela seguinte mostra o Concord com a concordância resultante.
As linhas da concordância estão ordenadas pela primeira à direita. Os padrões que
emergem são:
• Colocação: Bird flu cases
• Coligação: Bird flu + Substantivo (fatality, infection, task force).
Fazendo ‘resort’ pela primeira palavra à esquerda, obtemos a tela seguinte:
17
O padrão mais saliente é ‘of bird flu’, que em si não é interessante. Mas a partir dele
podemos expandir o alcance dos padrões mais para a esquerda e conseguimos os seguinte
padrões:
• Cluster of bird flu cases
• Spread of bird flu
• Died of bird flu
• Got infected with bird flu / the bird flu virus.
Esses padrões são de central importância para entender o texto em questão e além disso
ajudam o aluno a entender muitos outros textos sobre esse assunto.
2.4. Análise do corpus
Depois de retirar algumas fraseologias importantes do texto, passamos para a análise do
corpus propriamente dito. A idéia é encontrar no corpus mais instâncias de padrões do
texto (1) para reforçar a exposição dos alunos a esses padrões ou (2) para expandir o leque
de usos dos padrões do texto.
18
Em ambos os casos, há duas opções, dependendo do corpus de referência:
Se o professor tiver acesso a um corpus de características (gênero e assunto) semelhantes
ao texto da aula, pode fazer buscas de ‘clusters’do texto tais como eles aparecem. Por
exemplo, se o professor tiver um corpus de textos sobre gripe aviária, pode fazer outras
buscas por ‘bird flu’ no corpus para levantar outros padrões.
Se o professor não possuir um corpus específico, mas sim um corpus geral de inglês,
provavelmente não encontrará muitos outros exemplos de padrões do texto em questão,
caso se trate de um assunto contemporâneo ou altamente especializado. Por exemplo, no
BNC, há apenas uma ocorrência de ‘bird flu’ (‘National Institutes of Health have
overcome this dilemma by growing a bird flu virus which does not cause human disease’).
Nesse caso, o professor deve buscar outras formas mais gerais referentes ao vocabulário
dos padrões, como ‘flu’ apenas ou ‘infected’.
Para ilustrar, buscaremos a palavra ‘infected’, que faz parte de um padrão do texto (‘got
infected with’), no British National Corpus. Há 1156 ocorrências dessa palavra no corpus.
Ao fazer a concordância, é importante selecionar ‘Activated’ em ‘Ignore Tags’, na aba
‘Tags’ de ‘Settings’. Isso precisa ser feito pois o BNC é etiquetado morfossintaticamente, e
para o uso que vislumbramos em sala de aula, as etiquetas são dispensáveis; caso apareçam
na tela, tornarão a visualização dos padrões mais difícil.
A concordância resultante aparece na tela a seguir.
Como se percebe, a concordância está com muitos espaços entre as palavras; estes são os
espaços onde estão as etiquetas (‘tags’) que foram ignorados. Para melhorar o ‘layout’ da
tela, é preciso escolher ‘View’, ‘Spaces Cut’. Isso uniformiza os espaços, conforme mostra
19
a tela seguinte:
Com base nessa tela, o professor pode buscar mais alguns padrões que possa ensinar. Um
que desponta na tela é ‘HIV infected’, cujos padrões incluem:
• Are already / to be HIV-infected
• Becoming HIV infected
• HIV-infected staff
• People estimated to be HIV infected3
2.5. Conjugando as duas análises
Assim, conjungando a análise do texto com a do corpus, temos uma visão mais
aprofundada da padronização de ‘infected’:
• Get infected with
3 Pode-se notar, de passagem, a falta de uniformização ortográfica em relação ao uso do hífen entre ‘HIV’ e
‘infected’.
20
• Be HIV-infected
• Become HIV-infected
• HIV-infected [substantivo]
• Essa padronização nos mostra que ‘infected’:
• Pode funcionar como verbo (get infected) ou adjetivo (HIV-infected staff).
• Pode formar a passiva com ‘get’, reforçando sua prosódia semântica, pois ‘get’
tende a ser usado na passiva para indicar sentidos negativos. Além disso, ‘get
passives’ podem indicar uma parcela de culpa do indivíduo na ação (‘get drunk’
pressupõe a opção da pessoa em se imbriagar).
• Pode associar-se a substantivos para especificar o tipo de infecção (HIV-infected).
Resumindo nosso percurso exploratório:
• Descobrimos que ‘bird flu’ era um dos principais ‘clusters’ do texto.
• Ainda no texto, a partir da padronização de ‘bird flu’, chegamos a ‘got infected’
• Já no corpus, partindo de ‘got infected’, chegamos a HIV-infected e sua
padronização.
Esse tipo de exploração é uma das grandes vantagens de trabalhar com corpus na sala de
aula, pois revela aspectos da língua que os dicionários e ‘usage guides’ não deixam tão
claro e as gramáticas sequer lidam. Além disso, é um percurso de descoberta ‘movido a
dados’, pois foram os dados da primeira descoberta (bird flu) que nos levaram às
descobertas seguintes. Nesse sentido, é um processo pessoal. Cada aluno e cada professor
podem obter ‘mapas’ dessa jornada exploratória diferentes, pois não há necessariamente a
necessidade de chegar a ‘got infected’ a partir de ‘bird flu’. Uma outra pessoa poderia ter
visto outro padrão junto a ‘bird flu’ que lhe chamasse a atenção. O importante é que os
alunos e o professor descubram padrões atestados nos dados, que sejam relevantes para sua
aula, para o nível e para os objetivos do curso.
Para que isso aconteça é fundamental ganhar experiência na análise de concordâncias,
‘treinando os olhos’ para perceber padrões que sejam ‘interessantes’. Muitas vezes,
21
conforme mostra minha prática pessoal de sala de aula, os alunos se detém a padrões
pouco relevantes. Por exemplo, alunos de nível avançado que estivessem analisando essas
concordâncias que mostramos poderiam ter notado a presença do padrão ‘had/has/have
infected’. Esse padrão, embora existente nos dados, nada mais é do que o ‘present perfect’,
que tais alunos supostamente já conheciam. Ou seja, é preciso deixar claro para o aluno
que ‘repetição não é padrão’, para que eles passem a procurar padrões novos para eles.
Outra tendência que professores e alunos ‘novatos’ em análise de corpus exibem é se deter
a padrões gramaticais. Por exemplo, os padrões da concordância de ‘infected’ do corpus
poderiam ser expressos por um padrão como ‘verbo + infected’, onde verbo poderia ser
substituído por ‘be / get / have’. Esse padrão, novamente, é pouco informativo. Ele
simplesmente retrata um aspecto gramatical, qual seja, o grupo verbal formado por auxiliar
seguido de verbo principal. O que leva alunos e professores ‘novatos’ a pinçarem esse tipo
de padrão é certamente a influência de anos de ensino de gramática, o que por sua vez os
levam a ter familiaridade em analisar a língua segundo a gramática estrutural. Embora a
análise de corpus possa ser usada para estudo de pontos gramaticais, na verdade ela pode e
deve levar o aluno a uma apreciação diferente da língua, baseada na léxico-gramática. Isso,
conforme dissemos, leva tempo, pois envolve prática na identificação de padrões em
concordâncias. E prática, como sabemos, somente se adquire praticando, por isso é um
processo longo que necessita da intervenção do professor, principalmente no início.
Felizmente, o WordSmith Tools é bastante rápido e simples de usar, o que evita gastar
tempo demasidado na mecânica da obtenção das concordâncias, podendo o professor e os
alunos direcionar suas energias para a análise dos dados e a descoberta dos padrões.
2.6. Comentários finais
Neste capítulo, mostramos como o WordSmith Tools pode ser empregado na preparação
de material didático para ensino de inglês como língua estrangeira. Propusemo-nos a
mostrar técnicas simples de aplicação do programa para ensino de vocabulário. Com essas
técnicas, é possível fazer exercícios e até mesmo unidades inteiras que se encaixam em
cursos de diversas naturezas, nas mais variadas abordagens. As atividades, por sua vez,
podem ser o foco principal da aula ou apenas reforço ou complementação ao livro didático.
Seja como for, o uso de textos autênticos e de corpora na sala de aula de língua estrangeira
é altamente benéfico para os alunos, pois eles entram em contato com muitas ocorrências
de padrões que se repetem em outros textos, tornando assim o contato muito útul para a
22
conscientização da natureza probabilística e associativa da língua, para o desenvolvimento
da fluência e para o enriquecimento do vocabulário.
23
3. Análise de Gênero
3.1. Introdução
Neste capítulo, mostramos algumas maneiras de usar o WordSmith Tools na análise de
gênero. Antes de chegarmos à proposta analítica, precisamos percorrer um caminho
teórico, histórico e conceitual por várias correntes contemporâneas que se ocupam do
estudo de gêneros.
Antes de mais nada, a questão que se coloca é a da nomeação: devemos nos referir a
gênero de que modo? Não há consenso a respeito disso na literatura, sendo empregados
termos como gênero textual, discursivo, lingüístico, entre outros. Nossa opção é
simplesmente por ‘gênero’, sem nenhum epíteto, pois cremos que no contexto aqui
empregado, o termo não se confude (a) com a designição referente ao sexo masculino ou
feminino, nem (b) com o de categorias de formas literárias (gênero ‘romance’), de cinema
(gênero ‘thriller’), teatro (gênero ‘comédia’) ou música (gênero ‘rock’). Além disso, a
forma ‘gênero’ não cria filiações automáticas com nenhuma corrente teórico-metodológica
pré-definida; isso nos beneficia, pois acreditamos que a análise de gênero com corpora
eletrônicos que ilustramos aqui não se encaixe diretamente em nenhum modelo a priori
sinalizado pelos termos ‘gênero discursivo’, ‘gênero textual’ ou outra forma qualquer.
O gênero a ser enfocado por nossa análise é o ‘código de ética’. Códigos de ética são
documentos escritos que especificam padrões (‘standards’) do que se considera
comportamento ético para uma profissão (e.g. jornalistas), empresa, atividade econômica
(criação de animais) ou grupo organizado (‘alunos’). Acreditamos se tratar de um gênero
já que: (a) possui um nome socialmente aceito pela comunidade de usuários (em inglês,
‘code of ethics’ ou ‘ethics codes’ ou mesmo ‘codes of conduct’); (b) desempenha um
papel na sociedade (especificar o que é considerado desejável e indesejável na prática
profissional ou de setores organizados da sociedade); (c) materializa-se em documentos ou
instâncias de fala socialmente reconhecidos (os códigos de ética são publicados, debatidos,
aprovados em encontros especializados, etc.)
Nesse ponto, é importante distinguir veículo de gênero. Veículo é aquilo que serve de
suporte para o gênero. Assim, ‘carta’ é veículo, não gênero, pois uma carta pode conter
desde um ‘pedido de emprego’ a uma ‘declaração de amor’, passando por um
‘encaminhamento de prestação de contas’, ‘reclamação ao Procon’, ‘divulgação de
24
produto’, ‘aviso de mudança de tarifa bancária’ e tantos outros. Ou seja, a carta é apenas o
nome que se dá ao documento onde está inscrito o gênero (no caso, ‘pedido de emprego’,
‘declaração de amor’, ‘reclamação ao Procon’, etc.). O mesmo ocorre com ‘email’, ‘livro’,
‘relatório’ e tantos outros veículos.
Os veículos interagem com os gêneros, de tal modo que um gênero pode se modificar na
medida em que muda o seu veículo. Por exemplo, um gênero como ‘reclamação de
serviço’ (p.ex. para a operadora de celular) pode ser diferente se escrito em uma carta ou
num email.
Há muitas maneiras de conceitualizar gênero, dentro das várias abordagens teóricas e
metodológicas que existem atualmente. Tais abordagens se diferenciam de vários modos,
como no tocante à definição do que é gênero, à metodologia empregada para investigar os
gêneros e a terminologia corrente entre os estudiosos filiados à abordagem (Meurer,
Bonini et al., 2005).
A grosso modo, podemos classificar as abordagens de estudo de gênero a partir de suas
origens, em quatro grupos minimamente coerentes. Um deles é o que gira em torno das
idéias de Michael Halliday, com as propostas de Martin, Hasan, Kress e Fairclough, por
exemplo. Outro grupo é o que advém do ensino de língua estrangeira, como as propostas
de Swales e Bhatia. Há ainda outro que se aglutina em torno de idéias de Bakhtin e da
Análise de Discurso Francesa, como Bronckart e Maingueneau. E por fim há um grupo
que se alinha com o trabalho de Douglas Biber4, essencialmente com corpus eletrônico e
que remete aos estudos de variação da Sociolingüística.
Essa classificação não é estanque, pois há vários cruzamentos entre os grupos que
delineamos, com pesquisadores transitando por mais de uma tendência. Por exemplo,
Norman Fairclough, que alocamos na corrente relacionada a Michael Halliday, na verdade
faz uso de elementos do cabedal teórico de Bakhtin e da Análise de Discurso Francesa.
Jean-Paul Bronckart, por sua vez, já formulou uma abordagem que se baseia na análise
léxico-gramatical e compartiva de gêneros (Bronckart, 1985), aproximando-o de Douglas
4 Embora ele confesse ter abandonado o uso do termo ‘gênero’ por ser muito controverso (comunicação
pessoal, 2005).
25
Biber. Isso revela que os estudos de gênero são dinâmicos e que qualquer quadro síntese
das tendências teórico-metodológicos tende a se desatualizar dentro de algum tempo.
Embora haja muitas diferenças entre as várias linhas de estudo de gênero, há pontos em
comum também. Um deles é que todas as principais vertentes contemporâneas tentam
mostrar de algum modo como os gêneros se relacionam à vida em sociedade. Outra
similaridade é a de que todas fazem análise de elementos lingüísticos presentes nos
gêneros, mesmo quando a finalidade não é exclusivamente a descrição lingüística.
Podemos elencar alguns aspectos teóricos que em nossa opinião parecem ser importantes
para a definição de gênero:
Gêneros são ‘tipos relativamente estáveis’ (Bakhtin, 1997 :279) de comunicação. Essa
estabilidade parcial revela-se na variação existente em um corpus de exemplares de um
mesmo gênero (Biber, 1988), fazendo com que um determinado gênero se alinhe
dinamicamente com vários outros, em dimensões diferentes. Eles formam ‘constelações’,
com os membros individuais se aproximando mais de uns do que de outros, o que significa
dizer que não há nenhum gênero absolutamente independente. Todos se relacionam com
todos os outros, em maior ou menor grau.
São socialmente estabelecidos (Fairclough, 1989). Ou seja, eles surgem da necessidade
humana de comunicação em sociedade, para atingir certos fins (Martin, 1992) em diversas
esferas de organização da sociedade e revelam as atividades sociais e intelectuais de seus
usuários (Bazerman, 1988 :4)
São culturalmente definidos (Halliday e Matthiessen, 2000). Por cultura, entendemos tanto
sua manifestação no nível macro (cultura brasileira, por exemplo), quanto nos seus níveis
micro (cultura da empresa, da escola, do departamento, da repartição, etc.) (Swales, 1998).
Essas formas culturais relacionam-se com a linguagem empregada nos gêneros por meio
de configurações de variáveis de registro únicas (Eggins, 1994).
São historicamente definidos, e seu conteúdo, organização interna, léxico-gramática e
demais aspectos se alteram ao longo da história (Biber e Finegan, 1989; Bakhtin, 1997).
São seqüenciados internamente (Halliday e Hasan, 1989). Exemplares de um mesmo
gênero possuem uma organização interna relativamente recorrente (Swales, 1990; Martin,
26
1992; Bhatia, 1993), que se mostra por meio de estágios, ou segmentos, cujo conjunto
representa corerentemente os temas e sub-temas enfocados (Berber Sardinha, 1997) e as
finalidades a serem cumpridas, passo a passo.
São muito numerosos. Isso nos impede de chegarmos a um inventário definitivo de todos
os gêneros existentes no mundo, em qualquer época. Ao mesmo tempo, cada gênero possui
incontáveis realizações. Toda essa profusão pode ser vista como formando uma população
imensa de gêneros e seus exemplares. Como toda população, há uma variação expressiva
entre seus membros (Biber, 1988). Decorre daí que as pesquisas com gênero devam levar
basear-se em uma amostra com a maior quantidade possível de exemplares de um gênero
para que possam ser minimamente representativas do gênero em questão. A existência de
uma infinidade de exemplares implica no fato de que nenhum indivíduo, usuário ou não de
qualquer gênero, pode conhecer plenamente nenhum gênero. Nossa intuição lingüística é
falha (Sinclair, 1991), muito embora nos dê a ilusão de que somos conhecedores plenos do
gênero. Há uma quantidade potencialmente grande de características que fogem à nossa
percepção e que somente podem ser levantadas de modo confiável por meio de
ferramentas de análise de corpus eletrônico.
São compostos por uma léxico-gramática distinta, que se revela pela probabilidade
diferenciada de emprego de palavras, padrões e estruturas gramaticais típicas (Bronckart,
1985; Biber, 1988; Scott e Tribble, 2006).
Esses pontos nos parecem relevantes para darmos conta de uma parcela do fenômeno
social e lingüístico que os gêneros revelam. Nenhuma abordagem que conhecemos,
entretanto, dá conta de todos esses pontos. Por isso, é importante ressaltar que nenhuma
perspectiva esgota toda a riqueza de significados que um gênero (ou mesmo um exemplar
dele) encerra. Todas são parciais e enfatizam um recorte teórico-metodológico particular.
As análises de gênero feitas sob a perspectiva da Lingüística de Corpus se concentram
basicamente em três grupos: um de simpatizantes de Halliday, outro de seguidores de
Biber e outro de pesquisadores ligados a Michael Stubbs e Mike Scott. O foco das três
linhas é diferente:
Os seguidores de Halliday tratam geralmente da léxico-gramática de um corpus de muitos
exemplares de um determinado gênero e/ou da segmentação interna dos exemplares desses
gêneros. No primeiro caso, a análise é geralmente feita a partir do corpus inteiro, sem
27
distinção dos exemplares individuais do gênero. No segundo caso, ao contrário, a análise
se dá em cada exemplar individualmente.
Biber e seus seguidores buscam essencialmente a identificação de multidimensões de
variação dos textos, mostrando como um mesmo gênero relaciona-se com vários outros,
por meio de características lingüísticas compartilhadas. A análise é feita incialmente
exemplar por exemplar, seguida do agrupamento e da comparação entre os grupos de
exemplares.
Scott e Stubbs privilegiam o estudo de gêneros sem a distinção dos exemplares que
compõem o corpus. A análise é feita a partir da palavra, mostrando as palavras com
freqüência marcada e as tendências principais de associação de palavras.
A análise apresentada neste capítulo foi conduzida sob a perspectiva do terceiro grupo,
focando a descrição da léxico-gramática e dos sentidos que elas perfazem no gênero a
partir do estudo do vocabulário. É uma metodologia ascendente (‘bottom-up’), que parte
dos dados, mais especificamente das colocações (Sinclair, 1991), para chegar nos
significados principais construídos pelo/no gênero. Ela privilegia essencialmente os pontos
teóricos 6 e 7 apresentados acima. Nossa análise não enfocou cada exemplar do gênero
individualmente, mas sim o conjunto todo de exemplares que compõe o corpus.
O objetivo que perseguimos com nosso enfoque é o de conhecer um pouco sobre como
funciona o gênero, a partir de um corpus tão grande quanto for possível, com o auxílio do
programa WordSmith Tools. Esperamos com nossa análise entender um pouco como
funciona o gênero, revelando como se dá a relação entre a linguagem usada nos
exemplares do gênero, as pessoas e grupos sociais que os usam e o propósito a que o
gênero serve em sociedade.
3.2. O gênero Código de Ética
Conforme dito na introdução, os códigos de ética são documentos escritos que especificam
a conduta ética de um setor profissional, empresa ou grupo organizado. Assim, temos
códigos de ética da ‘Associação Australiana de Engenheiros’, da ‘Sociedade de Relações
Públicas da América’, da ‘Associação de Enfermeiras do Canadá’, etc.
Há incontáveis códigos de ética em vigor no mundo atual. O sítio do ‘Center for the Study
of Ethics in the Professions’, do Illinois Institute of Technology (em
28
http://ethics.iit.edu/codes/coe.html) possui cerca de 850 códigos em seu arquivo, mas
reconhece que existam muitos mais. Uma busca no Google (em junho de 2006) revela a
existência de 201 mil páginas com as palavras ‘ethics’ e ‘code’ no título. Em português,
Google registra 834 páginas cujo título contém ‘código’ e ‘ética’, com o ‘Código de Ética
da Petrobrás’, ‘Código de Ética e Disciplina da OAB’ e o ‘Código de Ética de
Radiodifusão’.
Essa profusão de códigos e sua constante renovação implicam em dizer que nenhum
indivíduo está a par de todos os códigos existentes. Em geral, o normal é que os
profissionais conheçam mais ou menos bem o código de ética relativo a sua categoria
funcional ou a sua associação de classe (com a exceção de advogados especializados em
questões éticas, que tendem a se especializar no assunto e por conseguinte familiarizam-se
com um maior número de códigos). Uma análise de um corpus contendo centenas de
códigos pode auxiliar nesse sentido, nos dando uma visão das características salientes do
maior número possível de códigos de uma só vez.
Há diversas maneiras de os códigos se organizarem internamente em inglês. Olson (2006)
distingue três tipos básicos:
códigos sucintos (‘brief codes’). São compostos por uma lista não estruturada de regras.
códigos de princípios (‘principles model’). Possuem uma estrutura hierárquica que vai do
mais geral para o mais específico, partindo de um preâmbulo introdutório
(‘preamble/statement of intent’), para os princípios fundamentais (‘fundamental
principles’), que por sua vez encampam cânones (‘fundamental canons’) e regras
específicas (‘guidelines for the principles and canons’).
códigos de relações (‘relationship codes’). São códigos hierárquivos também, mas que se
baseiam na relação do profissional com outros grupos, como clientes e a população em
geral. São geralmente divididos em seções intituladas ‘relações/obrigações para com
(grupo)’, onde se encontram as regras de conduta.
Ainda segundo Olson (2006), o tipo mais comum (entre os códigos estudados por ele, de
origem norte-americana essencialmente) é o sucinto, na faixa de 50% do total. A seguir, na
área de negócios o mais usado é o de relações (com 36%), enquanto nas demais áreas é o
de princípios. Isso sugere que para a maioria das áreas basta um código simples. Para as
29
demais, códigos elaborados enfatizam aspectos diferentes, de acordo com seus objetivos:
nas empresas, a normatização é mais específica, voltada para seus clientes e funcionários;
nos outros domínios, contudo, ela é mais geral e idealizada, enfocando a atuação
profissional independente do empregador.
3.3. Recursos
Um corpus de pesquisa de um gênero específico, no nosso caso um corpus em inglês do
gênero ‘código de ética’. Recolhemos nosso corpus da Internet, por meio do buscador
Google. Na opção ‘Busca Avançada’, digitamos ‘code’ e ‘ethics’ como palavras de busca e
especificamos que elas deveriam ocorrer no título das páginas. Baixamos cada arquivo5,
convertemos todos eles para texto e por fim conferimos os arquivos, eliminando os
indesejáveis (p.ex. incompletos). Desse modo, conseguimos um corpus com as
características abaixo:
Textos 807
Formas (‘tokens’) 1.226.530
Itens (‘types’) 27.426
Um corpus de referência, composto pelo British National Corpus (BNC) na sua totalidade.
O BNC possui as seguintes dimensões: 100.602.128 formas (‘tokens’) e 385.750 itens
(‘types’).
Os programas Wordlist, KeyWords e Concord.
3.4. Delimitando o enfoque
Para iniciar a análise, conduzimos um exame preliminar dos dados e depois formulamos
questões com base nele.
A análise preliminar consistiu na extração das palavras-chave. As palavras-chave são
5 Com o auxílio de um script especializado, que não convém detalhar aqui. O importante é salientar que a
coleta do corpus pode ser feita manualmente, visitando cada sítio e salvando o arquivo correspondente.
30
aquelas que possuem uma freqüência marcada, isto é, relativamente maior no corpus de
pesquisa do que no de referência. Utilizamos nosso corpus de códigos de ética como
corpus de pesquisa e o BNC como corpus de referência. Ajustamos o KeyWords para
p=0.000001 e um máximo de 500 palavras-chave com freqüência mínima de 3. Obtivemos
as 500 palavras-chave no total, nenhuma negativa. A figura abaixo mostra a tela do
programa KeyWords com os resultados.
Nossa primeira leitura dos resultados permitiu agrupar as palavras-chave em algumas
classes:
• Substantivos: ethics, code, conduct, information, members, client, etc.
• Adjetivos: professional, ethical, applicable, unethical, etc.
• Verbos: maintain, ensure, engage, strive, disclose, etc.
• Verbos modais: shall, may, must.
• Miscelâneos: or, any, not.
31
Esse primeiro apanhado é importante para nos ajudar a levantar questões que possamos
responder com os dados do corpus. Utilizamos nosso conhecimento do gênero e de
questões sociais envolvidas na utilização do gênero em sociedade. Pareceu-nos que as
palavras-chave estavam apontando para as relações entre as pessoas regulamentadas, onde
recai o dever (members, clients, etc.), as práticas regulamentadas (aquilo que é nomeado
como ‘ethical’, ‘unethical’, etc.) e as maneiras pelas quais essa regulamentação se dá (por
meio dos verbos) e com que força (com os modais). As partículas ‘miscelâneas’ ainda nos
podem propiciar outros entendimentos que não podemos antecipar.
A partir desse levantamento inicial, podemos formular algumas perguntas de pesquisa para
guiar a investigação e para que alcancemos o objetivo de entender um pouco como
funciona o gênero ‘código de ética’:
• O que é definido no âmbito da ética?
• O que é normalmente coibido?
• O que é geralmente valorizado?
A seguir, mostramos como o WordSmith Tools pode ajudar a responder essas perguntas.
3.5. O que é definido no âmbito da ética
Para responder a essa pergunta, precisamos fazer uma concordância da palavra-chave
‘ethical’. A tela a seguir mostra a concordância, ordenada pela primeira palavra à direita,
pois já que é ‘ethical’ é um adjetivo, os substantivos devem estar à sua direita.
32
A seguir, retiramos os colocados, com a função ‘Show collocates’, e os ordenamos pela
primeira palavra à direita também. A tela a seguir mostra os 25 colocados imediamente à
direita de ‘ethical’:
33
Como se percebe, os dez colocados substantivos mais freqüentes são ‘standards’,
‘conduct’, ‘principles’, ‘issues’, ‘behavior’, ‘responsibilities’, ‘obligations’, ‘practice,
‘decision’ e ‘manner’. Esses substantivos são quase todos abstratos (com exceção de
‘behavior/our’ e ‘guidelines’). Podemos agrupar os colocados em grupos de sentido,
conforme o quadro abaixo.
Ideal Normas ações problemas Comportamento obrigações
standard/s principle/s
guidelines codes
decision manner handling
issues dilemmas
Conduct behavior/behaviour practice business actions
responsibility/ies obligation/s
O agrupamento mostrado acima é feito de maneira intuitiva, segundo o conhecimento do
34
analista. É um tipo de análise de conteúdo, conduzida a partir dos dados, não tendo se
baseado em nenhum esquema previamente definido.
A resposta para a pergunta é de que os códigos de ética versam sobre um grande número
de aspectos da conduta profissional, no âmbito de ideais, normas, ações, problemas,
comportamento e obrigações.
3.6. O que é coibido
Para responder a essa pergunta, precisamos verificar os colocados de ‘not’, que é uma
palavra-chave. Esperamos com isso identificar os verbos que indicam as ações e estados
julgados indesejados nos códigos. Assim como no caso anterior, ordenamos os colocados
pela posição R1 (primeira à direita). A tela a seguir mostra os resultados.
Conforme mostra a tabela dos colocados, os verbos mais negados são: ‘be’, ‘engage’,
‘use’, ‘accept’, ‘make’, ‘misrepresent’, ‘take’, ‘allow’, ‘disclose’ e ‘have’. Alguns desses
verbos são plenos, isto é, possuem significado em si, como ‘accept’, ‘misrepresent’ e
‘allow’. Outros, porém, são deslexicalizados e precisam de um complemento para
35
exprimirem algum sentido determinado (‘be’, ‘make’, ‘take’ e ‘have’).
Precisamos verificar como esses verbos são usados para entender o tipo de ação, ideal,
obrigação, etc., que os códigos tentam coibir. Para tanto, é necessário voltar à
concordância e notar o uso de cada verbo ou fazer nova concordância para cada verbo. A
vantagem de fazer novas concordâncias é que isso permite a extração de colocados para
cada verbo, o que não é possível por meio da concordância de ‘not’ já feita. Como no
corpus de estudo podemos ter mais de 100 ocorrências de cada verbo, é mais eficiente
fazer as concordâncias de novo, pois há linhas demais para analisar sem o recurso da lista
de colocados.
Devido à restrição de espaço, mostraremos a seguir análise dos três principais verbos
plenos e do principal verbo deslexicalizado apenas. Contudo, uma análise de gênero
deveria verificar um número maior de verbos para dar conta da léxico-gramática do
gênero.
Começando pelos verbos plenos, o verbo mais negado é ‘engage’. Fizemos outra
concordância, digitando como palavras de busca a seqüência ‘not engage’. Reordenamos a
concordância alfabeticamente (com ‘Sort’), pela segunda e terceira palavras à direita (2R e
3R). Note que à primeira vista a reordenação seria pela primeira e segunda palavras à
direita do termo de busca, que são duas palavras, ‘not engage’. Mas quando o o Concord
faz uma concordância de termos múltiplos, como nesse caso, a classificação parte da
primeira palavra da seqüência (‘not’) e não da última (‘engage’). A tela abaixo mostra a
concordância resultante.
36
Depois, retiramos os colocados e os reordenamos, também pela segunda (2R) e terceira
palavras (3R) à direita.
A concordância e os colocados indicaram que ‘engage’ é usado basicamente para tratar da
questão do abuso sexual: ‘sexual intimacies’, ‘sexual harassment’ e ‘sexual activities’.
Além disso, aparece com os seguintes colocados: ‘unauthorized practice’,
‘misrepresentation’, ‘mistreatment’, ‘misleading advertising’, ‘controversy’, ‘fraudulent
conduct’, etc. Ou seja, ‘engage’ possui uma prosódia semântica marcadamente negativa.
O verbo pleno seguinte, ‘use’, possui essencialmente colocados relacionados a informação
e modos de agir, como ‘coercive means’, ‘derogatory language’, ‘confidential
information’, ‘proprietary information’ e ‘professional positions’. Ou seja, em geral, esses
usos referem-se à quebra de confidencialidade e de privacidade e ao abuso do poder. Ao
contrário de ‘engage’, ‘use’ não possui uma prosódia semântica essencialmente negativa.
O verbo seguinte, ‘accept’, coloca-se tipicamente com palavras relacionadas à corrupção,
como ‘compensation’, ‘commissions’, ‘instructions’, ‘payment’, ‘fees’, ‘employment’,
‘fees’ e ‘gratuity’.
Partindo para o verbo ‘be’, o mais freqüente entre os deslexicalizados, fizemos
concordância de ‘not be’, retiramos os colocados e os reclassificamos pela segunda palavra
37
à direita. A tela a seguir mostra os resultados.
Conforme se nota, os verbos estão quase todos no passado, o que forma a voz passiva. São
verbos específicos das ações que se deseja coibir (‘disclosed’, ‘published’, ‘bred’, ‘placed’,
etc. – divulgado, publicado, criado, colocado, etc.), além de verbos que demonstram as
atitudes advindas da proibição (‘tolerated’, ‘accepted’, ‘considered’ – tolerado, aceito,
considerado).
É importante verificarmos os colocados à esquerda, para saber que tipos de coisa eram
coibidas na voz passiva. Fizemos, assim, uma reordenação dos colocados pelo total à
esquerda (‘Left’), o que nos mostrou que os principais colocados eram os verbos modais:
‘should’, ‘shall’, ‘will’, ‘may’ e ‘must’. Os substantivos colocados à esquerda eram
‘information’, ‘code’, ‘work’ e ‘practice’.
Dessa forma, os dados nos mostram que os códigos coibem, tipicamente, as ações a seguir
(os padrões que os indicam aparecem em parênteses):
Abuso sexual (‘not engage in’);
38
Quebra de confidencialidade e da privacidade (‘not use’);
Abuso de poder (‘not use’);
Corrupção (‘not accept’);
Ações no âmbito de profissões específicas (‘not be’).
3.7. O que é geralmente valorizado
Para começarmos a responder essa pergunta, precisamos verificar os verbos constantes
entre as palavras-chave e fazer concordâncias de cada um, para sabermos como são
usados. Os verbos que enfocamos são: ‘respect’ (respeitar), ‘provide’ (providenciar),
‘ensure’ (certificar-se), ‘maintain’ (manter), ‘comply’ (adequar-se) e ‘strive’ (esforçar-se).
Para cada um, fizemos concordâncias e extraímos os colocados. O quadro a seguir mostra
os resultados.
Verbo
(freqüência) Substantivos colocados com freqüência total igual ou superior a 30, à
direita do nódulo.
Respect (1483) Dignity, privacy, rights, confidentiality, information, integrity, clients,
human.
Provide (1422) Service/s, information, guidance, care, clients, opportunities, quality.
Ensure (1189) Information, clients.
Maintain (851) Standards, confidentiality, integrity, competence, information, records.
Comply (488) Regulations.
Strive (395) Maintain, improve.
Com base nesse quadro, podemos responder a pergunta de pesquisa sugerindo que os
códigos de ética valorizam:
• A proteção a direitos fundamentais tanto do ser humano, em geral, quanto mais
especificamente dos clientes da empresa (‘respect dignitiy, privacy,
39
confidentiality’; ‘maintain confidentiality, integrity’).
• A proteção à informação privada (‘respect/ensure ... information’, ‘maintain ...
information/records’).
• O direito a serviços de qualidade (‘provide quality .../care).
• A promessa de melhorar (‘strive to maintain/improve ...’).
• A necessidade de respeito aos regulamentos (‘comply with regulations’).
3.8. Comentários finais
Os códigos de ética são instrumentos voltados para a regulamentação da prática
profissional. Eles visam a proteger os profissionais bem como a sua clientela e demais
pessoas envolvidas profissionalmente com eles. No mundo atual, eles assumem uma
importância vital, pois qualquer alegação de má conduta pode significar uma acusação e
subseqüente processo jurídico. Além disso, na medida em que o mundo cresce, e a
globalização se intensifica, as empresas e associações se tornam cada vez maiores e mais
complexas e lidam com um número maior de empregados, clientes e afiliados, o que
aumenta as chances de conduta anti-ética, mesmo não intencional. Isso faz com que os
códigos funcionem como uma salva-guarda para evitar danos à população, mas também
para minimizar os problemas jurídicos que tais erros de conduta possam trazer ao
profissional liberal, à empresa ou a um setor específico. Por tudo isso, podemos esperar
que os códigos de ética se tornem instrumentos cada vez mais presentes na sociedade.
De modo geral, nossa análise revelou a linguagem específica usada para valorizar e
restringir comportamentos por meio do gênero código de ética. Conforme dissemos na
introdução, nenhuma abordagem de análise de gênero esgota todos os aspectos relevantes
de qualquer gênero; sendo assim, nossa análise não tem a pretensão de ser completa ou
definitiva. O WordSmith Tools nos permitiu verificar padrões centrais do gênero e como
eles normatizam e idealizam a vida em sociedade.
40
4. Metáfora
4.1. Introdução
Neste capítulo, enfocaremos a aplicação do programa WordSmith Tools no estudo de
metáforas em corpora.
Para muita gente, metáfora é uma figura de linguagem e como tal é um acessório
lingüístico para embelezar a fala e a escrita. Este seria o caso, por exemplo, de ‘Julieta é o
Sol’, de Shakespeare, em que ‘sol’ é uma metáfora de vida, luz, jovialidade, etc. Metáfora
é uma matéria que se aprende no ensino médio, provavelmente, juntamente com outras
figuras de linguagem, como metonímia, sinédoque e catacrese. As pessoas são ensinadas a
usá-las para entender o texto literário e poético, principalmente.
Esse é apenas um dos conceitos de metáfora. Atualmente, há outras visões que expandem
o escopo da metáfora e a redefinem no conjunto das demais figuras de linguagem. Uma
dessas visões é a cognitiva, em que a metáfora aparece como um recurso natural (assim
como um dos cinco sentidos) e essencial do ser humano para entender o mundo. A
metáfora deixa de ser apenas uma das muitas figuras de linguagem para ser a figura
principal, primordial. Ela não mais significa apenas um recurso lingüístico para
ornamentar o discurso literário, mas fundamentalmente um tipo de processamento mental.
Esse processamento é o que nos permite entender conceitos abstratos, como amor, tempo e
vida, entre outros. Por exemplo, quando dissemos ‘meu casamento está indo de vento em
popa’, estamos conceitualizando amor em termos de uma viagem. Partimos de um
conceito concreto, a viagem, para entender um conceito abstrato, o amor. A metáfora está
nessa relação entre dois conceitos díspares que se unem para que possamos entender um
deles em termos do outro. Assim, os casais se metaforizam em viajantes, a vida conjugal
se metaforiza numa jornada e as brigas se metaforizam em acidentes de percurso. Na
medida em que a metáfora serve para lidarmos com conceitos, ela recebe, nessa visão, o
nome de metáfora conceptual (‘conceptual metaphor’).
As metáforas conceituais são, nessa visão, maneiras de que nossa mente dispõe de lidar
com a vida ao nosso redor, com o nosso cotidiano. As metáforas passam a ser recursos
corriqueiros, que qualquer um coloca em prática, desde a mais humilde das pessoas, até a
mais literata. Qualquer um pode dizer ‘meu namoro não vai bem’, sem se dar conta que
está metaforizando o conceito de amor, pois o conceito de amor é naturalmente metafórico.
41
Não há maneiras 100% literais de expressar o conceito de amor. Podemos tentar definir
amor de maneira puramente biológica, como alguns tentam fazer, dizendo que se trata de
uma reação química impulsionada pelo instinto de procriação. Mas essa definição deixa de
lado a essência do amor, o sentimento, as emoções, sendo portanto insatisfatória para
exprimir esse conceito na sua plenitude e no nível em que as pessoas o percebem no dia a
dia. Além disso, mesmo que desçamos a esse nível ‘básico’ dos processos biológicos do
organismo para definir amor, logo nos depararemos com algumas metáforas! Por exemplo,
se dissermos que os ‘neurônios de um amante envia informações para os músculos e os
órgãos’, estaremos empregando pelo menos uma metáfora nessa explicação: ‘enviar
informação’. Claramente, os neurônios não enviam informação, de fato. Eles enviam
correntes elétricas e substâncias químicas que interpretamos como informação; ou seja, já
metaforizamos a troca de impulsos elétricos entre células como ‘informação’. Dessa
forma, atribuímos sentido a essa troca.
Esse exemplo ilustra o fato de que a metáfora é essencialmente um processo de construção
(‘construal’) de sentido do mundo ao nosso redor. Atribuímos sentido às coisas à nossa
volta, para que possamos fazer sentido delas. Assim, quando o computador não funciona,
dizemos que ‘ele não quer cooperar’ e dessa forma o metaforizamos em uma pessoa.
Quando temos pressa, dizemos ‘tempo é dinheiro’, e assim metaforizamos a perda de
tempo em perda de dinheiro, algo palpável. Quando conseguimos um emprego melhor,
dizemos que ‘subimos na vida’, metaforizando a melhora financeira em uma posição
espacial (para cima).
Os exemplos acima expõe os dois tipos chave de metáfora que estamos tratando: a
conceptual e a lingüística. A metáfora conceptual, conforme dissemos, exprime um
conceito novo que surge a partir da aproximação de dois conceitos díspares. A metáfora
lingüística, por sua vez, são as palavras realmente empregadas no texto e na fala de modo
metafórico. Normalmente, dizemos que a metáfora conceptual subjaz à metáfora
lingüística; ou seja, a metáfora conceptual não é verbalizada, ela reside na mente dos
falantes e ‘licencia’ as metáforas lingüísticas. Esse licenciamento é o responsável pela
inteligibilidade de várias metáforas lingüísticas numa dada cultura. Por exemplo, ‘nosso
noivado está a todo vapor’, ‘nosso casamento naufragou’ e ‘estamos indo de vento em
popa’ são todas metáforas lingüísticas licenciadas pela metáfora conceptual AMOR É UMA
VIAGEM. Na nossa cultura brasileira, ocidental, não estranhamos tais expressões quando as
42
empregamos para falar de casamento, vida conjugal, relacionamento marido e mulher e
coisas assim relacionadas ao amor. Ou seja, no contexto de amor, tais expressões são
interpretáveis naturalmente, em nossa cultura, com referência ao amor, devido ao
licenciamento providenciado pela metáfora conceptual que os falantes possuem
internalizada.
A metáfora conceptual e a metáfora lingüística são analisadas por meio de alguns termos
técnicos, que são:
Domínios. Esses são as esferas de conhecimento ou de atuação humana que entram em
jogo numa metáfora conceptual. No exemplo da metáfora AMOR É UMA VIAGEM, visto
acima, há dois domínios: amor e viagem. Amor é chamado de domínio alvo (‘target
domain’), pois ele é o domínio metaforizado; viagem, por sua vez, é o domínio fonte
(‘source domain’), pois é dele que emprestamos os elementos para metaforizar o outro
domínio. As relações entre os elementos de um domínio e de outro são chamadas de
mapeamentos (‘mappings’).
Tópico e Veículo. Esses são termos usados para analisar as metáforas lingüísticas. Veículo
é o elemento metaforizado da metáfora lingüística. Por exemplo, em ‘nosso noivado está a
todo vapor’, ‘a todo vapor’ é o Veículo; ‘nosso noivado está’ é o Tópico. O Tópico pode
estar ausente ou implícito na metáfora lingüística. Em uma conversa onde se discuta o
noivado de um dos interlocutores, seria perfeitamente compreensível o uso de ‘a todo
vapor’ sozinho num enunciado para se referir a noivado. Nesse caso, a metáfora lingüística
seria inteiramente constituída de Veículo.
Essa foi uma pequenina introdução ao campo dos estudos da metáfora na perspectiva
cognitiva (Lakoff e Johnson, 1980) e do uso (Deignan, 2005). Há ainda muitas outras
questões e refinamentos que não pudemos abordar por limitações de espaço e do escopo
desta obra.
O estudo da metáfora, nesses termos, coloca muitos desafios e oportunidades para a
Lingüística de Corpus. Os desafios podem ser resumidos assim:
Sendo a metáfora um recurso corriqueiro, deve estar presente em grande quantidade em
corpora eletrônicos. Como podemos desenvolver procedimentos de análise de corpus que
nos permitam dar conta de uma parcela representativa dessas metáforas?
43
As ferramentas que dispomos em Lingüística de Corpus são voltadas para o estudo do
comportamento de palavras e de classes gramaticais anotadas automaticamente em
corpora. Ou seja, as ferramentas funcionam a partir da busca de formas ortográficas. As
metáforas são justamente formas que possuem mais de um significado (‘a todo vapor’
pode significar ‘indo bem’, no contexto da vida conjugal mas também pode significar
‘indo rápido’ no caso de uma locomotiva a vapor). Sendo a metáfora algo que depende do
sentido, como podemos usar as ferramentas que dispomos na Lingüística de Corpus para
encontrar os usos metafóricos em corpora?
Do mesmo modo, o estudo da metáfora coloca oportunidades para a Lingüística de
Corpus:
A Lingüística de Corpus tem mostrado evidências abundantes e consistentes de que o
sentido das palavras se mapeia nos seus usos. Ou seja, podemos deprender o significado
das palavras por meio da maneira como elas são usadas. Mesmo palavras polissêmicas
podem ter seus sentidos desambigüizados por meio da observação dos padrões. Por
exemplo, os sentidos de ‘manga’ (de roupa e de chupar) são facilmente perceptíveis pelos
padrões que elas formam. Quando o sentido é o de ‘fruta’, os padrões mais comuns
incluem ‘chupar manga’, ‘comprar / vender manga’, ‘carga de manga’ e ‘experimentar a
manga’, entre outros. Já quando o sentido é de ‘parte de uma camisa’, entre os padrões
mais típicos estão ‘manga longa’, ‘manga curta’, ‘sem manga’ e ‘camisa de/sem’. Ou seja,
os sentidos são mantidos separados por meio da padronização exclusiva de cada sentido.
Quando um padrão típico de um sentido é usado com outro sentido (‘chupei uma manga
curta’), surge muitas vezes a ambigüidade, que por sua vez pode resultar em problema de
comunicação, em humor ou mesmo em poesia. Do ponto de vista dos usuários da língua,
essa desambigüização é quase sempre automática e inconsciente, pelo contexto, o que nos
sugere que identificamos e interpretamos os padrões sem grande despêndio cognitivo.
Assim, se o significado está no uso, o sentido metafórico também deve estar. Dessa forma,
o estudo da padronização léxico-gramatical pode nos apontar a distinção entre os sentidos
metafórico e não metafórico das palavras.
Se a metáfora é um fenômeno cognitivo, o seu estudo representa uma maneira de a
Lingüística de Corpus conseguir inferir o processamento mental a partir das instâncias de
uso. Isso viria como resposta parcial a uma das grandes críticas à Lingüística de Corpus é a
de que ela tem sido pouco capaz de teorizar a respeito da linguagem em geral
44
(cf.Thompson e Hunston, 2006 :2).
Com base nesses desafios e oportunidades de pesquisa que se colocam diante da
Lingüística de Corpus por meio da interface com os estudos da metáfora, podemos utilizar
o WordSmith Tools para encaminhar uma análise que venha mostrar como encontrar e
como se realizam as metáforas em um corpora.
4.2. Recursos
• Utilizamos os seguintes recursos na análise desenvolvida para este capítulo:
• Um corpus de pesquisa, composto por 868 pronunciamentos e discursos do
presidente Lula, retirados do sítio www.presidencia.gov.br. O corpus possui
1.779.713 ocorrências (‘tokens’) e 32.757 formas (‘types’).
• Uma lista de palavras de corpus de referência, da mesma língua do corpus de
pesquisa, gravada no formato WordSmith Tools. Nos exemplos, empregamos o
Banco de Português, com 230.460.560 ocorrências (‘tokens’) e 607.392 formas
(‘types’).
• O programa KeyWords.
• O programa WordList.
• O programa Concord.
4.3. Análise do corpus
Um dos grandes fenômenos lingüísticos da vida política brasileira tem sido o que a mídia
tem chamado de ‘metáforas do presidente Lula’. Desde que os jornais e revistas
perceberam que Luís Inácio Lula da Silva emprega deliberadamente metáforas em seus
discursos e pronunciamentos, houve comentários incessantes sobre a eficácia de tal recurso
na sua argumentação. Lendo tais matérias, percebe-se que metáfora, para os analistas da
fala do presidente, é um recurso de retórica para tornar as idéias mais claras para a
audiência e convencer a platéia. Na medida em que as metáforas ‘tornam mais fácil’ a
compreensão de temas complexos (como a política monetária) para uma população em
grande parte iletrada, elas ainda ajudam a ‘guiar’ a compreensão do interlocutor para um
desfecho desejado. Por exemplo, quando Lula explica a situação econômica grave do país
45
quando assumiu o governo dizendo que ‘o Brasil estava numa UTI’, ele torna mais
concreto e palpável o sentido abstrato de ‘déficit federal orçamentário’ e guia a
compreensão dessa situação em termos de um doente internado em UTI. A metáfora
conceptual que subjaz esse exemplo pode ser algo como UM PAÍS COM PROBLEMAS
FINANCEIROS É UM PACIENTE INTERNADO EM UMA UTI. Ela comporta vários mapeamentos,
como: (a) os médicos são o governo empossado; (b) a família do doente é o povo
brasileiro; (c) o tratamento são as medidas econômicas adotadas pelo governo, entre
muitos outros. A metáfora exprime tudo isso de modo implícito, com a conclusão, também
implícita, de que o povo deve confiar no governo ou então o paciente morre, pois quem
está na UTI não tem opção de escolher seu próprio tratamento.
Embora essa interpretação seja bastante coerente com o contexto em que a metáfora
lingüística apareceu, não podemos afirmar (1) que tenha sido essa a intenção do presidente
ao usá-la, nem (2) que o povo em geral tenha interpretado dessa forma. O que podemos
fazer, na análise, é levantar hipóteses e fundamentá-las com evidências do corpus.
Este foi apenas um dos exemplos de metáfora do presidente Lula, notadamente um
daqueles que saltam aos olhos. Mas a premissa básica da análise de metáfora com corpus é
justamente que deve haver muitas outras metáforas no corpus de que não temos
consciência, seja porque não lemos o corpus inteiro, seja porque nossa leitura por mais
atenta que seja ainda é falha. Dessa forma, precisamos buscar metáforas em um corpus.
4.4. Análise de palavras-chave do corpus
Toda palavra de um corpus tem algum potencial de ser usada metaforicamente. Portanto,
temos para começar tantos Veículos quantos há formas ou vocábulos (‘types’) no corpus,
ou seja, cerca de 33 mil. Claramente, precisamos de um mecanismo para fazer uma
triagem inicial de palavras.
Para isso, usamos a ferramenta KeyWords, para nos mostrar as palavras que sejam mais
características do corpus. Para retirar as palavras-chave, primeiramente fizemos uma lista
do corpus e a salvamos. A seguir, fizemos uma outra lista de palavras do corpus de
referência, o Banco de Português. Por fim, comparamos as duas com o programa
KeyWords.
A figura abaixo mostra a tela do KeyWords com as palavras mais chave do corpus de
46
pesquisa.
A lista está classificada por ordem de ‘keyness’, isto é, em ordem decrescente pelo valor
da coluna ‘Keyness’. Assim, a palavra ‘mais chave’ do corpus é ‘nós’, pois possui um
‘keyness’ de 78495,1. Esse valor, por sua vez, representa a extensão da diferença de
freqüência de ‘nós’ nos dois corpora; no corpus de estudo, as ocorrências de ‘nós’ (16252)
correspondem a 0,91% do total de ocorrências do corpus inteiro, ao passo que no corpus
de referência, as ocorrências (64214) ocupam apenas 0,03% do corpus. A diferença entre
os percentuais são muito grandes (mais de 30 vezes), e é isso que o valor de Keyness
reflete.
4.5. Análise de metáfora
Para a análise de metáfora, é preciso olhar a lista de palavras-chave e ainda assim
selecionar alguns candidatos a metáfora, ou seja, palavras que tenham algum potencial
metafórico. Este é um procedimento subjetivo, que depende da experiência do analista.
Entretanto, há algumas classes de palavras que possuem maior probabilidade de uso
metafórico (Berber Sardinha, no prelo), e portanto o analista pode começar por elas:
• Adjetivos
47
• Substantivos comuns
• Verbos plenos
Por verbos plenos, entendemos os verbos como ‘cantar’, ‘correr’, ‘martelar’, cujo sentido
básico não depende de complemento. Em contrapartida, os chamados verbos
‘deslexicalizados’ possuem um sentido independente muito vago e por isso necessitam de
complementação, como ‘ter’, ‘dar’ e ‘tomar’, por exemplo.Os verbos deslexicalizados são
altamente metafóricos, principalmente porque se aliam a substantivos abstratos, resultando
em metáforas ontológicas, como ‘ter esperança’, onde ‘esperança’ é metaforizada como
algo concreto, possuível. Contudo, as metáforas resultantes desses verbos tendem a ser
pouco reveladoras do discurso a ser analisado, já que geralmente são recursos da
linguagem em geral.
De modo similar, há a classe das preposições. Elas são usadas metaforicamente com muita
freqüência, porém seu uso metafórico é bastante geral (p.ex. ‘ele está em apuros’, onde
‘em’ é uma metáfora de recipiente) e pouco indicativo das especificidades do discurso
contido no corpus de pesquisa.
Dessa forma, de volta à lista de palavras-chave, podemos seguir os seguintes passos:
Selecionar palavras-chave que sejam adjetivos, verbos plenos e substantivos comuns.
Fazer concordâncias de cada palavra. Caso a palavra possua muitas ocorrências, trabalhar
com uma amostra delas. O ideal é usar cerca de mil instâncias de uma palavra (Deignan,
2005). Se a freqüência for superior a mil, aplicar a opção ‘at random’, de Settings, e digitar
um número que reduza o total de linhas para perto de mil. Por exemplo, se a freqüência for
3000, digitar 3, para que sejam retiradas 1000 ocorrências (3000 / 3). Esse denominador
somente pode ser um número inteiro. Portanto, se houver 2367 ocorrências, é preciso usar
2 ou 3, para chegar próximo de 1000 (2367 / 2 = 1183,5; 2367 / 3 = 789).
Retirar os colocados das palavras e verificar quais parecem indicar metáforas.
Voltar à concordância e analisar cada linha dela, prestando atenção nos colocados
promissores indentificados na etapa anterior. Decidir se o uso da palavra é metafórico e
codificar a concordância, de tal modo que cada uso metafórico seja sinalizado por um
código (p.ex. ‘m’) na coluna ‘Set’ da concordância.
48
Elencar as metáforas lingüísticas codificadas na concordância.
Nomear as metáforas conceptuais subjacentes a elas.
Seguindo esses procedimentos, o primeiro candidato a metáfora da lista de palavras-chave
era ‘povo’, na posição 24 da lista de palavras-chave:
Fizemos a concordância dela:
Analisamos a concordância e notamos que não havia nenhum uso metafórico.
Fizemos o mesmo com os próximos candidatos (dizer, discurso, coisas, fome, coisa, países
49
e desenvolvimento).
Para ilustrar, tomemos ‘desenvolvimento’. Fizemos a concordância dessa palavra e a
seguir verificamos seus colocados. Aplicamos o denominador de redução 3, conforme
explicado acima, pois havia mais do que mil ocorrências (2367), fazendo restar 789 linhas
de concordância para analisar.
A seguir classificamos a concordância pela segunda palavra à esquerda (L2):
Novamente, o analista deve usar sua experiência e conhecimento para identificar possíveis
Veículos na lista de colocados. Entre os colocados, os seguintes parecem promissores,
juntamente com os campos fonte que parecem indicar:
Colocado Campo fonte possível
Modelo Construção
Projeto Construção
50
Vias Viagem
Caminho Viagem
Retomada Viagem
Ciclo ciclo
Busca Viagem
Para cada um dos colocados, é preciso voltar à concordância e analisá-la. Anotamos os
usos metafóricos com o código ‘m’ na coluna Set da concordância:
Quando reconsideramos a análise de uma linha, digitamos um outro código em lugar do
‘m’, pois não é possível apagar um código já digitado na coluna Set. Escolhemos digitar
‘z’ nesses casos:
51
Re-classificamos a concordância pela segunda palavra à esquerda (2L) e isso nos ajudou a
verificar os usos potencialmente metafóricos. Não há regra sobre qual coluna deva ser a de
classificação, por isso o analista deve experimentar com várias. Uma mesma concordância
pode ser reclassificada de vários modos para permitir a visualização dos padrões.
Ao final da análise da concordância, fizemos uma reclassificação pela coluna ‘Set’.
Tivemos o cuidado de fazer uma segunda classificação pela posição 2L (para mantermos a
concordância ordenada conforme a usamos na análise) e selecionar a opção ‘Ascending’
(para que as linhas com ‘m’ fôssem todas deslocadas para o topo da lista):
Como resultado, obtivemos a concordância a seguir:
52
As linhas que não possuem código (os usos não metafóricos) tornam-se cinza. As linhas
com o código ‘z’ (os casos reconsiderados que passaram de metafóricos para não
metafóricos) continuam em cor preta.
Com essa classificação, pudemos facilmente contar quantos usos metafóricos havia: 159 (é
o número da linha onde aparece o último ‘m’ na coluna Set). A probabilidade de uso
metafórico de ‘desenvolvimento’ pode ser calculada assim:
159 / 789 = 0.201
Multiplicando por 100, obtemos a porcentagem de uso metafórico: 20%.
A seguir, elencamos as metáforas lingüísticas que codificamos e nomeamos as metáforas
conceptuais:
• Acelera o desenvolvimento (desenvolvimento é uma máquina)
• Avenida do desenvolvimento (desenvolvimento é viagem)
• Caminho do desenvolvimento (desenvolvimento é viagem)
• Ciclo de desenvolvimento (DESENVOLVIMENTO É UM CICLO)
• Com vistas a um desenvolvimento (DESENVOLVIMENTO É UM OBJETO)
53
• Dimensão espacial do desenvolvimento (DESENVOLVIMENTO É UM OBJETO)
• Em vias de desenvolvimento (desenvolvimento é uma viagem)
• Entrave ao desenvolvimento (DESENVOLVIMENTO É VIAGEM)
• Estimular o desenvolvimento (desenvolvimento é um organismo)
• Estrada larga do desenvolvimento (DESENVOLVIMENTO É UM CAMINHO)
• Estratégia de desenvolvimento (DESENVOLVIMENTO É GUERRA)
• Etapa do desenvolvimento (desenvolvimento é um objeto)
• Gargalos do desenvolvimento (desenvolvimento é uma garrafa)
• Geração de desenvolvimento (desenvolvimento é um organismo)
• Luta pelo desenvolvimento (DESENVOLVIMENTO É GUERRA)
• Mar aberto do desenvolvimento (desenvolvimento é um mar aberto / viagem)
• Modelo de desenvolvimento (desenvolvimento é uma construção)
• Níveis de desenvolvimento (desenvolvimento é um recipiente)
• Padrão de desenvolvimento (desenvolvimento é um objeto)
• Paradigma de desenvolvimento (desenvolvimento é uma ciência)
• Passar pelo desenvolvimento (desenvolvimento é um caminho)
• Perspectivas de desenvolvimento (DESENVOLVIMENTO É UM OBJETO)
• Pilar do desenvolvimento (desenvolvimento é uma construção)
• Plano de desenvolvimento (desenvolvimento é uma construção)
• Projeto de desenvolvimento (desenvolvimento é uma construção)
• Retomada do desenvolvimento (desenvolvimento é uma viagem)
54
• Rota do desenvolvimento (desenvolvimento é uma viagem)
• Rumos do desenvolvimento (desenvolvimento é uma viagem)
• Trava o desenvolvimento (desenvolvimento é uma máquina)
A análise indica que o presidente Lula metaforizou desenvolvimento principalmente como
objeto, con ou como viagem. Assim, ele evocou o campo fonte de CONSTRUÇÃO (e seu
superordinado OBJETO) para dizer que desenvolvimento é algo que se vê ao longe, que
possui partes, que se planeja, modela, padroniza e projeta. Ele também retirou do campo
fonte de VIAGEM mapeamentos para conceitualizar o desenvolvimento como um lugar para
onde se caminha, por onde se passa e onde se pode encontrar obstáculos. Juntando essas
principais metáforas, parece que o conceito de desenvolvimento presente na fala do
presidente é de algo que se constrói e que é atingível ao final de uma rota. As duas
metáforas são compatíveis, pois reforçam a idéia de um processo que se desenrola ao
longo do tempo.
4.6. Comentários finais
Neste capítulo, mostramos maneiras de identificar metáforas em corpora com auxílio do
programa WordSmith Tools. O programa oferece ao analista de metáforas maneiras de
fazer uma triagem de palavras com potencial metafórico, via palavras-chave. Também
proporciona meios de analisar cada candidato, com os colocados das concordâncias. Por
fim, o programa permite a codificação dos casos metafóricos na própria concordância, o
que ajuda o pesquisador a organizar sua análise. Embora grande parte da pesquisa em
metáfora ainda seja qualitativa e subjetiva, as ferramentas que o WordSmith Tools coloca
à nossa disposição são muito úteis e produtivas para o pesquisador, auxiliando em etapas
fundamentais de um projeto de pesquisa, notdamente na triagem, análise e codificação do
corpus.
55
5. Tradução
5.1. Introdução
Neste capítulo, apresentamos o uso do WordSmith Tools para investigação de questões
relacionadas aos estudos da Tradução, mais especificamente a questão dos Universais de
Tradução, que são hipóteses lançadas por Mona Baker (1993) a respeito de tendências de
larga escala passíveis de observação em textos traduzidos.
Os Universais de Tradução propostos por Baker (1993) são quatro:
(1) Simplificação: tendência do tradutor em tentar tornar mais simples a linguagem da
tradução, por meio, por exemplo, de frases mais curtas e vocabulário mais repetido.
(2) Explicitação: tendência do tradutor em explicitar informações do texto original, o que
pode acarretar por exemplo textos mais extensos, vocabulário maior e maior número de
orações ligadas por conjunções nos textos traduzidos.
(3) Normalização: tendência do tradutor em suprimir traços distintivos do texto original,
revelando-se, por exemplo, pelo uso de um mesmo vocábulo na língua de chegada para
traduzir vários vocábulos diferentes da língua de partida.
(4) Estabilização: tendência de tradutores produzirem textos traduzidos que são mais
parecidos entre si do que com os textos originais correspondentes.
Desses quatro universais, trataremos dos três primeiros neste capítulo. O quarto,
estabilização, não será investigado pois requer comparação entre vários corpora de textos
traduzidos e entre vários corpora de textos originais, o que foge do escopo da obra.
5.2. Recursos
Um corpus paralelo, composto por textos originais e suas traduções. Utilizamos um corpus
paralelo composto por resumos de dissertações escritos em português e suas traduções para
o inglês, retirados de teses de Lingüística Aplicada defendidas no PPG em Lingüística
Aplicada e Estudos da Linguagem (LAEL), da PUCSP6. O corpus é composto de 75 textos
em cada língua. Ele existe em duas formas: paralelo (com os textos em cada língua
6 Agradeço Lilian Mello a cessão do uso desse corpus.
56
armazenados em arquivos independentes) e alinhado (com todos os textos reunidos em um
mesmo arquivo, de tal modo que cada período do original é emparelhado com a sua
tradução). O corpus alinhado foi obtido com o Alinhador de Corpora do CEPRIL
(www2.lael.pucsp.br/corpora).
Um etiquetador morfossintático (‘part of speech’) para cada uma das línguas representadas
no corpus, para investigar pontos relacionados aos universais de explicitação e
normalização. Empregamos os etiquetadores onlines de português e de inglês disponíveis
no sítio de corpora do CEPRIL (www2.lael.pucsp.br/corpora).
Um concordanciador paralelo, para buscar ocorrências de palavras no corpus alinhado.
Opcionalmente, o Text Converter, utilitário do WordSmith Tools, que pode ser usado para
inserir etiquetas de final de período no corpus, o que é desejável para padronizar a
formatação de períodos dos corpora.
5.3. Simplificação
A simplificação pode se revelar de dois modos nos textos traduzidos:
Maior número de períodos nos textos traduzidos em relação aos originais; isso indica que
frases longas do texto original foram quebradas ou foram eliminadas no texto traduzido.
Relação forma/item (‘type/token ratio’) mais baixa nos textos traduzidos; isso indica um
maior número de repetição do mesmo léxico no texto traduzido em comparação ao
original. A relação forma/item é calculada, tradicionalmente, pela divisão do número de
formas (types) pelo número de itens (tokens). O WordSmith Tools ainda multiplica esse
resultado por 100. Assim, se há 3791 formas e 25429 itens, a razão será 0,149082, o que
multiplicado por 100 e arredondado para 2 casas decimais resulta em 14,91. Para
interpretar esse número, podemos dizer que 14,91% das palavras do texto ocorre apenas
uma vez, e que 85,09% (isto é, 100 – 14,91) repete-se pelo menos uma vez nos textos.
Para verificar essas hipóteses, precisamos retirar dos dois corpora o número de frases e a
relação forma/item.
5.3.1. Número de períodos
O WordSmith Tools reconhece automaticamente o final de período de acordo com a
57
especificação do campo ‘sentence’, no menu ‘Settings / Text characteristics’. O ‘default’ é
reconhecer um período pela presença de um ponto final, de exclamação ou de interrogação
seguido de um ou mais espaços em branco (ou tabulações) e uma seqüência de um ou mais
caracteres que se incia por letra maiúscula.
Porém, em português e inglês, podemos indicar o final de período de vários outors modos:
• Ponto final. É o caracter padrão para delimitar períodos, mas se confunde com o
ponto decimal.
• Ponto de exclamação.
• Ponto de interrogação.
• Reticências.
• ‘Bullets’. Muitas listas feitas com esse tipo de marcador não incluem ponto final no
término de cada frase.
• Quebra de linha. É um caracter invisível que cria parágrafos; é usado para delimitar
frases por meio de diagramação do texto. Títulos de trabalhos geralmente vêm
geralmente terminados por uma quebra de linha, sem ponto final ou outro marcador
tradicional. Listas corridas também, embora nesse caso seja mais controverso
decidir se cada linha da lista é um período ou se a lista inteira deva ser um período.
De qualquer modo, muitas listas não possuem um ponto final nem mesmo quando
se encerram, confundindo-se, assim, com o período subseqüente.
Desse modo, para que a contagem dos períodos seja confiável, é preciso padronizar a
indicação de final de período nos dois corpora. Isso pode ser feito pelo menos de dois
modos:
Digitação de uma etiqueta não-ambígua para final de frase. O pesquisador pode editar os
textos, buscando as diversas marcas de final de período possíveis e substituí-las por um
código específico, como </s> ou .EOS . A busca pode ser semi-automatizada, por
exemplo, com a opção ‘Localizar / Substituir’ de um processador de texto, com expressões
regulares de um aplicativo como ‘sed’ ou com o próprio ‘Text Converter’ do WordSmith
Tools. O analista deve tomar cuidado, porém, e revisar as substituições automáticas, pois
58
nem todo caracter ‘.’ é um final de período, além de inserir a etiqueta onde não há caracter
de final de frase.
Etiquetagem automática. O pesquisador pode etiquetar seu corpus com um etiquetador
morfossintático (como por exemplo os disponíveis para inglês e português em
www2.lael.pucsp.br/corpora), e o etiquetador automaticamente insere, além das etiquetas
de classes gramaticais, uma etiqueta específica para final de frase, tomando cuidado para
desambigüizar os casos problemáticos (como a distinção entre ponto decimal e final,
reticências, etc). Depois de etiquetado, o pesquisador deve descobrir qual etiqueta foi
empregada pelo etiquetador para sinalizar o final de período.
O corpus que usamos aqui foi padronizado segundo a opção 1 acima; inserimos nele a
etiqueta .EOS para designar um final de período.
Depois de feito esse pré-processamento, pudemos contar o número de períodos. Para tanto,
fizemos uma lista de palavras de cada corpus, separadamente, e em cada uma, procuramos
a ‘palavra’ EOS na lista. Os resultados foram os seguintes:
Textos Períodos
Originais 739
Traduzidos 761
Os resultados sugerem indícios de simplificação, pois há um número maior de períodos
nas traduções do que nos originais, sugerindo que na tradução deve haver um maior
número de frases curtas.
5.3.2. Relação forma/item
A estatística forma/item é calculada automaticamente pelo WordList e informada na lista
‘Statistics’:
59
A coluna ‘Overall’ indica os valores para o corpus inteiro, enquanto as demais colunas
mostram os números individuais de cada arquivo do corpus. A informação que buscamos
está na linha ‘Type/Token Ratio’: 14.91. A lista oferece ainda outro tipo de Type/Token
Ratio, o Standardised. Na tela mostrada essa estatística está em branco porque o tamanho
do intervalo padronizado usado pelo Standardised Type/Token Ratio é maior do que o
tamanho de cada arquivo do corpus. Seria necessário mudar esse valor no menu ‘Settings’,
aba ‘Wordlist’, opção ‘Type/Token basis’. No nosso caso, o Type/Token Standardised não
é interessante pois não estamos lidando com corpora independentes, cujo tamanho pode
variar. Nesse tipo de pesquisa com corpus paralelo, a extensão de um corpus está
relacionada à extensão do outro, por isso o Type/Token Ratio tradicional é mais
apropriado.
Os resultados foram os seguintes:
Textos Razão Forma/Item
Originais 14.91
Traduzidos 11.98
60
Esses números indicam que o vocabulário dos textos originais é mais rico, havendo mais
repetição de vocabulário nos textos traduzidos. Isso sustenta a hipótese de simplificação.
Contudo, é preciso lembrar que o português possui uma morfologia mais diversificada do
que o inglês, com maior número de formas conjugadas e flexionadas em gênero. Tudo isso
significa a priori um número maior de itens de vocabulário em textos escritos em
português do que em inglês. Em outras palavras, corpora de português tenderiam a ter
naturalmente mais formas (types) do que corpora de inglês. Por conta disso, não podemos
afirmar com certeza que a diferença na razão forma/item observada acima é resultado da
simplificação da tradução ou de características inerentes à língua de partida. Para controlar
o efeito da morfologia nas duas línguas, seria preciso lematizar os dois corpora. Como os
lemas são formas canônicas, não flexionadas, eles nos dariam uma idéia mais precisa da
simplificação. Entretando, como WordSmith Tools não faz lematização automática de
forma eficiente, resta a dúvida de qual a parcela da influência da morfologia do português
nos resultados. De qualquer modo, a diferença observada deve ser levada em conta como
indício e não como prova definitiva de simplificação.
5.4. Explicitação
Há três índices que podem revelar a presença de explicitação:
(1) Tamanho dos textos traduzidos é em maior do que o dos textos originais. Textos
maiores podem ser fruto de tentativas do tradutor em explicitar conceitos e referências
culturais do texto original.
(2) Maior número de formas (‘types’) no texto traduzido em comparação ao original. O
número de formas indica o tamanho do vocabulário de um texto ou corpus. Um
aumento do tamanho do vocabulário, no texto traduzido, pode ser indício de
explicitação, na medida em que o tradutor precisa de mais palavras diferentes para
explicitar conceitos e referências culturais, por exemplo.
(3) Maior número de conjunções e locuções adjetivas no texto traduzido. Para explicitar
conceitos e aspectos culturais, o tradutor pode fazer uso de mais orações interligadas
por conjunções.
Para investigar esses pontos, precisamos retirar de cada corpus, respectivamente: número
de itens (tokens), números de formas (types) e número de conjunções.
61
5.4.1. Número de itens (‘tokens’)
O tamanho dos textos é indicado pelo número de palavras (‘tokens’) contido neles. O
WordSmith Tools mostra o número de ‘tokens’ por default na tela ‘Statistics’ da lista de
palavras, conforme mostrado acima. O analista deve simplesmente fazer uma lista de
palavras para cada corpus, com o Wordlist e depois anotar a informação referente ao
número de tokens, conforme fizemos:
Textos Itens (‘tokens’)
Originais 25429
Traduzidos 24886
Conforme mostram os resultados, o corpus de textos traduzidos é menor do que o de textos
originais; sendo assim, não há evidência de explicitação.
Isso parece ser conseqüência da presença de simplificação, indicada antes. Na medida em
que os textos eram simplificados, eles foram diminuídos também. Se houve explicitação,
ela não se revela por esse traço.
5.4.2. Número de formas (‘types’)
Da mesma forma que o número de ‘tokens’, o número de ‘types’ é informado
automaticamente pelo Wordlist quando as listas de palavras são geradas. O analista deve
simplesmente abrir as listas de Statistics de cada corpus e anotar o número de ‘types’
mostrado lá:
Textos Formas (‘types’)
Originais 3791
Traduzidos 2981
Os números mostram que o vocabulário dos textos traduzidos é menor do que o dos
originais. Desse modo, não há indícios aqui de explicitação.
62
A quantidade bruta de ‘types’ deve ser interpretada com cuidado, conforme comentamos
acima, porque os corpora não foram lematizados. Desse modo, cada forma ortográfica
diferente corresponde a um ‘type’, muito embora eles sejam apenas variações de uma
mesma forma canônica (correr, corro, corre, corres, etc). Isso faz com que os textos em
português possuam naturalmente um número maior de formas ortográficas do o inglês.
5.4.3. Número de conjunções
Para saber o número de conjunções, é preciso etiquetar os corpora automaticamente com
etiquetadores morfossintáticos. Felizmente, há dois etiquetadores disponíveis online no
sítio de corpora do CEPRIL: www2.lael.pucsp.br/corpora, um para português e outro para
inglês, conforme ilustra a tela a seguir. Assim, o primeiro passo foi etiquetar cada corpus
com o etiquetador correspondente, de acordo com a língua.
Os etiquetadores não indicam locuções de qualquer natureza, por isso nos restringimos às
conjunções propriamente ditas.
Depois de etiquetados, os arquivos foram salvos em formato ‘txt’ e foram feitas
concordâncias tendo como palavra de busca as etiquetas referentes a conjunções:
• Português: CJ
63
• Inglês: CC/CS. Cada etiqueta refere-se, respectivamente, a conjunções coordenadas
e subordinadas. As duas etiquetas foram digitadas juntas no campo ‘Search Word
or Phrase’, separadas por uma barra:
As concordâncias foram abertas e classificadas pela primeira palavra à esquerda (1L), isto
é, pela própria palavra etiquetada:
A seguir, cada concordância foi observada atentamente. Os casos de erro de etiquetagem
foram eliminados (com a tecla ‘delete’ e depois clicando no botão ‘zap’); havia 15 erros na
64
etiquetagem em português e três em inglês. Os números restantes foram anotados e são os
seguintes:
Textos Conjunções
Originais 1146
Traduzidos 1460
Os resultados mostram indícios de explicitação, pois os textos traduzidos possuem mais
conjunções do os originais.
5.5. Normalização
Ao contrário dos universais anteriores, não há uma medida quantitativa que indique a
presença ou não de normalização nos textos traduzidos. Por isso, precisamos enfocar
aspectos específicos do texto para empreender um estudo de cunho mais qualitativo. Tendo
o vocabulário em foque, podemos supor que uma possível marca de normalização nos
textos pode ser o uso de um vocabulário menos variado. Ao suprimir palavras ‘anormais’
do texto original e subsituí-las por outras mais gerais, por exemplo, o tradutor estaria
‘suavizando’ o estilo do texto traduzido e, portanto, normalizando-o. Porém, conforme
discutimos acima, uma comparação baseada no número de ‘types’ apenas pode ser
problemática porque português e inglês possuem morfologias diferentes. Dessa forma, se
quisermos saber se houve normalização do vocabulário, precisamos nos deter a classes
específicas de palavras e observar o uso de cada palavra em si. Pensamos, assim, em
enfocar a classe dos substantivos, por ela ser geralmente a mais numerosa.
Para obter os dados necessários para lidar com os substantivos, usamos os corpora
etiquetados morfossintaticamente, conforme descrito na seção anterior. A seguir, fizemos
concordâncias das etiquetas relativas a substantivo:
• Português: N
• Inglês: NN/NNS/NP/NPS. Cada etiqueta refere-se, respectivamente, a substantivos
comuns no singular, substantivos comuns no plural, substantivos próprios no
singular, substantivos próprios no plural. As quatro etiquetas foram digitadas juntas
65
no campo ‘Search Word or Phrase’, separadas por uma barra.
Depois de obtidas as concordâncias, observamos cada uma atentamente e apagamos os
casos de erro de etiquetagem. Foram marcados pelo etiquetador um total de 9119
substantivos no corpus de português, mas eliminamos 418 erros (4,6%), restando assim
8701 ocorrências de substantivos (34% do total de itens). No corpus de inglês, foram
etiquetados originalmente 7321 substantivos, sendo que 16 estavam incorretos (0,2%),
restando assim 7305 substantivos (29,4% do total de itens).
O próximo passo foi encontrar os substantivos de cada corpus, retirando os colocados de
cada concordância (‘Show Collocates’) e re-ordenando (‘Re-sort’) a listagem de
colocados pela primeira palavra à esquerda (isto é, a palavra etiquetada). As telas a seguir
mostram a listagem de colocados do corpus de português (textos originais) e do de inglês
(textos traduzidos), respectivamente:
66
A seguir, queríamos saber qual o número total de substantivos distintos (‘types’) em cada
corpus. Para fazer essa contagem, rolamos a lista até o ponto onde os colocados na posição
L1 possuíam freqüência zero e contamos quantos colocados havia até aquele ponto. Havia
816 deles no corpus de textos originais e 658 no corpus de textos traduzidos.
Essa contagem revelou que havia mais substantivos nos textos originais do que nos
traduzidos. Isso pode ser um indício de normalização, pois vários substantivos do original
devem ter sido traduzidos por um mesmo substantivo.
Contudo, para sabermos se de fato isso ocorreu, precisamos analisar a tradução de cada
substantivo.
Contudo, o programa WordSmith Tools não oferece recursos apropriados para fazer essa
análise, pois não possui meios automáticos de alinhar corpora parelelos, nem de fazer
buscas nesse tipo de corpus. O Concord faz concordâncias em corpora independentes; por
exemplo, se fizermos uma concordância de ‘language’ no corpus de textos traduzidos, não
saberemos como cada instância foi traduzida. Os recursos ideais nesse caso são:
(1) um corpus alinhado. Esse tipo de corpus engloba num mesmo arquivo os segmentos do
texto original emparelhados aos segmentos correspondentes do texto traduzido. Os
segmentos alinhados normalmente são períodos.
67
(2) Um concordanciador paralelo. Esse tipo de concordanciador apresenta a concordância
do item procurado ao lado dos segmentos correspondentes do corpus alinhado.
O recurso mais próximo que o WordSmith Tools possui é o utilitário Aligner (Viewer and
Aligner), que faz um alinhamento por período, texto a texto. O Aligner quebra cada texto
na marca de final de período e emparelha os períodos dos dois textos. O usuário tem a
possibilidade de consertar o alinhamento automático, fazendo edição manual do arquivo
alinhado. Os textos alinhados são chamados pelo WordSmith Tool de ‘Dual Texts’ e
possuem o formato ilustrado na tela abaixo.
Cada período do texto traduzido aparece (em azul) logo abaixo do período correspondente
do texto original (em vermelho), com um código no início. No exemplo acima, temos:
<!—L1, S 1 -->, significando significa ‘language 1’, ‘sentence 1’. Logo abaixo, vem <! --
L2, S 1 -->, isto é, ‘language 2, sentence 1’, e assim por diante.
Para verificar a normalização dos substantivos, seria preciso alinhar cada par de textos
com o Aligner e depois buscar em cada um a palavra escolhida (p.ex. ‘language’). Assim
que for encontrada cada ocorrência dessa palavra, o analista precisa procurar a palavra
corresponde no trecho do texto original (a linha logo acima). Como se pode imaginar, é um
processo bastante demorado, em se tratando de um corpus grande.
Há maneira mais eficientes de fazer isso, como por exemplo com o concordanciador
paralelo do CEPRIL (www2.lael.pucsp.br/corpora/parallelconc):
68
Esse concordanciador retorna o período onde está a palavra de busca lado a lado com o
período correspondente da tradução, conforme ilustra a tela abaixo.
69
O analista deve, então, localizar as palavras em negrito (que são as ocorrências da palavra
de busca, no caso ‘language’) e depois encontrar a tradução delas no trecho correspondente
ao lado. Fizemos esse procedimento e desse modo obtivemos uma lista com as palavras
nos textos originais que foram traduzidas por ‘language’ nos resumos. A tabela a seguir
traz os resultados.
Tradução Freqüência
linguagem 66
língua 44
(zero) 13
línguas 7
lingüística 6
LE 5
idiomas 4
inglês 4
corpus 1
cotidiano 1
enunciação 1
idioma 1
Total 153
Os resultados indicam que onze palavras dos textos originais foram traduzidas por
‘language’. Além disso, ‘language’ foi tradução de ‘zero’, isto é, foi empregada quando
70
não havia nenhuma palavra correspondente no texto original.
Esses dados sustentam a hipótese de normalização, pois indicam que doze modos de
expressão em português se ‘normalizaram’ em apenas uma na tradução. É bem verdade
que a maiora dos casos (110 de 153, ou 72%) é do par ‘língua / linguagem’, cuja tradução
prima facie no inglês é mesmo ‘language’. Mas mesmo descontando esses casos, há ainda
outros 43 que poderiam ser traduzidos de outros modos.
5.6. Comentários finais
Encontramos no corpus traduzido evidências de três dos universais de tradução propostos
por Baker (1993):
Simplificação. Os resumos traduzidos possuem períodos mais curtos e um vocabulário
menos rico do que os originais.
Explicitação. Os resumos traduzidos são menores, e seu vocabulário também é menor. Isso
não indica explicitação. Por outro lado, os resumos traduzidos possuem mais orações
ligadas por conjunção, o que pode ser evidência de explicitação.
Normalização. Os resumos traduzidos possuem menos unidades (‘types’) de substantivos,
o que pode indicar que vários substantivos do texto original foram traduzidos em um
mesmo substantivo. Isso foi comprovado com relação a ‘language’, que serviu como
tradução de onze diferentes substantivos dos textos originais, além de ser empregado
mesmo quando não havia elemento correspondente no original.
Em resumo, a adequação do WordSmith Tools como ferramenta para pesquisa em
tradução variou. Ele se mostrou mais producente para investigar aspectos quantitativos dos
corpora, tais como os necesários para pesquisar os universais de simplificação e
explicitação, pois já traz prontas as contagens de formas e itens do corpus. Já na
investigação de aspectos qualitativos, como os exigidos na pesquisa da normalização, ele
se mostrou menos adequado, pois não possui recursos eficientes de alinhamento de corpora
nem de concordanciamento paralelo. Porém, como o WordSmith Tools se propõe a ser
uma ferramenta geral para pesquisa em corpora e não um conjunto de utilitários
específicos para uma determinada área, o fato de ele não contemplar rigorosamente a
pesquisa em tradução com corpus paralelo e alinhado não chega a ser uma falha. O
pesquisador de tradução pode hoje em dia completar os recursos com ferramentas gratuiras
71
disponíveis na Internet, conforme ilustramos aqui.
72
6. Lingüística Forense
6.1. Introdução
Neste capítulo, apresentaremos uma maneira de usar o WordSmith Tools no âmbito da
Lingüística Forense.
A Lingüística Forense é uma área praticamente desconhecida no Brasil. No exterior,
principalmente na Grã-Bretanha e Estados Unidos, contudo, ela é bastante atuante. A
Lingüística Forense se ocupa da análise da linguagem jurídica, de um lado, e do
fornecimento de evidências lingüísticas em processos judiciais, de outro. No primeiro
caso, ela consiste basicamente da descrição de gêneros como leis, estatutos e
regulamentos, o que é normalmente de interesse para a própria lingüística. No segundo
caso, o lingüista forense é chamado pela Justiça para fornecer testemunho em ações
judiciais, na condição de um especialista em teoria e uso da língua, para ajudar a elucidar
um aspecto de um processo judicial. As questões que um lingüista forense ajuda a
responder são, por exemplo: (a) quem é o autor do texto? (b) de quem é a pessoa cuja voz
está gravada na fita? (c) o teor do texto constitui uma ameaça / confissão / tentativa de
terrorismo, etc? (d) o texto / fita em questão é legítmo ou pode ter sido forjado? Como se
percebe por essas questões, o lingüista forense não trabalha com a tradução ou
interpretação simultânea em tribunais ou delegacias especializadas, mas ele entra em ação
quando o assunto é, por exemplo:
• A identificação da autoria de textos anônimos.
• A legitimidade da propriedade de certas palavras ou expressões como sendo marcas
registradas de uma empresa.
• A acusação de plágio.
• A veracidade de supostas provas lingüísticas de corrupção, ameaça, suicídio, rapto,
conspiração, terrorismo, etc.
• O significado de trechos ambíguos em contratos.
• A clareza de instruções para jurados.
• O infringimento de direitos autorais.
73
Essas são apenas algumas das questões para que o lingüista forense pode prestar serviços,
seja para a promotoria, seja para a defesa.
A análise que o lingüista forense apresenta é o que se chama (no direito norte-americano e
britânico) de ‘expert opinion’, ou seja, não é prova conclusiva, pois não está ‘beyond
reasonable doubt’ (French, Olsson et al., 2005). Por isso, na maior parte das vezes o
lingüista forense é chamado pela defesa (Coulthard, 1994 :31), pois sua análise pode
indicar ‘reasonable doubt’, o que é essencial para evitar a condenação ou abrandar a pena
do réu. Já a promotoria precisa trazer provas que vão além, implicando a culpa ‘beyond
reasonable doubt’.
A análise lingüístico-forense é conduzida de acordo com as evidências disponíveis,
podendo basear-se na linguagem escrita ou falada. Por exemplo, se a disputa judicial
envolver uma fita de áudio com gravações que incriminem uma pessoa no envolvimento
com corrupção, por exemplo, e essa pessoa nega que a voz gravada seja a dele, o lingüista
forense provavelmente lidará com a questão acústico-fonética, pois precisa julgar se a voz
contida na fita possui traços semelhantes com a voz do suspeito. Por outro lado, se a
questão judicial se centrar na suspeita de que uma certa pessoa foi a autora de uma ameaça
escrita em uma carta, bilhete ou e-mail, o lingüista forense precisará fazer uma análise da
linguagem escrita desse material.
O equipamento usado na Lingüística Forense também muda de acordo com o tipo de
material que precisa ser analisado. No caso da fonética / fonologia, são empregados
gravadores de alta sensibilidade. Já em relação à questões de falsificação da caligrafia,
podem ser usados equipamentos que permitem o exame minucioso dos padrões de escrita e
até mesmo dos sulcos produzidos pela caneta ou lápis no papel (ou na folha de cheque,
etc.). Por fim, em processos envolvendo o questionamento de autoria, utiliza-se geralmente
corpora contendo material autêntico do suspeito e programas de computador para verificar
a freqüência e associação de palavras e contrastar os dados.
Neste capítulo, enfocaremos justamente esse último aspecto, restringindo nossa análise a
aspectos passíveis de processamento com o WordSmith Tools.
6.2. Breve histórico da Lingüística Forense
A primeira menção do termo ‘Forensic Linguistics’ ocorreu em um livro de 1968 de
74
autoria de Jan Svartvik (Svartvik, 1968). Nele, o autor apresenta uma análise do caso de
Timothy Evans, um motorista inglês que havia sido condenado e executado pela morte de
sua filha. Em 1949, Evans havia confessado à polícia ter matado sua mulher e filha, em sua
casa. Durante seu julgamento, ele voltou atrás e acusou um vizinho, o policial John
Christie, de ser o culpado pelas mortes. Entretanto, com base na confissão apresentada à
polícia, o júri considerou Evans o autor do assassinato da filha e o condenou à morte por
enforcamento, o que aconteceu em 1950. Porém, três anos mais tarde, os corpos de seis
mulheres (incluindo o de sua mulher) foram encontrados na casa onde Christie havia
morado. Ele foi levado a julgamento, em 1953, e confessou ter realmente matado o filho
(mas não a mulher) de Evans. Christie também foi condenado à morte.
Isso suscitou muito interesse na mídia da época, principalmente do repórter Ludovic
Kennedy, cujo livro ’10 Rillington Place’7 acendeu o debate pelo fim da pena de morte no
Reino Unido, ao defender a idéia de que a execução de Evans havia ocorrido sem provas
suficientes. O governo britânico, então, comissionou uma revisão do caso, da qual
participou Svartvik. Ele notou que a confissão de Evans possuía incongruências graves,
principalmente a presença de registro policial, como o uso do padrão ‘I then’ seguido de
verbo. Svartvik mostrou que essa coligação era típica do linguajar policial e pouquíssimo
provável na fala de uma pessoa da classe trabalhadora (French, Olsson et al., 2005). Essas
e outras evidências ajudaram a colocar em dúvida a integridade da versão apresentada pela
polícia, o que resultou no perdão8 oficial a Evans em 1966. Esse é um caso que rendeu
muitas matérias na imprensa, TV e rádio, além de livros e até mesmo um fime (‘10
Rillington Place’, lançado em 1971, com John Hurt e Richard Attenborough no elenco).
Um outro caso importante foi o de Craig Bentley, que em 1952 foi condenado à pena de
morte e depois enforcado em 1953. Ele havia sido preso juntamente com seu colega Chris
Craig, quando os dois invadiram um depósito em Londres em 1951. A polícia chegou ao
7 O título do livro refere-se ao endereço onde Timothy Evans viveu e onde ocorreram os crimes.
8 O perdão oficial não significa reconhecer a inocência do acusado. Por isso, em 2004, familiares de Evans
tentaram conseguir a eliminação da culpa, mas a Justiça britânica considerou que o custo de tal ação oficial
não se justificava, embora reconheçam que Evans não tenha matado sua mulher e filha.
(http://en.wikipedia.org/wiki/10_Rillington_Place)
75
local e deteve Bentley; Craig, ao contrário, tentou fugir e atirou nos policiais, matando um
deles, mas acabou sendo preso. Segundo a polícia, Bentley teria dito ‘let him have it’ a
Craig, enquanto este tentava escapar, o que foi interpretado pela polícia como significando
‘pode atirar’, embora também possa ser interpretada como ‘entregue a arma’. Os dois
foram levados a julgamento; Bentley, que era mentalmente incapacitado (sua idade mental
era de 11 anos), foi condenado a morte por enforcamento, enquanto Craig, que não tinha
maioridade legal, foi preso por 10 anos. Em 1991, foi solicitado às autoridades inglesas o
perdão oficial a Craig Bentley, a partir da análise das evidências lingüísticas contidas no
seu depoimento prestado à polícia. O pedido foi negado pela Justiça Britânica, mas a
análise lingüístico-forense ajudaria o caso a ser reconsiderado pelo governo britânico mais
tarde, quando em 1998 seu perdão foi oficialmente sancionado.
A análise forense que ajudou o caso a ser revisto foi conduzida por Malcolm Coulthard.
Segundo ele, o depoimento de Bentley possuía muitas características que eram comuns ao
discurso policial, o que colocava em dúvida a versão dos fatos contida no depoimento. A
análise de Coulthard (1994) se assemelha à de Svartvik (1968), no sentido de que ambas
mostram evidências de manipulação da fala do depoente. Por outro lado, Coulthard
utilizou técnicas de análise diferentes das de Svartvik, colocando em uso corpora
eletrônicos. Coulthard comparou o depoimento de Bentley com um corpus de 1,5 milhão
de palavras de fala espontânea, retirado do Birmingham Corpus (predecessor do Bank of
English). Uma das características que se destacavam no depoimento foi o uso de ‘then’.
No depoimento, havia 10 ocorrências em 582 palavras (ou 1,7%); já no corpus de fala, as
ocorrências de ‘then’ atingiam apenas 0,2% do total de palavras, ou seja, no depoimento
(que supostamente era um relato falado espontâneo), havia quase 8 vezes mais ocorrências
de ‘then’. Além dessa comparação, Coulthard também verificou a freqüência de ‘then’ em
dois outros pequenos corpora: um corpus de depoimentos (com 930 palavras) e um de
declarações de policiais (com 1260 palavras). No primeiro, havia apenas uma ocorrência
de ‘then’ (0,1%), mas no segundo, existiam 29 ocorrências (2,3%). Isso demostra que
‘then’ é muito mais usado na fala policial do que na de não policiais, o que sugere um
envolvimento dos policiais no depoimento de Bentley. Além da freqüência de ‘then’
sozinho, Coulthard investigou o uso de ‘I then’, nesses corpora. Esse padrão responde por
apenas 0,001% do total de ocorrências do corpus de conversações (9 vezes), mas chega a
0,5% no corpus do depoimento de Bentley (3 vezes). Isso reforça a idéia de que houve
intrusão da polícia nas palavras de Bentley. Embora essa análise por si só não constitua
76
prova de que Bentley era inocente, ela ajudou os interessados a forçar as autoridades a
rever o caso com outros olhos.
6.3. Recursos
Os recursos empregados na análise mostrada neste capítulo são:
• Um texto escrito por Ailine Aleixo, cuja autoria foi atribuída a Arnaldo Jabor,
disponível em
http://www.autordesconhecido.blogger.com.br/2006_08_01_archive.html,
doravante, chamado de ‘texto questionado’. Ele possui 1026 palavras (‘tokens’) e
328 formas (‘types’).
• Um texto de autoria comprovada de Arnaldo Jabor, em
http://oglobo.globo.com/jornal/colunas/jabor.asp, publicado no Jornal O Globo em
13/6/2006, doravante, chamado de ‘texto comprovado’, com 1012 palavras
(‘tokens’) e 644 formas (‘types’).
• Um corpus de 190 colunas publicadas por Arnaldo Jabor, disponível em
http://www.geocities.com/cronistaarnaldo. O corpus possui 143.947 palavras
(‘tokens’) e 7906 formas (‘types’).
• Planilha eletrônica (p.ex. Microsoft Excel).
• Os seguintes elementos do WordSmith Tools:
o Lista de freqüência com ‘clusters activated’, no WordList.
o Lista de consistência simples, no WordList.
o Concordâncias dos ‘clusters’ realizadas no Concord.
6.4. Autoria questionada
Devido ao fato de os dados relacionados a processos criminais serem geralmente
confidenciais, a análise apresentada aqui tratará de um caso de autoria questionada que não
foi levado a julgamento, mas que incorpora elementos de processos nos quais o lingüista
forense poderia atuar criminalmente. Trata-se de um texto que circulou pela Internet em
2004, sem autor declarado, e cuja autoria foi atribuída a Arnaldo Jabor, diretor de cinema,
77
comentarista de TV e conhecido colunista de O Estado de São Paulo.
A autora do texto na verdade era Ailin Aleixo, colunista e ex-editora das revistas VIP,
Viagem e Turismo e Playboy. Segundo Ailin, ela teria contactado Arnaldo para esclarecer
o mal-entendido, mas ele teria se negado a ouvi-la, preferindo ‘xingar’ e ‘detonar o autor
real do texto, que na opinião dele é uma baranga que que tenta imitar seu estilo.’ (Aleixo,
2005).
O objetivo da análise é revelar se o texto em questão possui ou não características
compatíveis com o estilo de Arnaldo Jabor. Caso possua, isso indicaria que o texto pode
ter sido escrito por ele; caso não, a análise sugeriria que o texto possui traços que
desautorizam a atribuição de autoria a Arnaldo Jabor. Note que em nenhum dos casos
podemos expressar certeza sobre a autoria a partir do resultado da análise, pois conforme
dissemos acima, o trabalho do lingüista forense consegue apenas colocar dúvida
(‘reasonable doubt’) sobre a autoria ou na melhor das hipóteses revelar fortes indícios de
autoria.
Para efetuar a investigação, empregamos o WordSmith Tools da maneira descrita a seguir.
Primeiramente, foi feita uma lista de ‘clusters’ de três palavras do corpus de Arnaldo
Jabor, com o WordList (Settings, Min & Max Frequencies, Clusters Size 3, Clusters
Activated). Também foi produzida uma lista semelhante com o texto de autoria
questionada e com o texto de autoria comprovada. A figura a seguir reproduz o início da
lista na tela do WordList.
78
Em segundo lugar, foram feitas listas de consistência entre o texto de autoria questionada e
o corpus de Arnaldo Jabor, e entre o texto de autoria comprovada e o mesmo corpus de
Arnaldo Jabor. O intuito era descobrir qual dos dois textos mais se aproximava dos textos
legítimos de Jabor, de tal modo que o texto que possuísse mais clusters em comum com o
corpus seria considerado mais próximo do estilo de Jabor. As listas de consistência
mostram exatamente a quantidade de palavras ou de clusters compartilhadas entre duas
listas, o que nos permitiu saber qual dos dois textos (o questionado ou o comprovado) era
mais próximo do estilo de Jabor. As listas de consistência foram criadas a partir do próprio
WordList, clicando em Comparison, Consistency Simple. A tela a seguir mostra um trecho
da lista de consistência referente ao texto de autoria questionada.
79
Os clusters em comum aparecem na lista de consistência com a freqüência 2, significando
que eles aparecem nas duas listas (na do texto questionado e na do corpus de textos de
Arnaldo Jabor). Descobrimos que havia 8 clusters em comum entre os textos de Jabor e o
texto questionado e 31 entre o texto comprovado e o corpus de Jabor. Isso nos indicou que
o texto comprovado parecia mais próximo do de Jabor do que o questionado. Em outras
palavras, o texto comprovado seria um texto típico de Jabor, contendo mais marcas de seu
estilo, enquanto o texto questionado seria muito mais distante do estilo do autor, com
poucas marcas.
Contudo, essas observações por si só não convenceriam um júri da impossibilidade da
autoria de Arnaldo Jabor. Conforme dissemos antes, a análise lingüístico-forense não
oferece provas conclusivas, mas deve informar a probabilidade de um texto ter ou não ter
sido escrito por um determinado autor. Sendo assim, foi preciso calcular a probabilidade
de cada texto ter sido escrito por Jabor.
Para calcular a probabilidade de autoria, precisamos saber em quantos textos do corpus de
Jabor cada cluster de cada texto (comprovado e questionado) ocorre. Com essa informação
em mãos, podemos então calcular o lâmbda de Olkin, uma estatística que mostra ‘a
probabilidade de coincidência de fatores (variáveis)’ (Mcmenamin, 2002 :154). O lâmbda
de Olkin é calculado da seguinte maneira:
80
Probabilidade de ocorrência em conjunto Lambda =
Probabilidade de não ocorrência em conjunto
A probabilidade de ocorrência em conjunto é calculada multiplicando-se as probabilidades
individuais de cada marca de estilo. A probabilidade individual é simplesmente a divisão
do número de textos em que o cluster ocorreu pelo número total de textos. Por exemplo, se
o cluster 1 do texto questionado ocorreu uma vez nos 190 textos do corpus, então sua
probabilidade de ocorrência é 1/190, ou 0,0053. Assim, se o cluster 2 possui probabilidade
de 2/190 (0,0105) e o cluster 3 de 50/190 (0,2632), a probabilidade conjunta será 0,0105 x
0,00526 x 0,2632, o que resulta em 0,0000146, ou seja, uma chance em 68590 (isto é,
1/0,0000146) de que essas três marcas de estilo identificam um autor específico.
Como não sabemos qual a população de textos existentes no mundo, não temos idéia se
essa probabilidade de um texto a cada 68 mil é alta ou baixa. Porém, podemos usar alguns
dados de publicação como parâmetro. A Folha de S. Paulo, por exemplo, publica
aproximadamente 190 textos por dia; com essa média, 68 mil textos correspondem a quase
um ano de publicação. Se pensarmos que há pelo menos uma dúzia de jornais diários
brasileiros com esse volume de textos publicados a cada dia, esse volume de textos passa a
corresponder a cerca de um mês de publicação dos jornais principais do país. Em suma,
tomando como base apenas as edições de jornais, poderíamos estimar que há uma chance
a cada mês de encontrar um texto semelhante (com essas marcas de autor) nos grandes
jornais brasileiros. Posto desse modo, não poderíamos descartar outras pessoas como
potenciais autores desse texto, já que estatisticamente haveria um texto por mês em média
(escrito por outra pessoa) que teria tais características.
Por sua vez, a probabilidade de não ocorrência individual é calculada simplesmente
subtraindo de 1 a probabilidade de ocorrência. Assim, para o cluster 1 do exemplo acima
temos 1 – 0,0053, ou 0,9947 (isto é, 189/190); para o cluster 2, calculamos 1 – 0,0105 ou
0,9895 (isto é, 188/190) e para o cluster 3, 1 – 0,2632 ou 0,7368 (isto é, 140/180).
A probabilidade de não ocorrência conjunta é calculada multiplicando-se as probabilidades
de não ocorrência individuais. Dessa forma, temos 0,9947 x 0,9895 x 0,7368, ou 0,7252.
81
Agora podemos calcular lâmbda: 0,0000146 / 0,7252 = 0,00002. Isso significa que há uma
probabilidade de 1 caso em 49675 de que essas marcas de estilo apareceram juntas por
acaso. Tomando novamente como base nosso parâmetro informal de publicação nos
jornais brasileiros, poderíamos estimar que haveria uma chance a cada 9 meses de achar
um texto em que essas marcas de autor aparecessem juntas por acaso. Isso indicaria que
essas três marcas sozinhas não são suficientes para identificar o estilo de um autor.
Voltando à nossa pesquisa, para calcularmos o lâmbda, precisamos descobrir em quantos
textos diferentes cada cluster ocorre. Para tanto, fizemos concordâncias para cada um dos
39 clusters (8 do texto questionado e 31 do texto comprovado) no corpus de Arnaldo
Jabor. Como o WordSmith Tools não fornece essa informação diretamente (apenas
informa o número de ocorrências no conjunto de textos), foi preciso executar os seguintes
passos. Primeiramente, em cada concordância, fizemos reordenação (resort) pela coluna
‘File’. A seguir, identificamos as ocorrências do cluster em arquivos diferentes, anotando
uma letra qualquer (p.ex. ‘a’) na coluna Set para designar tais casos. Por exemplo, o cluster
‘que não se’ ocorreu duas vezes no arquivo 000017.txt e duas no arquivo 000051.txt. Foi
digitada a letra ‘a’ apenas em uma das ocorrências de cada um desses textos. A figura
abaixo ilustra esse processo.
Depois, reordenamos a concordância pela coluna Set. Isso fez com que as linhas que
possuíssem a letra ‘a’ fôssem deslocadas para a parte superior da concordância.
Percorremos a concordância até o ponto onde as letras ‘a’ da coluna Set terminavam e
anotamos o número da linha correspondente. Anotamos esse valor numa planilha Excel. A
figura a seguir mostra que o cluster ‘que não se’ ocorreu 14 vezes no corpus, sendo que 12
82
vezes em arquivos diferentes, conforme mostra a última ocorrência da letra ‘a’ na coluna
Set:
Em uma concordância específica, foi preciso ainda eliminar ocorrências indesejadas.
Trata-se do cluster ‘golpe de #’. A cerquilha (#) é empregada pelo WordSmith Tools para
substituir algarismos (qualquer seqüência deles é substituída por uma cerquilha apenas).
Porém, o Concord não interpreta a cerquilha do mesmo modo ao fazer uma busca, ou seja,
o usuário não pode digitar ‘golpe de #’ como termo de busca para encontrar ocorrências de
‘golpe de 64’ ou ‘golpe de 1964’, pois o programa vai interpretar esse símbolo de modo
literal. Assim, para esse cluster, foi usado um termo de busca reduzido (‘golpe de’) e as
ocorrências indesejadas (‘golpe de estado’) foram apagadas uma a uma da concordância,
restando apenas as ocorrências legítimas do cluster.
De posse desses dados, foi feito o cálculo de lâmbda para cada texto.
Cluster Freqüência x em
Prob.
ocorrência
Prob.
não ocorr.
A MÁQUINA DO 3 190 0.0158 0.9842
A SUBIDA DE 2 190 0.0105 0.9895
A VER COM 3 190 0.0158 0.9842
ANGÚSTIA DA VITÓRIA 1 190 0.0053 0.9947
BARRIGA DO TANCREDO 2 190 0.0105 0.9895
83
COMO SE A 8 190 0.0421 0.9579
COMO SE QUISÉSSEMOS 2 190 0.0105 0.9895
DE MEU AVÔ 2 190 0.0105 0.9895
DE SER UM 11 190 0.0579 0.9421
DE UM PAÍS 7 190 0.0368 0.9632
DO QUE PENSÁVAMOS 3 190 0.0158 0.9842
E EU ME 6 190 0.0316 0.9684
É MUITO MAIS 8 190 0.0421 0.9579
É O BRASIL 2 190 0.0105 0.9895
É TAMBÉM UM 3 190 0.0158 0.9842
EU ME LEMBRO 8 190 0.0421 0.9579
EXATAMENTE COMO NA 2 190 0.0105 0.9895
GOLPE DE # 6 190 0.0316 0.9684
HÁ ALGO DE 7 190 0.0368 0.9632
LEMBRO-ME DA 2 190 0.0105 0.9895
NA BARRIGA DO 3 190 0.0158 0.9842
NÃO VER O 2 190 0.0105 0.9895
NOS LEMBRA QUE 3 190 0.0158 0.9842
O NELSON RODRIGUES 2 190 0.0105 0.9895
O SONHO DO 6 190 0.0316 0.9684
QUALQUER TENTATIVA DE 3 190 0.0158 0.9842
84
QUE NÃO SE 20 190 0.1053 0.8947
TAMBÉM É UMA 2 190 0.0105 0.9895
UM POUCO DE 4 190 0.0211 0.9789
UM SONHO DE 5 190 0.0263 0.9737
UMA FORMA DE 14 190 0.0737 0.9263
Probabilidade em conjunto 1.7E-53 0.4412
1 em 5.9E+52 2.2665
Lâmbda 3.9E-53
Lâmbda 1 em 2.6E+52
Tabela 1: Probabilidades de clusters do texto comprovado.
No caso do texto comprovado, o valor de lâmba indica que a probabilidade de essas
marcas de autor terem ocorrido juntas por acaso em um texto é praticamente zero (3.9E-
53, isto é, 0.00000000000000000000000000000000000000000000000000039). Isso nos
mostra que os clusters devem indicar um estilo próprio.
A probabilidade em conjunto nos mostra que a chance de um autor possuir todas essas
marcas de estilo é também praticamente zero (1.7E-53, isto é
0.00000000000000000000000000000000000000000000000000017) ou uma em 590
sexdecilhões! Como sabemos que o texto é de autoria de Arnaldo Jabor, podemos dizer,
por conseguinte, que a chance de um outro autor ter esse estilo é praticamente zero.
Cluster Freqüência x em
Prob.
ocorrência
Prob.
não ocorr.
85
A SER UM 14 190 0.0737 0.9263
É O QUE 9 190 0.0474 0.9526
É QUE É 10 190 0.0526 0.9474
ELA É UM 6 190 0.0316 0.9684
O QUE A 68 190 0.3579 0.6421
O QUE QUISER 2 190 0.0105 0.9895
PODE ATÉ SER 2 190 0.0105 0.9895
SABE O QUE 8 190 0.0421 0.9579
Probabilidade em conjunto 9.7E-12 0.4875
1 em 1.0E+11 2.0512
Lâmbda 2.0E-11
Lâmbda 1 em 5.0E+10
Tabela 2: Probabilidades de clusters do texto questionado.
No caso do texto questionado, o valor de lâmbda é de 0.00000000002 (2.0E-11). Ou seja, a
probabilidade de esse conjunto de clusters ter ocorrido no texto por acaso é praticamente
zero: uma chance em 50 milhões (5.0E+10). A probabilidade de o texto questionado ser de
um escritor qualquer é praticamente zero: 0.0000000000097 (9.7E-12), ou uma em 100
bilhões (1.0E+11). Ou seja, o texto deve ser de um autor específico, no caso Jabor, pois os
oito clusters desse texto são encontrados em outras colunas do autor. Assim, o texto
questionado poderia ter sido escrito por Arnaldo Jabor, pois possui algumas marcas de seu
estilo, embora essas marcas sejam gerais da língua e ocorram aparentemente em muitos
outros autores.
Entretanto, ao compararmos as probabilidades do texto questionado com as do texto
comprovado, percebemos a diferença enorme que há entre os dois. O texto comprovado é
86
570 duodecilhões de vezes mais exclusivo de Jabor do que o texto questionado (5.9E+52 /
1.0E+11 = 5.7E+41).
6.5. Comentários finais
Neste capítulo, mostramos uma maneira de usar o programa WordSmith Tools no exame
de suspeita de autoria de um texto. Os procedimentos descritos aqui podem ser
empregados em casos judiciais. Esses procedimentos são úteis para a lingüística forense,
pois permitem que se ajude a desevendar casos em que a autoria de certos textos seja
provada ou colocada em dúvida. Dessa maneira, esperamos ter contribuído para a
implantação da lingüística forense no país.
87
7. A ferramenta Concord
7.1. Visão Geral
O programa Concord produz concordâncias. Concordâncias são listagens das ocorrências
de um item específico (chamado termo de busca ou nódulo, que pode ser formado por uma
ou mais palavras) acompanhado do texto ao seu redor (o co-texto).
O Concord é acionado de duas maneiras: (1) clicando em ‘Tools / Concord’ no Controller,
(2) clicando numa palavra de uma lista de palavras (produzida pelo WordList), ou numa
uma palavra de uma lista de palavras-chave (produzida pelo KeyWords), ou ainda numa
palavra de um arquivo de índice (‘index file’) e depois (em qualquer dos últimos três
casos) no botão (na barra de ferramentas).
A tela abaixo mostra uma concordância produzida pelo Concord.
O termo de busca da concordância acima é ‘dito e feito’, que está centralizado na coluna
‘Concordance’. Os elementos que compõe as concordâncias do WordSmith Tools serão
explicados a seguir, juntamente com os menus, botões e opções disponíveis no programa
para efetuar ajustes nas concordâncias. Antes, porém, será apresentado um pequeno roteiro
com os comandos principais para a produção de concordâncias.
88
7.2. Procedimento básico para feitura de concordâncias no Concord
Abaixo é descrito o procedimento para produção de concordância diretamente no
programa Concord. Para produzir concordâncias a partir do WordList, KeyWords ou de
um arquivo de índice (index file) do WordList, basta selecionar a palavra e depois clicar
no botão presentes nesses programas.
(1) No Controller: clique em Tools e depois em Concord.
(2) Na janela do Concord, clique em File e depois em Start. Ou clique no botão Start.
(3) Na janela ‘Getting Started’, clique em Choose Texts Now, caso esteja fazendo a
primeira concordância desde que iniciou o programa. Se já tiver escolhido os textos e
quiser mantê-los, clique em ‘Make a WordList Now’, mas se quiser mudar de textos,
clique em ‘Change Selection’. Na janela ‘Choose Texts’, clique em ‘Clear Previous’ e
siga a próxima instrução.
(4) Selecione os arquivos que quiser, clicando nas pastas (porção esquerda da janela) e,
depois, nos arquivos (porção direita da janela).
(5) Clique em OK.
(6) Reaparecerá a janela ‘Getting Started’. Nela, clique em ‘Specify Search Word’.
(7) Ainda no espaço ‘Search Word or Phrase’ da janela ‘Getting Started’, digite o termo de
busca.
(8) Na janela ‘Getting Started’, clique em ‘Start Concordance’.
(9) Para interromper o processamento, clique em ‘Suspend’, na barra de andamento e
depois em ‘Stop Now’.
Esse é o conjunto mínimo de passos para realização de uma concordância no Concord.
Entretanto, há muitas outras opções possíveis do programa, realizáveis a partir de um
número extenso de comandos. Eles são descritos a seguir.
7.3. A janela Getting Started
Esta janela surge assim que o usuário clica em Start (no menu File / Start) ou no botão
89
‘Start’. Ela reúne vários botões que fazem atalhos aos comandos principais do programa e
que dirigem a criação da concordância. Abaixo aparece uma figura que a ilustra.
A seguir, são explicados os comandos disponíveis nessa janela.
Choose Texts Now. Permite ir à janela de seleção de arquivos, mostrada abaixo:
90
Esse botão aparece somente quando ainda não foi feita seleção de arquivos. Quando
arquivos já tiverem sido selecionados, esse botão muda de nome para ‘Change Selection’.
As partes dessa janela são descritos a seguir.
Janela de seleção de pastas: Espaço onde aparecem os nomes das pastas.
Janela para seleção de disco: Janela onde o usuário seleciona o drive em que estão os
arquivos que quer escolher.
Janela de listagem de arquivos: Mostra os arquivos disponíveis na pasta. Seu conteúdo é
condicionado ao que for especificado na janela para seleção de nome de arquivos, descrita
a seguir. Para escolher um arquivo apenas, clique nele. Para escolher mais de um arquivo,
segure a tecla Control e depois clique nos arquivos que desejar. Para selecionar uma
seqüência de arquivos, clique no primeiro arquivo da seqüência, segure a tecla Shift e
clique no último arquivo da seqüência. Para desmarcar um arquivo selecionado, segure a
91
tecla Control e clique nele.
Linhas de informação de arquivos selecionados: Indicam a quantidade de arquivos que já
foram selecionados, o número de bytes que corresponde à escolha e o número de pastas
onde residem os arquivos selecionados.
Janela para seleção de nome de arquivos: Digite o tipo de nome de arquivo que deseja
selecionar. Por exemplo, para escolher os arquivos terminados em .txt, digite *.txt . Para
escolher os arquivos iniciados em ‘jornal’ (p.ex. jornal01.txt, jornal02.asc, etc) digite
jornal*.*.
Favourites: Save: Botão para salvar uma seleção de arquivos. Caso deseje salvar uma
seleção de arquivos que acabou de efetuar, clique nesse botão. A sua seleção será salva
num arquivo-texto que poderá ser recuperada depois, economizando tempo. Ao clicar em
Save, aparecerá uma janela padrão do Windows pedindo um nome de arquivo. Selecione
uma pasta e digite um nome de arquivo. Prefira a terminação .txt.
Favourites: Get: Botão para recuperar uma seleção de arquivos, conforme descrita acima,
em Save. Clicando nesse botão aparecerá uma janela de seleção de arquivos. O usuário
deve escolher o arquivo desejado e depois clicar em OK. Caso já tenha sido feita uma
seleção de arquivos, antes desse janela de seleção aparecerá uma mensagem perguntando
‘Clear Previous Selection?’ (Apagar seleção anterior?). Clicando em OK, o usuário é
levado então à janela de seleção de arquivo.
Sort: Indica as opções de ordenamento dos nomes de arquivos para a seleção. N ordena os
arquivo alfabeticamente, T por tipo de arquivo, S por tamanho de arquivo, e D por data.
Clicando duas vezes seguidas em qualquer das opções, o ordenamento se fará de modo
inverso. Por exemplo, no caso de N, será pelo nome de arquivo começando por Z e indo
até A.
All: Botão que seleciona todos os arquivos mostrados na janela de listagem de arquivos.
Include sub-directories: Opção para escolher todos os arquivos das sub-pastas (caso
existam). Por exemplo, se a pasta selecionada for c:\corpus e ela contiver sub-pastas
chamadas de c:\corpus\coleta1 e c:\corpus\coleta2, para selecioná-las automaticamente
sem abri-las basta clicar em c:\corpus, escolher ‘include sub-directories’ e depois clicar
92
em ‘All’ ou OK.
View: Botão que abre o Viewer, um aplicativo para visualização de arquivos. É aberta uma
janela para cada arquivo selecionado. Por isso, caso tenha sido escolhido um número
grande de arquivos, o programa tentará abrir tantas janelas quantas forem necessárias para
exibir todos os arquivos. Muitas vezes o excesso de janelas faz com que o programa deixe
de funcionar, sendo necessário o encerramento forçado do programa (com as teclas
Control – Alt – Del).
Clear Previous: Botão para cancelar uma escolha de arquivo já existente. É importante
acioná-lo sempre que for necessário mudar uma seleção, pois o programa retém a
informação dos arquivos durante uma mesma seção, ou seja, até ser desligado. Por isso,
caso arquivos sejam selecionados sem ter sido clicado esse botão, os arquivos recém-
selecionados irão se somar aos já escolhidos antes.
OK: Botão que finaliza a escolha dos arquivos e fecha a janela.
Cancel: Fecha a janela sem ativar as escolhas de arquivo que estavam sendo feitas. Clicar
nesse botão, contudo, não cancela uma escolha de arquivos previamente realizada.
Change Selection. Remete também à janela de seleção de arquivos. É muito importante
lembrar de clicar em Clear Previous para cancelar uma escolha anterior de arquivos, caso
contrário a seleção atual irá se somar à anterior.
Specify search word. É o quarto botão da janela Getting Started. Remete à janela de
formulação do termo de busca (‘Concordance Settings’), que é ilustrada abaixo.
93
Essa janela aparece somente no caso de ser a primeira seleção da seção. Caso outros
termos de busca já tiverem sido especificados, o botão muda de nome para Change Search
Word. A janela é composta de vários elementos, descritos abaixo.
Search Word or Phrase. Termo de busca. O espaço referente a ‘Search word of phrase’ é
onde deve ser digitado o termo de busca, ou seja, a palavra ou palavras que o programa
usará para pesquisar os textos.
Context Word. Palavra de contexto. É o espaço onde pode ser digitado uma palavra (ou
expressão) que deve ou não ocorrer juntamente com o termo de busca.
Horizons. São os horizontes (ou ‘janela’ ou ‘span’), que representam a distância máxima
entre o termo de busca e a(s) palavra(s) de contexto.
7.3.1. Tipos de termos de busca
O sucesso da busca no Concord depende da correta especificação do termo de busca,
diante do resultado que o usuário pretende obter.
Há diversos tipos de termos de busca, dependendo do que se pretende achar e do tipo de
texto (layout, principalmente) onde é realizada a busca. Um termo de busca simples é
simplesmente uma palavra (por exemplo, casa). Já um termo complexo inclui outros
elementos, descritos abaixo.
Para encontrar casa, digite casa; para encontrar casa da sogra, digite casa da
94
sogra ; uma outra opção é digitar casa em Search word or phrase e sogra em
Context word e selecionar, em Context Search Horizons, 0L (isto é, nenhuma palavra à
esquerda, onde L representa ‘left’, ‘esquerda’ em inglês) e 2R (isto é, duas palavras para a
direita; R refere-se a ‘right’ em inglês, que significa ‘direita). Essa última opção irá buscar
todas as ocorrências de casa em que sogra aparece até duas palavras à sua direita. A
desvantagem dela é que a busca não se restringirá a casa da sogra somente, podendo
aparecer resultados como casa e sogra, casa de sogra, etc. A vantagem é que a busca
identificará, por exemplo, casa da sogra, em que há dois espaços entre da e sogra. Além
disso, a opção com palavras de contexto é indica para textos em que haja etiquetagem. Há
vários tipos de formato de texto etiquetado. Um formato comum é em colunas, em que
cada palavra aparece numa linha (também chamado de itemizado, ou tokenized). Por
exemplo, suponha que o texto etiquetado tenha o formato seguinte:
Aqui adv não adv é verbo a det casa subs da prepdet sogra subs . .
Nesse arquivo, cada palavra do texto tem a seu lado um código que representa uma
etiqueta morfossintática. Para o programa Concord, cada etiqueta é uma palavra; assim,
cada etiqueta deve ser levada em conta quando da formulação do termo de busca. Para
buscar casa da sogra num texto assim, é preciso digitar casa como Search Word, sogra
como Context Word e acionar o horizonte de 0L e 4R, visto que sogra está a quatro
palavras de distância, à direita, de casa (a etiqueta ‘subs’ é a primeira,
’da’ a segunda, ‘prepdet’ a terceira, e
’sogra’ a quarta.). Devido às características do arquivo, não é possível formular essa busca
sem usar palavra de contexto. As eventuais ocorrências indesejadas (‘casa e sogra’, etc.)
deverão ser eliminadas da concordância pelo usuário, a partir do exame cuidado dos
resultados.
Um outro formato comum de arquivo etiquetado é aquele em que a etiqueta aparece
seguida às palavras, com um caracter separador. Por exemplo:
95
Aqui_adv não_adv é_verbo a_det casa_subs
da_prepdet sogra_subs ._.
Nesse caso, a busca pode ser formulada deste modo:
Search Word or Phrase: casa_subs Context Word: sogra_subs Horizons: 0L, 2R
Ou mesmo assim:
Search Word or Phrase: casa_subs da_prepdet sogra_subs
Para encontrar ocorrências de casa que não estejam seguidas de sogra, digite um til (~)
diante da palavra de contexto. Por exemplo:
Search Word or Phrase: casa Context Word: ~sogra Horizons: 0L, 2R
Symbols. Botão que permite inserir símbolos e caracteres especiais no termo de busca. Útil
quando certos caracteres que se deseja buscar não estão visíveis no teclado do computador.
7.3.1.1.OK
Botão que fecha a janela e remete à janela ‘Getting Started’.
7.3.1.2.Go Now
Botão que fecha a janela e executa a concordância. Somente está ativo quando os textos já
foram selecionados e o termo de busca foi digitado.
7.3.2. Change Search Word.
Remete à janela de formulação do termo de busca (‘Concordance Settings’), assim como
Specify Search Word. Não está visível quando nenhum termo de busca tiver sido
especificado durante uma seção de uso do programa.
7.3.3. Add an Asterisk.
Inclui automaticamente um asterisco (um caracter especial) no final do termo de busca
96
digitado.
7.3.4. Horizons, etc.
Este é o terceiro botão da janela ‘Getting Started’. É opcional. Leva a uma tela onde há
vários comandos, detalhados abaixo.
7.3.4.1.Entries wanted.
Permite especificar quantas linhas de concordância (ocorrências da palavra de busca) são
desejadas. O número máximo é de cerca de 16 mil.
7.3.4.2.At random.
Caso for selecionada, faz uma seleção das ocorrências e exibe somente aquelas que passam
pelo critério de escolha. Serve para limitar a exibição das ocorrências. O valor de restrição
é o número constante na janela diante de 1 in . Por exemplo, se for escolhido o número 3,
somente 1 em cada 3 linhas serão exibidas; se for escolhido o valor de 5, apenas uma linha
em cada 5 será exibida, e assim por diante. É útil em buscas de corpora grandes, em que a
quantidade de ocorrências excede o número máximo permitido pelo programa. Por
exemplo, se o número de ocorrências do termo de busca for 32 mil, uma busca que não
ajuste esse critério de escolha retornará apenas as primeiras 16 mil ocorrências. Para que o
concordanceador retorne ocorrências retiradas do corpus inteiro, seria preciso, então,
selecionar o valor de 2, pois seriam exibidas 16 mil ocorrências, mas não as 16 mil
primeiras apenas. Desse modo, o programa exibiria uma ocorrência sim e uma não da
palavra de busca, chegando ao final das 16 ocorrências tendo pesquisado a extensão toda
do corpus. Para calcular um valor de restrição, basta dividir o total de ocorrências da
palavra de busca pelo total de ocorrências máximo. O resultado será o valor de restrição.
Os valores quebrados (com decimais) precisam ser arredondados (para cima). Por
exemplo, caso o número de ocorrências do termo de busca for 48 mil, basta dividir 48000
por 16000; o resultado é 3, que é o valor de restrição. Se o número de ocorrências fosse
45000, o resultado da divisão desse total por 16000 resultaria em 2,8125. Como não é
possível estabelecer um valor de restrição não inteiro, em princípio o valor poderia ser 2
ou 3. O valor de 2 excederia a capacidade de 16 mil linhas do programa, pois 45000 / 2 =
22500. Assim, o programa processaria o corpus apenas até obter 16 mil linhas e depois
cessaria o processamento. Escolhendo 3, seriam exibidas 15 mil linhas, o que está dentro
97
da capacidade do programa. Isso significa que todo o corpus seria pesquisado. Desse
modo, o melhor valor é 3.
7.3.4.3.Characters in Save as Text.
Define a quantidade de caracteres usada para salvar cada linha da concordância no formato
texto. Por exemplo, se estiver indicado 80 caracteres, a largura da concordância quando
salva em texto terá 80 caracteres, incluindo (se for pedido) os caracteres de numeração
seqüencial das linhas e o separador (um tab).
7.3.4.4.Sort.
Permite pré-selecionar como serão ordenadas as linhas da concordância. A janela diante de
first indica a ordenação (‘chave’) primária, e a diante de then, a secundária. As opções 5L a
1L significam palavras que estejam à esquerda do termo de busca: 5L leva à ordenação
pela quinta palavra à esquerda, 4L pela quarta, 3L pela terceira e assim sucessivamente. O
mesmo acontece com as opções 5R a 1R. A opção Center indica a ordenação pelo termo de
busca; Context faz ordenação pela palavra de contexto (aquela que foi selecionada
juntamente com o termo de busca como devendo estar necessariamente próxima ao termo);
Set ordena pelos códigos inseridos na coluna Set da concordância; File organiza a
concordância pela ordem em que elas apareceram nos arquivos pesquisados; Tag ordena
alfabeticamente pela etiqueta (tag) mais próxima ao termo de busca – para que seja
possível ativar essa opção, os textos devem possuir etiquetas, e essas etiquetas devem ter
sido especificadas num arquivo especial (tag file; vide mais explicações sobre etiquetas na
p. 112); Tag Distance classifica a concordância pela distância entre o termo de busca e a
etiqueta mais próxima – o uso dessa opção também está condicionado às mesmas
exigências das para a ordenação por Nearest Tag (vide p. 101).
As palavras a partir das quais o Concord faz a ordenação recebem uma cor diferente das
demais. O esquema de cores é definido no menu ‘Settings / Colours’. Por exemplo, abaixo
aparece uma tela de uma concordância ordenada pela terceira palavra à direita (3R) e
depois pela primeira à esquerda (1L).
98
A tela mostra que as palavras na terceira posição à direita (3R) do termo de busca (‘dito’)
aparecem em uma cor diferente (vermelho, no original); as palavras logo à esquerda (1L)
também (estão em azul, no original). Percebe-se que nos caso de empate, como nas três
primeiras linhas, o desempate foi feito pela primeira palavra à esquerda, conforme mostra
a tabela abaixo:
Primeira chave de ordenação (3R) Segunda chave de ordenação (1L) A A A
Estados Periferia Tomada
7.3.4.5.Collocates – Include them?
Caixa que ativa o cálculo de colocados. Colocados são palavras que estão perto do termo
de busca. Se a caixa estiver selecionada, os colocados serão processados pelo programa e
estarão à disposição do usuário quando da feitura da concordância por meio do
acionamento do botão Collocates ou Re-compute Collocates.
7.3.4.6.Horizons.
Os ‘horizontes’ indicam a distância máxima entre o termo de busca e os colocados que o
programa irá considerar para calcular os colocados (a tabela de colocados é explicada na p.
140). 0L representa um horizonte de zero palavras à esquerda do nódulo, isto é, nenhum
horizonte do lado esquerdo. 1L indica um horizonte de até uma palavra à esquerda; se for
selecionado, apenas as palavras que ocorreram imediatamente à esquerda do termo de
busca serão consideradas para o processamento dos colocados; 2L significa ‘duas palavras
99
à esquerda’, e portanto somente as palavras que ocorram dentro desse horizonte serão
levadas em conta; 3L representa um horizonte de três palavras à esquerda e assim
sucessivamente. 1R, 2R, 3R, etc indicam a distância à direita, e definem o horizonte de
modo similar a 1L, 2L, 3L, etc., mas atuam nas escolhas à direita do termo de busca. De
modo prático, o mais comum é estabelecer um horizonte de cinco palavras para cada lado
do termo de busca, portanto 5L e 5R. Isso garante que a maioria das palavras de interesse
para descrição dos padrões do termo de busca serão computadas quando do acionamento
da tabela de colocados. De posse da tabela de colocados, o usuário poderá, então, fazer a
seleção dos colocados que lhe interessa na própria tabela, podendo se concentrar nos
colocados mais relevantes para seu propósito.
7.3.4.7.Min Frequency and Length.
A janela à esquerda indica a freqüência mínima para inclusão dos colocados na tabela de
colocados. A janela à direita refere-se ao tamanho mínimo das palavras, em caracteres,
para consideração durante a formulação da mesma tabela de colocados. Por exemplo, um
valor de 5 para Min Frequency e de 1 para Length permitirão incluir palavras de uma letra
ou mais (isto é, todas) com freqüência 5 ou mais, na tabela de colocados.
7.3.4.8.Notepad.
Botão que aciona o programa Bloco de Notas do Windows (Notepad, nas versões em
inglês do sistema operacional). É somente um atalho para o programa, que pode ser usado
para criação de um arquivo de etiquetas (tag file) ou de palavras de exclusão (stop list),
conforme explicado na p. 112 e p. 192, respectivamente.
7.3.4.9.Save.
Se marcado, fará com que os ajustes feitos nessa janela sejam gravados como padrão para
as próximas sessões de uso do Concord.
7.3.4.10.OK
Aceita as escolhas e fecha a janela.
7.3.4.11.Cancel
Fecha a janela sem ativar as escolhas feitas.
100
7.3.4.12.Start Concordance.
Inicia a execução da concordância.
7.3.5. Start Concordance
É o último botão da tela ‘Getting Started’. Somente está ativo quando o termo de busca e
os arquivos onde a busca será feita foram determinados.
7.4. A janela do Concord
Essa janela surge quando é dado o comando de ‘Go Now’ ou ‘Start Concordance’. É a
janela principal do programa, onde são exibidos os resultados da busca. Caso não haja
nenhuma ocorrência do termo de busca especificado, surge uma mensagem de alerta que
se inicia com ‘No concordance entries found for’ e é seguida do termo de busca (p.ex. ‘No
concordance entries found for SOGRA). Note que o termo de busca aparece em letras
maiúsculas. Isso não significa que o termo de busca pedia a busca por uma palavra escrita
toda em letras maiúsculas. É apenas uma maneira de representar o termo de busca. Os
componentes dessa tela são especificados a seguir.
7.4.1. As colunas
A figura abaixo ilustra uma tela de concordância.
A tela da concordância é formada pelas seguintes colunas, conforme mostra a figura
acima:
101
• N: número de seqüência das linhas da concordância.
• Concordance: o texto onde ocorre o texto.
• Set: espaço para entrada de códigos de classificação em grupos (‘sets’), pelo usuário.
Quando a coluna está vazia, nenhum código foi entrado aí. Os códigos de classificação
aceitos pelo WordSmith Tools consistem das letras do alfabeto, em maiúscula ou
minúscula (o programa diferencia os dois tipos); desse modo, é possível estabelecer 52
grupos. Os códigos são úteis nos casos em que o analista deseje classificar as linhas da
concordância em grupos. Por exemplo, se o analista usar um sistema de classificação
que consistem em três grupos (digamos, ‘sentido A’, ‘sentido B’ e ‘sentido C’), ele
pode digitar, nas linhas correspondentes (e dentro da coluna ‘set’), as letras A, B ou C,
ou nenhuma delas, caso uma dada linha não se encaixe em nenhuma das categorias
escolhidas. Feito isso, o analista pode então fazer ‘re-sort’, escolhendo como primeira
ordenação ‘set’. O programa fará a ordenação, colocando as linhas marcadas com ‘A’
em primeiro lugar, seguidas de ‘B’ e terminando com as de ‘C’. As linhas que
porventura não possuam nenhum dos códigos tornar-se-ão cinza. Se desejar apagá-las,
o analista pode, então, selecionar tais linhas, teclar ‘delete’ e depois clicar em ‘Zap’.
• Tag: a etiqueta mais próxima (‘nearest tag’) à esquerda do termo de busca. Uma
etiqueta é um código de marcação do texto, opcional (vide p. 112 para mais detalhes
sobre etiquetas). Quando a coluna está vazia, é porque não há etiquetas no texto, ou as
etiquetas não foram definidas em ‘Tag set 1 (to be included)’. Para exemplificar,
podemos usar o texto que possui etiquetas que mostram a seção do texto
(<introduction> e <method>, vide p. 120) já mostrado acima. Para esse texto, é preciso
criar um arquivo de etiquetas contendo as etiquetas que nele aparecem; assim, o
arquivo deve possuir as seguintes linhas:
<introduction> <method>
A seguir, no menu ‘Settings / Tags’, é preciso especificar esse arquivo em ‘Tag File 1 (tags
to be included)’ e marcar a caixa ‘activated’. Agora, ao fazer uma concordância, por
exemplo, da palavra ‘etc.’, o resultado será o seguinte:
102
Como se percebe, a palavra ‘etc.’ aparece quatro vezes na concordância (já que há quatro
ocorrências dela no texto) e, em cada uma, aparece a indicação da etiqueta mais próxima
que está à sua esquerda no texto. Em duas ocorrências, a etiqueta mais próxima é
<introduction>, e em outras duas, <method>. Isso indica que há duas ocorrências de ‘etc.’
na seção de introdução e duas na seção de métodos do texto. Note que mesmo estando
‘etc.’ no final da introdução e, portanto, mais próximo da etiqueta de método, o programa
busca a etiqueta mais próxima que antecede o termo de busca e, por isso, mostra
corretamente as duas ocorrências de ‘etc.’ que estão dentro da introdução do texto.
• Word No.: O número da palavra a que corresponde o termo de busca. O número da
palavra é contado seqüencialmente a partir do início do arquivo, com a primeira
palavra recebendo o número 1. A contagem se reinicia a cada arquivo.
• File: O nome do arquivo.
• %: A porcentagem do total do texto a que corresponde o valor de ‘Word No.’.
7.4.2. Os menus
Abaixo serão descritos os menus do programa.
7.4.2.1.File
Esse menu dá acesso a várias opções do programa, descritas abaixo.
7.4.2.1.1.Start
Opção que remete à tela de Getting Started.
7.4.2.1.2.Open
103
Permite abrir uma concordância salva.
7.4.2.1.3.Merge
Possibilita mesclar duas concordâncias. O usuário deve escolher os dois arquivos de
concordância. Os dois arquivos devem estar na mesma pasta.
7.4.2.1.4.Print
Abre uma pequena janela de visualização da impressão. Nessa tela, no topo, encontram-se
botões de zoom e de envio do arquivo para a impressora.
7.4.2.1.5.Save
Permite salvar a concordância num arquivo. O nome do arquivo não deve ultrapassar oito
caracteres, seguido de uma extensão de no máxima três caracteres. A extensão padrão é
.cnc.
7.4.2.1.6.Save As
Opção usada para salvar uma concordância já salva com um nome diferente.
7.4.2.1.7.Save As Text
Faz com que a concordância seja salva num arquivo-texto. A tela correspondente pede que
o usuário especifique um nome para o arquivo, além de permitir fazer ajustes no tipo de
informação que é gravada no arquivo. A largura de cada linha da concordância no arquivo-
texto é determinada pela opção Characters in Save as Text, que não está disponível nessa
tela (vide 7.3.4.3, p. 97).
As opções dessa tela são:
Header: Linha de cabeçalho que ficará no topo do arquivo. A mensagem padrão, contendo
a data e hora do salvamento da concordância, aparece automaticamente. O usuário pode
digitar o que quiser lá. Caso não deseje um cabeçalho, basta apagar a informação do
campo.
Footer: Linha de rodapé. Não há um rodapé pré-formatado. Deixar em branco esse campo
faz com que o programa não insira nenhum rodapé.
104
Number each line: Se marcado, faz com que cada linha da concordância seja numerada,
seqüencialmente.
Column separator: Caracter que faz a separação entre as colunas de informação da
concordância. Tab: caracter de tabulação (é o default). Specify: o usuário pode especificar
um caracter ali, digitando-o.
Rows to save: linhas a serem salvas no arquivo. All: todas. Any highlighted: Somente as
linhas selecionadas (com o mouse ou tecla shift conjuntamente com tecla de seta, para
cima ou para baixo). Specify: número das linhas da lista a serem salvas.
Rows to save: colunas a serem salvas no arquivo. All: todas. Any highlighted: Somente as
colunas selecionadas (com o mouse ou tecla shift conjuntamente com tecla de seta, para
esquerda ou para direita). Specify: número das colunas da lista a serem salvas (zero é a
coluna ‘N’).
Pressionando OK faz com que o arquivo seja gravado.
7.4.2.1.8.Copy
Abre uma janela que permite que o conteúdo da concordância seja copiado para um destes
destinos: (a) clipboard, (b) arquivo-texto, (c) impressora, (d) arquivo CNC. A opção (a) faz
com que a concordância seja enviada para o clipboard do Windows. Desse modo, o
conteúdo pode ser colado, por exemplo, em um arquivo do Word. É a opção mais flexível,
mas ao mesmo tempo deve ser evitada caso o tamanho da concordância seja grande
(tamanho grande é relativo ao hardware), pois o a máquina pode travar. A opção (b)
funciona do mesmo modo que ‘Save as Text’, explicado acima, enquanto (c) faz a mesma
operação que o comando ‘Print’, e (d) a mesma que ‘Save’. As opções em ‘What data’
referem-se à porção da concordância que será copiada: ‘all’ copia tudo, ‘selected’ copia
somente a porção previamente escolhida com o mouse, e ‘specify a set’ seleciona apenas
um trecho que corresponda a um conjunto determinado pelos códigos que se insere na
coluna ‘set’ da concordância. Esta última opção abre um menu onde estão presentes todos
os códigos possíveis aceitos pelo WordSmith Tools Concord (que são as letras maiúsculas
e minúsculas). Para escolher, basta clicar naquele código que se refere ao desejado e
depois clicar em OK. (vide explicação de ‘set’ na p. 101).
105
7.4.2.1.9.Exit
Finaliza o programa. Faz uma série de perguntas antes de encerrar-se.
7.4.2.1.10.No-check exit
Finaliza o programa bruscamente, sem fazer perguntas.
7.4.2.2.View
Essas opções alteram a maneira de exibição da concordância, conforme detalhado abaixo.
7.4.2.2.1.Sentence only
Edita a concordância de tal modo que cada linha corresponda a uma ‘sentença’. Sentença
é entendida pelo programa como sendo um trecho que termine num ponto final, ponto de
interrogação ou ponto de exclamação seguido de um divisor de palavra (word separator),
que são o espaço em branco, tabulação, final de texto, page eject, carriage return e line
feed, seguido de uma letra maiúscula, um número ou um símbolo monetário (cifrão, libra,
etc.). O hífen também pode ser divisor de palavra, contanto que a opção ‘hyphen break
words’ esteja marcada no menu Settings, Text Characteristics, guia Text.
7.4.2.2.2.Tags cut
Edita a concordância, escondendo as etiquetas que foram indicadas em Tags to be included
no menu Settings, Text Characteristics, lapela Tags, janela Tag File 1.
7.4.2.2.3.Spaces cut
Edita a concordância, eliminando espaços redundantes. É útil em casos em que a opção
‘Tags cut’ tenha sido acionada, para remover os espaços onde apareciam as etiquetas.
7.4.2.2.4.Blanked out
Elimina o termo de busca da concordância, substituindo-o por uma série de asteriscos.
Somente o termo centralizado é apagado de cada linha, ou seja, caso ele seja repetido na
mesma linha, apenas aquele que está centralizado é removido.
106
7.4.2.3.Settings
Esse menu permite ajustes na especificação dos itens fundamentais do programa, além de
permitir efetuar mudanças nos ajustes usados pelo programa para processar os arquivos.
7.4.2.3.1.Search word
Remete à janela ‘Concordance Settings’ e permite especificar o termo de busca. Vide item
Search Word or Phrase (p. 93).
7.4.2.3.2.Horizons, etc.
Remete à janela WordSmith Tools Settings e permite fazer diversos ajustes que afetam a
busca. Vide item Horizons, etc. (p. 96).
7.4.2.3.3.Clusters
Permite definir os ajustes para levantamento de agrupamentos lexicais, que são seqüências
de palavras repetidas presentes na concordância. A tela abaixo ilustra uma lista de clusters
de três palavras:
107
Os ajustes existentes para a exibição dos clusters são:
• Words in clusters: especifica o tamanho dos clusters; o mínimo é dois e o máximo,
oito. Duas observações são pertinentes aqui:
• Clusters maiores são quase sempre em menor número do que os menores. Há mais
probabilidade de seqüências menores (p.ex. de duas palavras) se repetirem do que
seqüências maiores (p.ex. de cinco palavras).
• Clusters se combinam. Clusters menores fazem parte de clusters maiores. Por exemplo,
um cluster de três palavras contém dois de duas palavras:
• Três palavras: Casa de tijolos
• Duas palavras:
• Casa de
• De tijolos
• Porém, a quantidade de clusters menores não pode ser determinada diretamente da
quantidade de clusters maiores a partir dessa regra, porque nem todos os clusters
menores se agrupam em clusters maiores. Por exemplo, se ‘casa de tijolos’ tiver
freqüência três, ‘casa de’ não precisa ter necessariamente a mesma freqüência; ele pode
ter freqüência cinco, por exemplo, pois pode formar outros clusters, como ‘casa de
verão’, ‘casa de praia’, etc.
• Minimum frequency: determina a freqüência mínima do cluster para que seja incluído
na listagem. O mínimo recomendado é dois, já que a freqüência de um significaria uma
listagem de todos os clusters que existem na concordância.
• Horizons: ajusta a largura do horizonte colocacional em torno do termo de busca de
onde os clusters serão retirados. O ajuste deve levar em conta o tamanho do cluster.
Um cluster de tamanho três deve ser ajustado para um horizonte de, no máximo, duas
palavra para esquerda e duas para a direita. Isso porque os valores do horizonte são
calculados assim:
• 5L 4L 3L 2L 1L Termo_de_busca 1R 2R 3R 4R 5R
108
• Se o tamanho do cluster for três palavras e o horizonte for de duas palavras para cada
lado, os clusters retirados encontrar-se-ão na seguinte faixa:
• 2L 1L Termo_de_busca
ou
• 1L Termo_de_busca 1R
ou
• Termo_de_busca 1R 2R
Ou seja, todos os clusters conterão a palavra de busca. Mas se o horizonte for,
digamos, de cinco palavras para cada lado (que é o default), para clusters de tamanho três,
então os clusters poderão estar numa faixa que não inclui o termo de busca, como por
exemplo:
• 5L 4L 3L
• 4L 3L 2L
• 3L 2L 1L
• 1R 2R 3R
• etc.
Como exemplo, tomemos a concordância abaixo, cujo termo de busca é ‘e’:
que não tem nada mesmo. Mas tudo bem. E se não é niilismo clubber, o que é o des o, as provas aparecerão logo, e tudo bem. E se não for? Rafael Greca Ontem houv
Suponhamos que os ajustes sejam estes:
Words in cluster: 2. Minimum frequency: 2 Horizons: 3L, 3R
Isso fará com que os seguintes clusters sejam identificados:
109
E se Se não Tudo bem
Nesse caso, apenas o cluster ‘e se’ inclui o termo de busca (‘e’). Os demais clusters são
formados por outras palavras que se repetem próximas a ele.
Em alguns casos, essa característica não é necessariamente um problema, e o pesquisador
pode querer que o programa vasculhe a concordância buscando todos os agrupamentos
existentes lá. Mas na maioria das vezes o pesquisador desejará que o programa se restrinja
a detectar aqueles agrupamentos que são formados pelo termo de busca, o que requererá
que ele faça os ajustes necessários descritos aqui.
Os botões da barra de ferramentas da tela de Clusters são os seguintes:
• Resort: Re-ordena a listagem de clusters, alternando entre ordenação por freqüência e
alfabética (pela primeira palavra do cluster).
• Layout: Permite ao usuário re-organizar a tela, alterando cores, fontes, largura e
posição das colunas.
• Compute: Exibe uma calculadora para cálculo automático baseado nos números
presentes na tela. Vide p. 203 para explicação detalhada desse recurso.
• Change case: Altera as linhas de cluster, exibindo-as todas em maiúscula, todas em
minúscula ou somente iniciais em maiúscula.
• Zap: Elimina linhas que tenham sido previamente selecionadas e ‘acinzentadas’ por
meio do pressionamento da tecla ‘delete’, no teclado.
• Search: Permite buscar texto dentro das linhas dos clusters.
7.4.2.3.4.Uniform plot
Ajusta a aparência do gráfico (‘plot’), uniformizando-o. Os gráficos são explicados na p.
255.
Num gráfico uniformizado, todos os textos são representados por áreas que possuem o
mesmo tamanho. Já num gráfico não uniformizado, cada texto possui uma área de tamanho
110
proporcional à extensão do texto: um texto mais longo terá uma área maior e um mais
curto, uma área menor.
7.4.2.3.5.Choose texts
Leva à janela de seleção de textos, explicada na p. 89
7.4.2.3.6.Colours
Permite mudar as cores das janelas de concordância.
7.4.2.3.7.Directories
Remete a uma janela onde se pode especificar os diretórios default usados pelo programa
para escolher textos (‘Texts’)e para salvar e abrir concordâncias (‘Concord’), listas de
palavras-chave (‘KeyWords’) e listas de palavra (‘WordList’). É aconselhável não alterar
esses diretórios. Pode ser útil modificá-los temporariamente caso o usuário deseje trabalhar
por algum tempo com pastas diferentes, o que economizará tempo para acessar as pastas.
7.4.2.3.8.Font
Remete à lapela ‘General’ do menu ‘Settings’, que serve para especificar aspectos
relacionados à fonte e a outros tipos de ajuste.
No espaço ‘Startup’, permite especificar duas ações automáticas do programa:
Restore last work: quando marcado, o programa se iniciará carregando e mostrando
automaticamente a última lista de palavra, concordância ou lista de palavra-chave
utilizada. Na maioria das vezes, é melhor deixar desmarcada essa opção, pois o trabalho
feito por último pode ser recuperado facilmente também por meio da listagem de arquivos
que se encontra no final do menu File. Além disso, essa abertura automática torna mais
lento iniciar o programa.
Show help file: quando marcado, inicia o programa abrindo automaticamente o menu de
ajuda. Também é aconselhável deixar desmarcado, pois a lista de ajuda aberta
automaticamente tende a desviar a atenção do usuário e a ‘poluir’ sua tela. A ajuda pode
ser obtida facilmente pelo menu ‘Help’ ou pelo botão ‘?’ que se encontra na barra de
ferramentas.
111
No espaço ‘Printing’, é permitido definir se a impressão do trabalho será em cores ou em
preto e branco. O botão ‘Setup’ acessa os ajustes da impressora (tamanho do papel,
posição do papel, escolha de impressora, etc.).
O espaço ‘Font’ permite escolher a fonte usada para exibir os resultados, além do tamanho
da fonte.
Em ‘Internet browser’, é possível escolher o tipo de navegador da Internet a ser usado pelo
programa ‘Viewer’ para exibir textos no formato HTML. O botão ‘Browse’ traz uma tela
de escolha de arquivos do Windows, onde deve ser especificado o nome do arquivo .exe
que se refere ao navegador de Internet. Por exemplo, o Internet Explorer, no Windows 98,
está em C:\Arquivos de programas\ Internet Explorer\ IEXPLORE.EXE.
7.4.2.3.9.Printing
Permite ajustes na impressão do trabalho. Remete ao mesmo menu de ajustes de ‘Font’,
explicado acima. O espaço para ajuste da impressão é ‘Printing’, explicado no item
anterior.
A caixinha ‘Save’ grava os ajustes e os tornará ativos para a próxima sessão do programa.
7.4.2.3.10.Stop list
Permite especificar lista de palavras a serem excluídas do processamento dos textos. Cada
ferramenta exige a especificação independente de uma lista, no espaço diante do nome da
ferramenta (p.ex. Concord stop list). Clicando em ‘Browse’, o usuário tem acesso à lista de
pastas, de onde pode selecionar o arquivo correspondente. Depois de indicar o nome e a
pasta do arquivo, é necessário ainda marcar a caixa ‘Activated’, caso contrário a lista não
será levada em conta.
Uma stop list deve ter as características abaixo:
A lista deve ser um arquivo texto; não é permitido o formato .doc ou .rtf, por exemplo. Por
isso, é aconselhável usar um editor simples, como o notepad, para criar a lista. O botão
‘Notepad’, presente no menu, aciona esse programa.
A palavras podem ser escritas uma em cada linha ou várias numa mesma linha; nesse
último caso, devem ser separadas por vírgulas.
112
Cada linha pode ter no máximo 300 caracteres.
A palavras devem ser escritas em letras maiúsculas.
A quantidade máxima de palavras é 16 mil.
É aconselhável a terminação .stp na nomeação do arquivo.
As linhas que comecem com colchetes (‘[‘) são ignoradas; dessa forma, comentários ou
lembretes podem ser escritos na própria lista desde que precedidos, no início da linha, por
um colchete.
Uma stop list pode ser a seguinte:
[stop list para textos do corpus c:\texts\aaa DE,DA,DO,DOS,DAS,DUM,DUNS EM,NA,NO,NAS,NOS,NUM,NUNS
A caixinha ‘Save’ grava os ajustes e os tornará ativos para a próxima sessão do programa.
7.4.2.3.11.Tags
Tags, ou etiquetas, são códigos de anotação de corpus. Eles servem a muitas funções,
como por exemplo identificação da classe de palavra, nomeação dos falantes,
especificação de divisões do texto, etc. Para guardar os ajustes feitos nessa tela para
análises posteriores, o usuário deve selecionar a caixa ‘Save’.
As etiquetas podem ter diversos formatos, como por exemplo:
Determinação de classe de palavra:
Maria/SUBS é/VB bonita/ADJ ./PONT
As etiquetas /SUBS, /VB e /ADJ identificam a classe morfológica de cada palavra.
Nomeação dos falantes:
<falante=Maria> Quem é?
<falante=José> É o Zé.
As etiquetas <falante=Maria> e <falante=José> indicam o falante de cada
113
turno.
Nesse menu, há quatro opções:
(1) Tags to ignore. Serve para indicar um formato de etiqueta genérico que o
programa irá ignorar. A utilidade de ignorar as etiquetas é que
normalmente quando se faz uma concordância ou lista de palavras, o
pesquisador não quer que o texto que faz parte da etiqueta seja levado em
conta no processamento. O formato da etiqueta deve ser digitado na janela
logo abaixo ‘Tags to ignore’. O default é <*>. Caso selecionado, esse
formato fará com que tudo (devido ao asterisco) que esteja dentro dos
sinais de < e > seja desconsiderado. Para ativar essa opção, é preciso
marcar a caixa Activated. Por exemplo, no texto acima que mostra o
diálogo entre Maria e José, com a etiqueta do tipo <*> e a opção de
ignorar ativada, o programa desconsideraria a palavra ‘falante’. Mas se a
caixa de ignorar estivesse desmarcada, ou o tipo de etiqueta fosse outro
(p.ex. {*}), a palavra ‘falante’ faria parte da lista de palavra ou da
concordância.
Para verificar qual o resultado da seleção de etiquetas no processamento do
texto, pode-se usar o ‘Viewer’. O resultado que ele exibe significa a maneira
pela qual o WordSmith Tools processará o texto. Por exemplo, no caso do
diálogo acima, com ‘Tags to Ignore: <*>’ ativado, o resultado aparece na janela
abaixo. Como se percebe, o resultado é o desejado.
114
(2) Tag File 1 (Tags to be included). Permite que sejam especificadas etiquetas
para não serem ignoradas. Essa opção deve ser usada em conjunto com a
anterior, a fim de que algumas etiquetas sejam preservadas. As etiquetas
especificadas aqui aparecerão nas concordâncias e nas listas de palavras
como se fossem parte do texto ou da transcrição. Esse arquivo também
permite que as concordâncias exibam a etiqueta mais próxima na coluna
‘Tag’ (que indica o ‘nearest tag’, ou etiqueta mais próxima do termo de
busca; vide p. 101). As etiquetas devem ser digitadas num arquivo texto,
uma em cada linha, com no máximo mil etiquetas; o arquivo deve possuir a
terminação .tag . As etiquetas podem usar wildcards, como o asterisco (que
significa qualquer quantidade de qualquer caracter), o ponto de
interrogação (que significa apenas um caracter qualquer) e a cerquilha (#,
que identifica qualquer número). Tomando o texto anterior do diálogo
entre Maria e José como exemplo, o resultado de uma busca pela palavra
‘quem’ resultaria no seguinte:
• Sem nenhuma especificação de etiqueta ativada:
<falante=Maria> Quem é? <falante=José> É o Zé.
• Com ativação de Tags to Ignore: <*>, nota-se que todas as etiquetas desapareceram e
há um espaço em branco no local que elas ocupam no texto:
Quem é? É o Zé.
• Com ativação de Tags to Ignore: <*> e de Tags to include: <falante=Maria>, a etiqueta
referente a Maria volta a aparecer, e há uma lacuna no espaço onde consta a etiqueta de
José:
<falante=Maria> Quem é? É o Zé.
• Com ativação de Tags to Ignore: <*>, de Tags to include: <falante=Maria>, e de
Spaces Cut no menu View, o espaço onde havia a etiqueta de José desparece:
<falante=Maria> Quem é? É o Zé.
Tag File 2 (Tags to be translated). Permite que sejam convertidos códigos especiais em
caracteres legíveis. É útil, entre outros, para conversão de caracteres acentuados de textos
formatados em HTML. Por exemplo, em HTML, o caracter ‘Á’ é representado pelo código
Á . Se o usuário fizer uma concordância de um texto assim, palavras que
115
contenham ‘Á’ aparecerão de modo estranho (p.ex Ábaco aparecerá como Ábaco).
Para contornar esse problema, o usuário pode especificar um arquivo demonstrando como
os caracteres devem ser ‘traduzidos’. O arquivo deve ser de formato texto, por isso é
recomendável que seja criado e salvo num editor simples, como o Notepad; ele deve ainda,
preferivelmente, ser nomeado com extensão .tag. No arquivo, cada código deve ser escrito
numa linha, seguido de um espaço e do caracter que servirá de tradução. No caso acima, a
seguinte linha deverá ser adicionada ao arquivo:
Á Á
Text files and tags. Os botões dessa área do menu permitem especificar meios de
selecionar textos ou partes de textos com base em palavras ou etiquetas constantes neles.
• Only if Containing: Esse botão abre uma tela que contém 12 janelas, dispostas em
quatro linhas com três janelas cada. Nelas, o usuário pode especificar palavras como
‘selectors’ ou termos de inclusão e exclusão, que são palavras que devam ou não
aparecer no texto. Os textos que satisfizerem tais condições (caso haja algum) serão
selecionados pelo programa; os demais, não. Os critérios podem ser mais ou menos
complexos e podem ser formados por palavras ou por etiquetas. Cada palavra ou
etiqueta pode ter no máximo trinta caracteres; o programa diferencia maiúsculas de
minúsculas (‘case sensitive’).
• A entrada das palavras nas janelas deve obedecer a um critério pré-definido: as nove
primeiras janelas são para entrada de termos de inclusão, isto é, palavras que, caso
ocorram, farão com que o texto seja selecionado. Entre as janelas onde há a palavra
‘or’, o critério é ‘ou’, isto é, o usuário pode digitar palavras alternativas, do tipo ‘ou A
ou B ou C’. Nas linhas precedidas por ‘plus’, serão escolhidos os textos que possuam
pelo menos uma dessas palavras, mas não nenhuma delas. Nessas, o critério é ‘e’, isto
é, ‘A e B e C’; desse modo, serão escolhidos textos que possuam todas essas palavras.
Já na última linha, precedida por ‘but not’, as palavras digitadas nas janelas servem
como termos de exclusão, ou seja, os textos que as contiverem serão rejeitados. A
opção ‘Activated’ deverá ser marcada para que os termos tenham efeito. Marcando a
opção ‘favour.txt’ fará com que os textos que foram selecionados tenham seus nomes
gravados num arquivo chamado ‘favour.txt’ (em c:\wsmith), que poderá ser acessado
de novo por meio da opção ‘Get Favourites’ (vide p. 91); dessa forma, o usuário não
116
precisará digitar todos os termos de inclusão e exclusão novamente, numa outra sessão
do programa.
Para exemplificar, tomemos a tela abaixo, cujo resultado fará com que o programa
selecione somente textos que possuam a palavra ‘casa’:
•
Já na tela seguinte, os textos selecionados deverão conter a palavra ‘casa’ ou
‘apartamento’ (pelo menos um deles):
117
Na tela a seguir, os textos selecionados terão deverão ter ‘casa’ ou ‘apartamento’ e, além
disso, ‘cidade’:
Já de acordo com a tela abaixo, os textos deverão conter ‘casa’ e ‘cidade’ mas não ‘praia’:
De acordo com a janela abaixo, somente os textos que possuam a etiqueta <fonte=Folha>
serão selecionados:
118
• Only Part of File: Esse botão abre uma tela que permite determinar que partes do texto
serão processadas. Somente aquelas que satisfaçam os critérios determinados serão
consideradas pelo programa. Essa opção é útil em casos em que o pesquisador deseje
fazer análises separadas de, por exemplo, as introduções de artigos para comparar com
as conclusões. Ou em casos em que o corpus esteja anotado com cabeçalho, e o
pesquisador prefira excluir o conteúdo do cabeçalho do texto que é processado. As
diversas partes desse menu são explicadas abaixo.
• Cut start of each line/paragraph: aqui o usuário pode selecionar quantos caracteres
deseja ignorar no começo de cada linha. Essa opção pode ser útil para textos que
possuam algum tipo de marcação em cada linha do texto, como por exemplo números
de linha, como no caso abaixo, retirado do corpus Brown:
• A01 0010 The Fulton County Grand Jury said Friday an investigation
A01 0020 of Atlanta's recent primary election produced "no evidence"
• Como se percebe, o começo de cada linha é precedido por um código que identifica o
nome do arquivo (A01) seguido de um conjunto de algarismos que indicam a linha do
texto (0010, 0020). Nesse texto é importante eliminar essa marcação a fim de que a
concordância ou listagem de palavras, por exemplo, não confunda A01 com a palavra
‘A’ (artigo indefinido em inglês). Assim, o ajuste necessário para prevenir esse erro
119
consistiria em Cut start of each line/paragraph = 9, pois os oito primeiros caracteres de
cada linha são ocupados pelos códigos. Para deixar essa opção desativada, o usuário
deve certificar-se de que o número 0 esteja selecionado.
• Sections to Cut. Nessa área, o usuário pode especificar etiquetas que delimitam o
espaço do texto a ser omitido. Diante de ‘starting at’, o usuário deve digitar a etiqueta
que dá início ao trecho indesejado, e diante de ‘ending with’, a etiqueta que encerra
esse trecho. Se o trecho inciar-se com o primeiro caracter do texto, então o usuário
deve escolher ‘start of file’, em ‘starting at’. Para ativar essa opção, o usuário deve
marcar a caixa ‘activated’. Por exemplo, se o texto contiver um cabeçalho que se inicia
na primeira linha do arquivo e termina com o código </header>, então os ajustes para
eliminação desse trecho serão os seguintes:
• Há dois conjuntos dessas janelas: o segundo conjunto, à direita, indica uma alternativa
(‘or’), que pode ser preenchido do mesmo modo. Se o usuário fizer escolhas nesses
espaços, o programa tentará identificar o trecho indicado pela primeira escolha, mas se
não encontrar, tentará encontrar o trecho especificado pela segunda escolha. Se
nenhum desses trechos existir, o arquivo inteiro será processado.
• Sections to use. Nesse espaço, o usuário pode estabelecer critérios para seleção de
120
trechos do arquivo que deseja processar. Por exemplo, suponha que o seu texto seja
formatado assim:
<cabeçalho> <fonte: tesol> <responsável: patrícia> </cabeçalho> <introduction> In this article, we propose a new method for etc. etc. <method> We used protocol analysis as the basis for etc. etc.
• Nesse caso, se o usuário desejar fazer uma análise que se limite apenas aos trechos das
introduções dos textos (assumindo que todos os textos possuam as mesmas etiquetas,
sem variação de maiúscula / minúscula), o ajuste a ser feito deve ser o seguinte:
• Os dados inseridos nessa tela determinam que o programa deva desconsiderar o trecho
que se inicia pela primeira linha e vai até a etiqueta </cabeçalho>, e que o programa
deva processar somente o trecho que se situa entre as etiquetas <introduction> e
<method>.
• Devido a essas várias opções de especificação de etiquetas para retirar, manter e
121
traduzir, o programa WordSmith Tools usa uma seqüência fixa de processamento de
cada escolha. A seqüência é a seguinte:
• Only if Containing. O programa seleciona os textos que contenham os critérios
definidos nessa opção. Dentre os textos que obedeçam aos critérios determinados aqui,
os programa então:
• Omite as partes definidas em ‘Only Part of File / Sections to Cut’.
• Seleciona as partes definidas em ‘Only Part of File / Sections to Use’.
• Retira o início de cada linha, conforme definido em Cut Start of Each Line / Paragraph.
• Traduz os símbolos especificados em ‘Tag File 2 (tags to be translated)’.
• Apaga as etiquetas definidas em ‘Tags to Ignore’.
Obviamente, o programa somente inclui nessa ordem de processamento aquelas escolhas
que de fato foram ativadas (com a caixa ‘Activated’ marcada).
7.4.2.3.12.Text Characteristics
Essa opção, embora seja chamada de ‘Text Characteristics’ nos menus dos programas
Concord, WordList e KeyWords, na verdade refere-se à guia ‘Text’ da tela de ‘Settings’.
Nela, é possível fazer ajustes na maneira pela qual o programa processa a formatação dos
textos.
• Text Characteristics
A primeira área da tela é Text Characteristics, em que é possível especificar o idioma dos
textos e o formato dos caracteres (‘codepage’). A seleção do idioma influencia o tipo de
caracteres que o programa espera encontrar e a maneira pela qual ele faz a ordenação
desses caracteres. Por exemplo, se a língua especificada for o espanhol, o programa fará a
ordenação das letras na seguinte ordem:
A,B,C,CH,D,E,F,G,H,I,J,K,L,LL,M,N,Ñ,O,P,Q,R,S,T,U,V,W,X,Y,Z.
Note que a seqüência de letras CH aparecerá no final das demais iniciadas por C, quando
se fizer uma ordenação alfabética. O mesmo acontecerá com LL.
122
Na prática, se o usuário estiver processando textos escritos em línguas européias ocidentais
(português, inglês, francês, espanhol, alemão, etc.), é praticamente desnecessário corrigir a
definição do idioma quando houver mudança, já que os caracteres dessas línguas todas são
muito parecidos. O alemão, que possui ß, é a única grande exceção, mas como essa letra
está contemplada no conjunto de caracteres do Windows Western 1252, o programa
exibirá corretamente as palavras escritas com esse caracter, além de muitos outros, tais
como Å e Æ, que não fazem parte do alfabeto oficial do alemão.
A segunda área é onde se designa o conjunto de caracteres de computador a ser usado. O
conjunto de caracteres deve ser escolhido tendo em vista o idioma. Assim, se o idioma for
português, é preciso especificar o conjunto Windows Western 1252, que possui todas
letras dos alfabetos das línguas européias ocidentais (de línguas contemporâneas, como o
português e o inglês, até línguas já extintas, como o inglês medieval). Caso o usuário
escolha um conjunto de caracteres que é incompatível com a língua, o programa o rejeitará
e fará o ajuste automaticamente. Por exemplo, caso o idioma esteja definido para
português e haja uma tentativa de mudança do conjunto de caracteres para Cyrillic (que
serve para o russo, entre outros idiomas), ao se pressionar OK aparecerá uma mensagem
de erro informando ‘Codepage reset to 1252 to suit Portuguese’, e o conjunto de caracteres
retornará para Windows Western 1252.
A regra geral aqui é deixar selecionado o conjunto Windows Western 1252 e só substitui-
lo caso o usuário venha a analisar textos escritos em línguas de outras partes do mundo,
como o Tcheco (em cujo caso será preciso selecionar o conjunto Central European 1250)
ou o Turco (conjunto Turkish 1254), entre outras. Nesses casos, é aconselhável fazer a
mudança na seleção do idioma também. Mesmo nesses casos, normalmente o usuário deve
restringir-se aos conjuntos ‘Windows’, embora haja opções identificadas como ‘DOS’, que
são apenas para arquivos antigos, pré-Windows9. O WordSmith Tools não interpreta textos
escritos em alfabetos orientais, como o japonês, chinês ou árabe.
Esses ajustes podem ser vistos no arquivo langinfo.txt, que se encontra na pasta onde está
instalado o WordSmith Tools.
9 Os códigos de caracteres são diferentes no DOS e no Windows.
123
• Handling
Nessa área, o usuário pode especificar:
Hyphens break words: Quando marcada, essa opção faz com que palavras hifenizadas
sejam tratadas como palavras separadas (isto é, como se houvesse um espaço em branco
entre elas). Por exemplo, a palavras ‘mantenha-se’ seria desmembrada em ‘mantenha’ e
‘se’ numa lista de palavras. Para o Concord, essa opção não afeta o resultado da
concordância.
Characters within word: São especificados aqui os caracteres que fazem parte das palavras,
além das letras. No inglês, uma opção é a aspa simples (‘), que é usada em contrações
verbais, do tipo “I’m’ e “He’s”. Se a aspa simples estiver especificada aí, o WordList e o
KeyWords tratarão “I’m’ como uma palavra inteira; caso contrário, considerará ‘I’ uma
palavra e ‘m’ outra (a aspa restante não é levada em conta).
Em alguns tipos de textos especiais, em que haja uma forma específica de anotação, às
vezes torna-se necessário especificar caracteres inusitados nessa opção. Uma instância
disso são textos etiquetados com o analisador morfossintático VISL
(http://visl.hum.ou.dk), que geralmente incluem palavras compostas tratadas como uma
unidade inteira; tais palavras aparecem grafadas com um sinal de igual (‘=’) unindo as
diversas palavras que compõe a lexia complexa. O trecho abaixo traz um exemplo de texto
etiquetado pelo VISL:
because=of [because=of] <CompPP> PRP @N< @ADVL all [all] <Quant> PRON DET PRE SG/PL @>N … that [that] <**CLB> CONJ KS @SUB10
Percebe-se que a locução ‘because of’ apareceu grafada ‘because=of’, para indicar que o
programa a considerou como uma unidade lexical e não como duas (‘because’, ‘of’).
Nesses casos, se o analista desejar que o WordList e o KeyWords tratem ‘because of’
10 Não há espaço aqui para explicar os códigos presentes no exemplo. Para maiores
detalhes sobre o VISL, incluindo como usá-lo online e os códigos de etiquetagem
empregados, vide Berber Sardinha (2005).
124
como uma unidade lexical única, então será preciso especificar o sinal de igual como
‘character within word’.
Botões Plain text, HTML, SGML or XML: Esses botões indicam o tipo de formatação do
arquivo:
• Plain text: arquivo-texto que só possui caracteres disponíveis no teclado. Normalmente
possui nome com terminação .txt. É também conhecido como ‘ASCII11’, ‘texto puro’,
etc. Este é o formato preferido pelo WordSmith Tools (e pelos programas e scripts de
processamento de texto e de análise lingüística), pois não contém caracteres
‘estranhos’ que interferem com a legibilidade das palavras pelo programa.
Quando esta opção é selecionada, o WordSmith Tools faz alguns ajustes nas janelas
‘heading’, ‘sentence’ e ‘paragraph’ (na janela correspondente a ‘end’), logo abaixo dos
botões de tipo de formatação de arquivo, conforme mostra a figura abaixo:
11 Lê-se ‘ásqui’.
125
Em ‘Heading’, que indica subtítulos, aparece </head>, mas esse código é inócuo porque
normalmente não há codificação para isso em arquivos-texto. Em ‘Sentence’, surge o
código ‘auto’, que indica um ponto final, de interrogação ou de exclamação seguido de um
espaço e de uma letra maiúscula. Em ‘Paragraph’, o programa especifica automaticamente
<Enter><Tab>. É possível modificar esses códigos à vontade. Entretanto, em se tratando
de arquivo-texto, sem formatação especial, o único código que realmente pode valer a pena
modificar é o de parágrafo. Por exemplo, se o texto estiver formatado com dois ‘Enters’ no
final de cada parágrafo, então o usuário deve digitar <Enter><Enter> no campo apropriado
(o segundo referente a ‘paragraph’).
O usuário deve atentar para o fato de que os códigos mudam quando a opção de tipo de
texto é alterada e são retidos quando a opção ‘plain text’ é escolhida de novo. Por
exemplo, se for escolhida ‘HTML’ e depois ‘plain text’, os códigos dos campos de
‘heading’, ‘sentence’ e ‘paragraph’ serão, respectivamente, </h#>, auto e </p>, que são as
definições do tipo HTML. Em outras palavras, os códigos originais de ‘plain text’ não
retornam aos campos designados. Para que esses códigos voltem, é preciso desligar o
programa e reiniciá-lo ou digitá-los novamente.
126
É importante ressaltar que arquivos produzidos nativamente pelo Microsoft Word não são
arquivos-texto. O MS Word grava arquivos em seu formato próprio, reconhecido pelas
extensões .doc ou .rtf. Esses formatos possuem muitos códigos de formatação de página
(negrito, fonte, margens, tabelas, enfim, tudo que faz com que o texto assuma um certo
layout desejado pelo usuário) que estão presentes no arquivo mas que não se constituem
em palavras do texto. O usuário não vê esses caracteres na sua tela porque o programa os
esconde e os traduz em informação relevante para a formatação do texto na tela. Mas se
um arquivo .doc for aberto num editor de texto que não ‘entenda’ esses caracteres, torna-se
possível enxergá-los. Por exemplo, um arquivo .doc que tenha apenas a frase ‘O gato
sentou no tapete.’ assume a seguinte aparência quando visto no editor Bloco de Notas do
Windows:
Como se percebe, há uma quantidade grande de códigos que poluem a tela. Muitos desses
caracteres seriam ‘lidos’ pelo WordSmith Tools, que, à semelhança do Bloco de Notas,
não sabe traduzi-los ou ignorá-los, o que faria com que caracteres indesejados fossem
incorporados à lista de palavras ou fossem exibidos numa concordância. Para evitar esses
problemas, é fundamental que o usuário certifique-se de que não esteja usando arquivos
salvos em formato .doc, .rtf, .pdf ou de outros programas que possuam um formato próprio
(como o PowerPoint, PageMaker, etc.).
127
Para converter arquivos .doc em formato texto é muito simples: basta abrir o arquivo e
selecionar ‘Salvar como’ (Save as) no menu Arquivo (File). Depois, na caixa ‘Salvar como
Tipo’, é preciso selecionar ‘Somente texto’. O Word adiciona automaticamente uma
extensão .txt ao nome do arquivo. É recomendável não exceder oito caracteres na
nomeação do arquivo para que o WordSmith Tools não trunque o nome (modificando, por
exemplo, um arquivo chamado de ‘arquivo com um nome bem longo.txt’ para
‘arquiv1~.txt’).
Há outras opções para gravação do arquivo em formato texto no MS Word. Uma delas é
‘Arquivo MS-DOS’ ou DOS Text. Essa opção deve ser evitada quando se tratar de
arquivos escritos em língua portuguesa, porque esse formato não exibe muitos caracteres
acentuados corretamente. Por exemplo, a frase ‘Márcio comeu maçã e lingüiça’, quando
salva num formato de arquivo ‘MS DOS’, aparece desta maneira:
M rcio comeu ma‡Æ e ling�i‡a.
Uma outra opção disponível no Word é Texto com Layout (.ans). Esta opção preserva os
caracteres acentuados e, além disso, mantém (até certo ponto) a disposição do texto nas
páginas. Essa opção é indicada em casos em que o usuário faz questão de que tabelas ou
esquemas sejam mantidos aproximadamente parecidos ao que eram na versão .doc. Por
exemplo, a tela abaixo ilustra um texto formatado com recursos do MS Word:
128
A tela abaixo mostra o mesmo texto salvo no formato .ans:
129
Como se percebe, há uma disposição do texto na página que lembra o layout original do
texto .doc. Esse layout estaria totalmente perdido numa versão salva no formato .txt, que é
mostrada abaixo:
130
Deve ser enfatizado que, para o WordSmith Tools, o layout do texto, conforme mostrado
acima, é irrelevante, pois o programa deter-se-á na extração das palavras que formam o
texto e não será influenciado pela maneira segundo a qual as palavras estão dispostas no
arquivo.
Para converter diversos textos de uma vez, é possível fazer a conversão um por um,
conforme sugerido aqui, ou usar o Assessor de Conversão (Conversion Wizard). Para
maiores informações sobre essa opção, consulte a Ajuda do MS Word.
HTML: arquivo-texto que possui códigos de formatação específicos para exibição em
navegadores de WWW. Normalmente possuem extensão .html ou .htm . Esse tipo de
arquivo hoje é bastante comum, devido à popularização da WWW e à possibilidade de
retirada de arquivos da Internet para formação de corpora. Por isso, é importante conhecer
melhor como esse tipo de arquivo é formatado e como ele deve ser tratado no WordSmith
Tools.
Um arquivo HTML possui códigos do tipo:
131
<início>Texto etc.</fim>
Os códigos de início e fim delimitam o conteúdo que está entre eles.
Há muitos códigos disponíveis em HTML, e não há espaço aqui para discuti-los. Num
arquivo HTML esses códigos podem ser bastante numerosos, conforme mostra o trecho
abaixo, extraído de uma webpage da Internet:
<!doctype html public "-//w3c//dtd html 4.0 transitional//en"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> <title>LAEL, PUCSP: Disciplinas e Horários</title> <link rel="stylesheet" type="text/css" href="lael.css" /> </head> <body> <h1><img border="0" src="images/disciplinas_1_2000.gif" width="600" height="60"></h1>
Esses códigos todos são considerados palavras para o WordSmith Tools caso o usuário não
faça os ajustes necessários no programa. Escolhendo a opção HTML no menu, o programa
ativará automaticamente algumas etiquetas para processamento do texto, conforme mostra
a figura abaixo:
132
A primeira será o ‘heading’, que são os códigos de formatação dos títulos e subtítulos. Um
‘heading’ de HTML tem a seguinte aparência básica:
<h1>Um subtítulo principal do texto</h1>
No espaço correspondente, o programa estabelecerá a etiqueta <h#> para início e </h#>
para término, onde # significa ‘qualquer número’. Isso significa que quaisquer códigos do
tipo <h1>, <h2>, </h1>, </h2>, etc. serão desconsiderados pelo programa. No caso acima,
o programa desconsideraria <h1> e </h1>.
Depois, em ‘sentence’, o programa informa ‘auto’, que significa ‘automático’, isto é, uma
quebra de linha (feita com a tecla ‘Enter’). Em outras palavras, o programa não estabelece
nenhum código para delimitar sentenças, pois não há nenhum código para isso em HTML.
Finalmente, em ‘paragraph’, o programa assume os códigos <p> e </p>, que são usados,
respectivamente, para início e fim de parágrafo. Parágrafos em HTML podem ser
marcados assim:
<p>Aqui vai o texto do parágrafo. Outra sentença do parágrafo. </p> <p>Aqui vai outro parágrafo. E outra sentença. Etc. </p>
Mas muitas vezes o parágrafo é identificado somente como:
Aqui vai o texto do meu parágrafo. Outra sentença do parágrafo. <p>
De qualquer modo, o programa desconsiderará os códigos <p> e </p> que ocorram no
texto. Além disso, as estatísticas de contagem de parágrafos (no programa WordList) serão
baseadas em contagens de parágrafos feitas a partir desses códigos.
Esses ajustes são básicos, e, mesmo com eles, muitas palavras que fazem parte de códigos
serão levadas em conta pelo programa. Além disso, outros códigos, que deveriam ser
interpretados corretamente, não o serão; este é o caso das palavras acentuadas. Por
exemplo, em HTML, uma palavra como ‘horários’ pode ser representada como
‘horários’, em que o caracter ‘á’ é representado por ‘á’. Assim, para que o
programa faça os ajustes devidos e processe um texto HTML de maneira consistente e
correta, será preciso, além de especificar HTML nesse menu ‘Text’, fazer ajustes no menu
‘Tags’, especificando etiquetas. Basicamente, será necessário:
133
(1) Marcar a caixa ‘Tags to ignore’ como <*> e selecionar ‘activated’.
(2) Em Tag File 2, deverá ser especificado uma seqüência de instruções para tradução
de caracteres acentuados. Um exemplo é o arquivo sgmltrns.tag, que vem com a
distribuição do programa. Marcar a caixa ‘activated’.
(3) Em Only Part of File, na área Sections to Cut, deverá ser especificado ‘starting at:
start of file’ e ‘ending with: <body>’. Ou, em vez disso, na área ‘Sections to Use’,
especificar ‘starting at: <body>’ e ‘ending with: </body>’. Marcar a caixa
‘activated’.
Mesmo com todos esses ajustes, não é garantido que o processamento será livre de erro,
pois muitos textos HTML não seguem estritamente o padrão.
Uma outra alternativa para o uso de arquivos HTML com o WS Tools é transformar os
arquivos HTML em formato texto antes de usá-los. Para fazer isso, basta abrir cada
arquivo do modo habitual (num navegador do tipo Internet Explorer, por exemplo) e
selecionar ‘Salvar Como’ (Save As) no menu ‘Arquivo’ (File). Lá, deve-se escolher
‘Arquivo texto .txt’ (‘Text File .txt’) na caixa ‘Salvar com o Tipo:’. Se isso for feito para
cada texto, as etiquetas e os códigos de acentuação serão eliminados ou convertidos, e o
resultado será um arquivo sem formatação, conforme explicado acima. O usuário deverá
então escolher o formato ‘Plain Text’ no WordSmith Tools para esses arquivos
convertidos.
• SMGL or XML. Estes formatos são semelhantes ao HTML, discutidos acima, ou seja,
são constituídos de etiquetas que permitem formatação e inclusão de informação sobre
o texto. SGML significa 'Standard Generalized Markup Language’ e é um tipo de
padrão internacional de marcação de textos, definido por um ISO (8879:1986). XML,
por sua vez, quer dizer ‘Extensible Markup Language’, e é um subtipo de SGML.
Os textos formatados em SGML possuem muitas etiquetas, conforme mostra o exemplo
abaixo, extraído de um arquivo do British National Corpus (BNC), que emprega esse
padrão de marcação:
<bncDoc id=BDA00 n=AidFct> <header type=text creator='dominic' status=new update=1994-11-24> <fileDesc> <titStmt> <title>
134
ACET Factsheets $1$21Newsletters -- an electronic collection </title> <respStmt> <resp> Data capture and transcription </resp> <name> Oxford University Press </name>
Como se percebe, a informação está codificada por meio de etiquetas do tipo:
<etiqueta_x> informação etc. </etiqueta_x>
Não há espaço aqui para explicar as muitas etiquetas empregadas pelo BNC ou as
existentes em SGML ou XML. Como há bastante variação no conjunto de etiquetas (tag
set) usado em arquivos SGML, será tomado como exemplo um arquivo do BNC;
entendendo os princípios do tipo de marcação SGML usado nesses textos permitirá que o
leitor adapte os ajustes do WordSmith Tools para outras situações.
O importante é perceber que, para o WordSmith Tools ler corretamente os arquivos
formatados nesses padrões, será preciso estabelecer quais etiquetas são as corretas para (1)
interpretar o layout do texto, (2) extrair as palavras que realmente compõem o texto (3)
omitir informações adicionadas ao arquivo mas que não fazem parte do texto (isto é, as
marcações de data, autor, fonte, etc., além dos códigos das etiquetas), e (4) traduzir
códigos especiais (isto é, acentuação e símbolos, caso haja) para caracteres legíveis.
Assim como em HTML, o primeiro passo é estabelecer os códigos para que o programa
interprete o layout do texto, preenchendo os campos ‘heading’, ‘sentence’ e ‘paragraph’.
É importante aqui abrir os textos a serem processados num editor de texto e observar o tipo
de marcação empregado neles. Os ajustes pré-selecionados pelo WordSmith Tools são
adequados para o BNC; são eles:
Beginning End Heading <head> </head> Sentence <s *> </s> Paragraph <p> </p>
Vale lembrar que esses ajustes podem ter mudado caso tenha sido selecionado outro tipo
de texto durante a mesma sessão de uso do programa. Nesse caso, será preciso reiniciar o
135
programa ou digitar os códigos nos campos apropriados.
Em segundo lugar, para extrair as palavras e ignorar os demais códigos das etiquetas, é
preciso trabalhar com o menu ‘Tags’, já explicado antes. Os ajustes necessários são
explicados a seguir.
A opção ‘Tags to Ignore’ precisa estar selecionada (‘Activated’) e o código <*> deve estar
inserido no campo apropriado. Isso fará com que o conteúdo das etiquetas seja ignorado, o
que é muito importante visto que o BNC possui, além dos códigos de SGML, outras
etiquetas que informam a classe morfológica de cada palavra do texto (part of speech tag).
Um exemplo aparece no trecho abaixo:
<item> <s n=006> <w PRP>through <w AJ0>infected <w NN1>blood <w CJC>or <w NN1>blood <w NN2>products <c PUN>. </item>
No trecho, percebe-se que cada palavra do texto é precedida por uma etiqueta do tipo <w
CÓDIGO>: ‘through’ é identificada como ‘preposição’ (<w PRP>), ‘infected’ como
adjetivo (<w AJ0>), ‘blood’ como substantivo singular (<w NN1>), e assim por diante, até
o ponto final, que recebeu a etiqueta de pontuação (<c PUN>). O acionamento da opção
‘Tags to ignore: <*>’ fará com que o trecho acima seja ‘limpo’ e visto como:
Em terceiro lugar, para omitir informações adicionadas ao arquivo, mas que não fazem
parte do texto propriamente dito, é preciso especificar em ‘Only Part of File’, as seções do
136
arquivo que não contém o texto, isto é, o cabeçalho. No BNC, o cabeçalho inicia-se na
primeira linha do arquivo (com algo parecido com <bncDoc id=BDA00 n=AidFct>) e
termina com </header>. Por isso, em ‘Sections to Cut’, é preciso selecionar ‘starting at:
beginning of file’ e ‘ending with: </header>’. Depois, é preciso marcar a caixa ‘Activated’.
Finalmente, para traduzir códigos, em Tag File 2 (tags to be translated), especifique um
arquivo que contenha instruções de como traduzir códigos de acentuação e de símbolos. O
WordSmith Tools já traz um arquivo com alguns desses códigos, chamado sgmltrns.tag,
que está no diretório do programa. O arquivo possui linhas do tipo:
— - é é É É
O formato do arquivo é:
Código_original espaço_em_branco caracter_traduzido
Assim, a primeira linha diz ao WordSmith Tools para traduzir a seqüência — por
um hífen (‘-‘). A segunda instrui o programa a substituir é por ‘é’, e assim por
diante. O arquivo sgmltrns.tag não contém todos os códigos, notadamente os de
acentuação, por isso deve ser complementado. Muitos códigos de acentuação não são
necessários para textos escritos em inglês.
Seguindo esses passos, o resultado é um texto ‘limpo’ das etiquetas de marcação do
SGML, conforme pode ser visto na figura abaixo, que ilustra como o ‘Viewer’ (e
conseqüentemente o Concord, WordList e KeyWords) interpreta o arquivo:
137
Conforme explicado antes, caso o analista queira manter alguns códigos visíveis, precisará
especificá-los num arquivo especial e selecionar esse arquivo na opção ‘Tag File 1 (tags to
be included)’ do menu ‘Tags’ de Settings.
7.4.2.3.13.Review all Settings
Essa opção abre uma janela que resume os ajustes feitos nos vários menus. Os botões
‘Text’, ‘Tags’, etc. localizados junto à margem direita simplesmente remetem o usuário a
partes da listagem de ajustes, facilitando a localização dos ajustes desejados. Entretanto,
não é possível modificar as opções diretamente nessa janela. É preciso ir novamente ao
menu ‘Settings’ da ferramenta desejada ou do Controller para processar as alterações.
7.4.2.4.Window
Esse menu organiza as janelas abertas na tela, no estilo padrão do Windows. ‘Tile’ coloca
as janelas de modo adjacente, ‘Cascade’ uma sobre as outras, ‘Arrange All’ as transforma
em ícones (não está ativo em algumas versões) e ‘Minimize All’ as minimiza.
7.4.2.5.Help
É o menu de ajuda, padrão do Windows.
A versão do WordSmith Tools instalada pode ser vista na opção ‘About & Memory’ do
menu ‘Help’.
138
7.5. Os botões da barra de ferramenta do Concord
Esses botões estão sempre visíveis, mesmo quando não há nenhuma concordância aberta.
Eles são descritos abaixo:
Remete à janela Getting Started (vide 7.3, p. 88)
Save. Abre a janela de salvamento da concordância, ou, se ela já tiver sido gravada,
salva-a novamente com o mesmo nome.
Save As. Abre a janela de salvamento de arquivo, permitindo salvar uma
concordância, lista de palavra ou lista de palavra-chave com outro nome.
Save as Text. Salva a concordância como texto. Vide 7.4.2.1.7, p. 103.
Print Preview. Permite ver a aparência da impressão antes de enviar o material para
a impressora.
Copy. Permite copiar a concordância inteira ou em partes para a área de
transferência (clipboard), arquivo-texto (equivalente a Save as Text), impressora
(equivalente a imprimir), e um arquivo de concordância (equivalente a Save ou Save As).
Em What Data, permite selecionar se a concordância será salva inteira (all), somente a
parte selecionada com o cursor (selected), ou (no caso do Concord somente) se somente as
linhas marcadas com códigos (Vide p. 101 sobre ‘sets’).
[?] Help. Abre o menu de ajuda.
Advice. Abre um menu mostrando um ‘mapa’ dos comandos e localizando o
usuário nesses comandos. Também sugere alguns comandos que o usuário pode utilizar.
Pode ser útil para o analista que se sente ‘perdido’ em meio aos comandos ou que
esqueceu algum comando.
7.6. Os botões da janela da concordância
Esses botões aparecem somente quando há uma concordância aberta. Eles são descritos
abaixo:
Grow. Aumenta o tamanho de cada linha da concordância, permitindo ver mais
139
texto de cada vez. O número aumenta a cada clique nesse botão. Ao aumentar o tamanho
de cada linha, o usuário pode perder de vista uma linha específica que estava analisando ou
lendo. Nesses casos, supondo que o cursor estivesse nessa linha antes de clicar em ‘Grow’,
para trazer de volta aquela linha para a tela, basta clicar na tecla de ‘seta para baixo’ no
teclado e depois na ‘seta para cima’.
Shrink. Reduz a quantidade de texto visível em cada linha da concordância.
Re-Sort. Reordena alfabeticamente a concordância de acordo com critérios
especificados pelo usuário. Vide p. 97, para mais detalhes.
Layout. Reordena a disposição dos elementos na tela da concordância. Ativa a
seguinte tela:
O quadro superior à esquerda indica os elementos da tela da concordância. Para mudá-los
de ordem, basta selecionar algum deles e depois clicar nos botões de movimento (setas
para cima e para baixo, junto a ‘Move’). Esses elementos subirão ou descerão de posição
na lista. Ao clicar em OK, a disposição dos elementos será alterada na tela.
Para apagar alguma coluna, clique nela e depois pressione a tecla ‘delete’, do teclado.
Surgirá uma mensagem pedindo confirmação. Clicando em OK, a coluna desaparecerá.
A área inferior à esquerda mostra os esquemas de cores disponíveis. Para alterá-los, é
140
preciso ir ao menu ‘Settings’, ‘Colours’.
As áreas referentes a Alignment, Visibility e Decimals não se aplicam à concordância.
‘Typeface’ permite modificar a aparência da fonte, para negrito (bold), italics (itálico) ou
sublinhado (underlined). Não está ativa.
Width permite modificar a largura das janelas em pixels. Não está ativa.
Compute. Ativa uma tela para entrada de dados, como uma calculadora. Não tem
utilidade para concordância.
Change Case. Não está ativa para concordância, mas funciona para a janela de
colocados (‘Collocates’, vide p.140 a seguir). Faz com que a aparência das palavras mude,
de maiúsculas para somente primeira letra em maiúscula, para todas as letras em
minúsculas. Para mudar, basta clicar seguidamente e selecionar o efeito desejado.
Zap. Permite apagar linhas da concordância. Para apagar uma linha, porém, é
preciso antes selecionar a linha (ou linhas) que o usuário deseja apagar, pressionar a tecla
‘delete’ e depois clicar em Zap. Caso contrário, o programa emite uma mensagem dizendo
‘Nothing to Zap’.
Search. Traz uma tela de busca. No campo ‘search for’ o usuário deve digitar o
texto que procura. ‘Case sensitive’ deve ser escolhido se a busca necessite diferenciar
maiúsculas de minúsculas; ‘Whole Word’, caso a busca deva se restringir a palavras
inteiras; ‘Down’, se a busca dever ser feita para baixo somente, e não na lista toda. Para
inserir símbolos e caracteres especiais (acentuados, por exemplo), é possível clicar no
botão ‘Symbols’ e depois selecionar os caracteres desejados. Eles serão entrados
automaticamente no campo ‘search for’.
Show Collocates. Traz uma janela que exibe os colocados do nódulo (o termo de
busca). Os colocados são as palavras que ocorrem próximas ao nódulo. A figura a seguir
ilustra essa janela:
141
As colunas são as seguintes:
Word: indica os colocados.
Total: total de ocorrências do colocado.
Left: total de ocorrências do colocado à esquerda do nódulo.
Right: total de ocorrências do colocado à direita do nódulo.
L5, L4, L3, L2, L1: total de ocorrências do colocado na quinta / quarta / terceira / segunda
e primeira posições à esquerda do nódulo. O ‘L’ significa ‘left’.
*: total de ocorrências do nódulo.
R1, R2, R3, R4, R5: total de ocorrências do colocado na primeira / segunda / terceira /
quarta e quinta posições à direita do nódulo. O ‘R’ significa ‘right’.
As palavras que são selecionadas para compor essa janela são influenciadas pelas
freqüências mínimas e ajustes estipulados no menu Settings / Horizons, etc, na área
‘Collocates’. Vide 7.3.4.6 e 7.3.4.7, p. 98 ff.
Essa tela traz ainda os seguintes botões não explicados até aqui:
Match. Aciona a tela de ‘Match List’. Essa opção permite especificar uma lista de
comparação (Match List), para identificar ou apagar palavras selecionadas da listagem de
colocados ou de uma lista de palavras ou de palavras-chave. A figura abaixo ilustra essa
tela:
142
Em ‘Basis’, ‘Text File’, é possível especificar um arquivo-texto com palavras a serem
comparadas, clicando em ‘Browse’, que abrirá a tela de seleção de arquivos do Windows.
O usuário pode, por exemplo, querer identificar ou retirar as palavras funcionais (‘function
words’) da listagem. Para isso, precisará de uma lista com todas essas palavras salvas num
arquivo-texto. Depois, basta especificar o nome e a pasta do arquivo no campo.
Em ‘Template’, é possível digitar uma instrução para o programa buscar na lista. Pode ser
apenas uma palavra ou uma parte de uma palavra. Por exemplo, para encontrar todas as
palavras terminadas em ‘ndo’ (correndo, andando, falando, etc.) da listagem, basta digitar
*ndo no espaço. Se precisar digitar símbolos especiais ou acentuados, pode ser usado o
botão ‘Symbols’.
Em Action, é especificado o tipo de processamento que o programa efetuará ao encontrar
as palavras indicadas no arquivo-texto ou no ‘template’. O cursor deve estar na coluna
onde o usuário quer que as palavras sejam encontradas; caso contrário, o programa emitirá
uma mensagem de erro dizendo ‘No matches found in column ...’ . As opções são:
143
Find Matches & Mark Them: faz com que o programa marque com um til (~) cada palavra
que corresponder à lista ou ao ‘template’.
Remove Match Marking: elimina o til adicionado com ‘Find Matches & Mark Them’.
Delete Entries which Match: Torna cinza as palavras que corresponderam à lista ou ao
‘template’. Para realmente apagá-las, é preciso clicar em ‘Zap’.
Delete UNmatched entries: Apaga as palavras que não estiverem na lista ou não
corresponderem ao ‘template’. Ou seja, mantém somente as palavras que corresponderem.
None: Não efetua nenhum processamento.
Para exemplificar, suponha que o analista deseje identificar conjunções entre os colocados.
Para isso, ele deve fazer uma lista delas e salvar num arquivo-texto. Depois, deve
especificar a localização desse arquivo em ‘Text File’ (clicando em Browse e depois
abrindo a pasta correspondente onde se encontra o arquivo). A seguir, deve especificar
‘Find Matches & Mark Them’ e clicar em ‘OK’. As palavras correspondentes serão
marcadas com til. É preciso alertar o usuário que essa opção de comparação com arquivo
não está funcionando em algumas versões do programa. O programa emite uma mensagem
de erro que diz ‘No Matches in Column 1’ mesmo quando as palavras estão presentes.
Outro exemplo é um caso em que o analista deseja identificar todos os possíveis gerúndios
da lista. Para tanto, basta digitar *ndo em Template e selecionar ‘Delete Entries which
Match’. Clicando em OK, aparecerá uma mensagem dizendo quantas palavras foram
encontradas que terminem em ndo. A seguir, para efetivamente eliminá-las da lista, o
analista deve clicar em Zap. As palavras restantes todas terão a terminação ndo. A tela
abaixo ilustra o resultado dessa operação numa concordância:
144
Como se percebe, embora todas as palavras possuam ndo, apenas uma delas é de fato um
gerúndio (sendo). Para eliminar as demais, o usuário pode então selecionar as indesejadas,
pressionar a tecla ‘delete’ e depois clicar em Zap. O resultado será uma tela que possuirá
apenas a linha referente a ‘sendo’.
Lemma Match with Text File. Essa opção efetua lematização de uma lista. Lematização é
a redução das diversas formas derivadas de uma palavra à sua forma canônica ou
dicionarizada, chamada de lema12. A lematização aqui é feita por meio de um arquivo de
regras de lematização, que informa a maneira pela qual a lematização deverá ser efetuada.
As regras devem ser especificadas seguindo o modelo abaixo:
Lema -> derivado1,derivado2,derivado3, etc.
Assim, por exemplo, para especificar um lema do verbo ‘correr’, o usuário pode digitar:
12 Muitas vezes, a forma ‘lemmata’ é usada para indicar o plural de ‘lemma’, mas ‘lema’ e
‘lemas’ também são empregados.
145
Correr -> correr,corro,corres,corre,corremos,correis,correm,corri,corriste,corriu ...
... e assim por diante, adicionando quantas formas mais desejar.
Para especificar esse arquivo, o analista deve clicar em ‘Browse’ e localizar o arquivo, ou
digitar seu caminho e seu nome diretamente no campo apropriado. A seguir, o programa
lerá o arquivo e informará quantos lemas foram informados e quantas formas estão
associadas a cada lema (esse valor aparece entre parênteses).
Depois, ao clicar OK, o programa processará a lista e juntará todas as formas que foram
encontradas sob o lema indicado no arquivo. Por exemplo, no caso de ‘correr’ acima, as
várias formas existentes na lista que estejam especificadas ali serão transformadas em
‘correr’.
Essa opção não funciona em algumas versões do programa. O programa não responde aos
comandos digitados no arquivo de regras de lematização.
Edit. Esse botão permite redigitar uma palavra da listagem. Para tanto, basta clicar na
palavra e depois no botão Edit. A seguir, surgirá uma tela com a palavra selecionada. O
usuário deve então clicar nela e digitar as alterações que desejar. A seguir, deve clicar em
OK, e a forma alterada será então incorporada à listagem. O botão Restore, dessa janela,
serve para desfazer as mudanças já digitadas, mas isso só é possível antes de o usuário
pressionar OK, isto é, somente durante a fase de edição.
Recompute collocates. Recalcula os colocados, atualizando a tela a listagem dos colocados
produzida por Show Collocates. ‘Recompute Collocates’ deve ser usado quando (1) o
usuário fizer mudanças na concordância, como por exemplo quando apaga linhas da
concordância, e (2) a tela da listagem de colocados permanecer aberta depois das
mudanças. Nos demais casos, o comando é redundante em relação a Show Collocates. Se a
tela de colocados for fechada após as mudanças, basta clicar novamente em Show
Collocates que a tela de colocados aparecerá atualizada. Clicar em Recompute Collocates
quando não há tela de colocados aberta simplesmente abre essa tela, como Show
Collocates faria.
Plot. Produz um gráfico (‘dispersion plot’) com a posição das ocorrências do termo de
busca. As ocorrências de cada palavra são identificadas por um pequeno traço vertical. Se
146
houver mais de um arquivo onde a busca foi efetuada, haverá tantos conjuntos de traços
quantos necessários, um para cada arquivo. A quantidade de ocorrências representada por
cada traço não é fixa, dependendo do tamanho do espaço disponível para a plotagem, de se
a opção ‘Uniform Plot’ estiver ativa e do tamanho do texto.
Para salvar o gráfico, vide explicações na página 150.
É muito importante ressaltar que as interpretações a seguir assumem que cada arquivo
representa um texto (entendidas aí as transcrições de fala também). Isso nem sempre é o
caso, pois um mesmo arquivo pode compreender vários textos, que foram agrupados por
conveniência.
O nome do arquivo aparece na margem esquerda. A aparência do gráfico pode se alterada
com a opção ‘Uniform Plot’, no menu Settings do Concord. Se ativada, ela faz com que o
retângulo de plotagem (coluna com o nome de ‘Plot’, onde aparecem os traços) seja a
mesma para todos os textos pesquisados, independente do tamanho do arquivo. Caso
contrário, todos os arquivos serão representados por um retângulo de plotagem da mesma
extensão. A tela abaixo ilustra a aparência de um gráfico com a opção ‘Uniform plot’
ativada:
Já a tela a seguir apresenta o gráfico com ‘Uniform plot’ ativado. Quando essa opção é
alterada com um gráfico já visível na tela, a mudança não é vista automaticamente. O
147
usuário deve rolar o gráfico com o mouse (ou com a tecla ‘Page Down’ do teclado) para a
mudança ter efeito. A largura da área de plotagem pode ser alterada simplesmente
aumentando ou diminuindo a largura da janela (da maneira habitual do Windows,
arrastando a borda da janela com o mouse).
A tela do gráfico possui várias colunas, que são:
• File: Nome do arquivo pesquisado.
• Words: Número de palavras (‘tokens’) no arquivo. Representa o tamanho do arquivo.
• Hits: Número de ocorrências da palavra de busca. Representa a freqüência do termo de
busca.
• Per 1,000: Média de ocorrências por mil palavras. Indica a densidade de ocorrência do
termo de busca. Um valor alto (em relação aos demais arquivos, mas não em termos
absolutos, pois não há ponto de referência para isso) indica que o termo de busca é
comum no texto. Um valor baixo, por sua vez, sugere que o termo é pouco comum.
Esse valor por mil palavras não é redundante frente à contagem simples das
ocorrências (‘hits’). Isso porque uma mesma freqüência (digamos 100) num arquivo
grande (de, por exemplo, 100 mil palavras) resultará numa freqüência por mil palavras
baixa em comparação a essa mesma freqüência de 100 palavras num arquivo menor
148
(de 10 mil palavras, por exemplo). No texto maior, o valor por 1 mil palavras será de 1
( = 100.000 / 100 * 1000), enquanto no menor será de 10 ( = 10.000 / 100 * 1000).
• Plot: A área de plotagem. A informação presente aqui pode ser interpretada de vários
modos, dependendo do tipo de ordenação aplicado (com ‘re-sort’). Isso é discutido
abaixo.
A janela do gráfico traz consigo os seguintes botões:
Re-Sort. Re-ordena o gráfico a partir das informações das colunas do gráfico. A ordenação
inicial é por ‘hits per 1,000 words’. Ao clicar no botão ‘Re-Sort’, a ordenação do gráfico
muda automaticamente, na seguinte ordem13:
• Segundo clique: ordenação por primeira ocorrência (‘text order’). Os arquivos em que
o termo de busca ocorrem primeiro aparecem primeira na listagem, e vice-versa. A
margem esquerda do retângulo de plotagem representa o início de cada texto. A tela
abaixo mostra o gráfico apresentado acima ordenado por primeira ocorrência. Como se
percebe, os traços indicativos de ocorrências formam uma linha diagonal, entre os
textos, que se distancia do início do arquivo.
13 Vide a observação feita acima sobre o fato de as interpretações sugeridas assumirem que
cada arquivo corresponde a um texto e não a vários.
149
Essa opção é útil para indicar, por exemplo, como cada texto se segmenta topicalmente, ou
seja, como cada um distribui a informação relativa ao termo de busca em relação aos
demais.
• Terceiro clique: re-ordena pela distância entre a primeira e a última ocorrência
(‘range’). Os arquivos em que a distância é maior aparecem no início da listagem, e
vice-versa. Os arquivos com apenas uma ocorrência do termo são dispostos em ordem
alfabética. Essa opção pode dar uma indicação da extensão de cobertura do termo de
busca. Na medida em que as aparições posteriores do termo de busca são repetições da
primeira e, portanto, fazem referência anafórica a ela (e às demais), a distância entre a
primeira e a última aparição do termo de busca pode ser vista como uma representação
da cobertura que o termo de busca possui no texto.
• Quarto clique: Lista os arquivos em ordem alfabética (de A a Z).
Layout. Esse botão ativa uma janela onde se pode fazer alterações na disposição dos
elementos da tela do gráfico. Na área superior à esquerda, encontram-se os nomes das
diversas colunas que compõem o gráfico. Para mudá-las de ordem, basta selecionar uma de
cada vez e clicar nos botões de seta (pequenos triângulos acima de ‘move’). A seguir, basta
clicar em OK para efetuar as mudanças. Maiores explicações sobre os demais elementos
dessa tela podem ser encontrados na p. 139.
150
Zap. Elimina da tela as linhas do gráfico previamente ‘apagadas’ com a tecla ‘delete’ do
teclado.
Search. Abre uma janela para localizar palavras na tela.
O usuário notará que os botões de salvamento de tela, que fazem parte da tela do Concord,
são desativados quando o gráfico é produzido. Isso significa que a tela do gráfico não pode
ser salva, desaparecendo quando a concordância é fechada. O usuário deve salvar a
concordância e produzir um novo gráfico a cada vez que quiser vê-lo novamente. Porém, é
possível copiar o gráfico para um editor de texto como o MS Word, por exemplo. Para
tanto, é preciso clicar em File, depois em Copy; a seguir, selecionar ‘clipboard’, em ‘where
to’; em ‘what data’, o usuário deve escolher ‘all’ para copiar o gráfico inteiro, ou ‘selected’
para transferir apenas as linhas selecionadas com o mouse (o que é feito simplesmente
arrastando o mouse sobre a porção desejada do gráfico). Depois, já no MS Word, basta
clicar em Editar, e Colar Especial e, por fim, selecionar ‘Figura’ ou ‘Figura (meta-arquivo
avançado)’.
A informação textual do gráfico (as colunas com os nomes dos arquivos e demais
números) pode ser copiada escolhendo ‘Copy e, a seguir, em ‘where to’, ‘a text file’. O
resultado é um arquivo com as informações textuais e numéricas presentes no arquivo, mas
sem o retângulo de plotagem, que aparece indicado como ‘(plot)’. Também se aplicam
aqui os comentários feitos acima para seleção de partes do gráfico para salvamento.
Também é possível imprmir o gráfico, clicando no botão ‘Print Preview’ ou no menu
‘File’ e depois em ‘Print’.
A tela do gráfico pode ser minimizada (da maneira habitual do Windows, isto é, clicando
em Window, Minimize, ou diretamente no botão correspondente na parte superior direita
da tela). Nesse caso, a tela desaparece e pode ser recuperada por meio do menu Window: a
tela do gráfico estará indicada por ‘dispersion plot’.
Clusters. Produz uma listagem dos agrupamentos lexicais da concordância. Vide p. 106
para uma explicação sobre ‘clusters’.
Patterns. Faz um tela que representa os colocados em ordem de freqüência em cada
posição relativa ao nódulo. Para uma explicação sobre colocados e nódulo, vide p. 140. A
151
tela de ‘patterns’ reorganiza a informação da tela de colocados, de tal modo que em cada
coluna (L5, L4, L3, etc até R5), a palavra que aparece na posição superior é aquela que
possui maior freqüência entre os colocados daquela posição. A palavra em segundo lugar é
a segunda mais freqüente, e assim por diante. A primeira linha da tela, portanto, traz os
colocados mais freqüentes em todas as posições ao redor do nódulo. A figura a seguir
ilustra essa tela:
A primeira linha informa que as palavras mais freqüentes ao redor do nódulo, da posição
L5 até R5, respectivamente, são ‘que, que, é, de, assim, né, né, est, e, e’. Para comprovar a
ordenação, podemos ir à tela de colocados e ordená-la pela posição ‘L5’. A palavra ‘que’
deve ser a mais freqüente nessa posição. A figura abaixo, que mostra a tela de colocados,
permite-nos conferir a freqüência dos colocados com sua ordenação na tela de ‘patterns’.
152
Como se percebe, a tela de ‘patterns’ de fato capturou a ordenação freqüencial dos
colocados. A palavra ‘que’ é mesmo a palavra mais freqüente em L5, com 662
ocorrências, seguida de ‘é, a, e, né, não, de, o’; essa é a mesma ordenação que se encontra
visível na tela de ‘patterns’, na coluna L5. A tela de ‘patterns’, dessa forma, traz um
resumo da tela de colocados, omitindo as freqüências. Ela permite visualizar, de modo
mais rápido, quais são os colocados em cada posição. Por sua vez, esse procedimento
permite uma visão mais rápida dos padrões (colocações, coligações, prosódia semântica)
mais freqüentes formados pelo nódulo. Se o usuário quiser saber a freqüência dos
colocados, deve então utilizar a tela de colocados (clicando em ‘Show Collocates’).
É preciso que o analista esteja bem atento para como a tela de ‘patterns’ é montada para
não fazer inferências errôneas a respeito dos dados. Um tipo de interpretação equivocada
seria considerar que cada linha da tela de ‘patterns’ representa uma seqüência real dos
colocados. Ou seja, no exemplo da figura acima, achar que ‘que’ e ‘que’ ocorrem de fato
juntos nas posições L5 e L4. Na verdade, os dois itens aparecem lado a lado em ‘patterns’
porque são as palavras mais freqüentes nessas posições (conforme já dito acima), mas não
há garantia nenhuma de que realmente ocorram lado a lado nos textos. O mesmo se aplica
a todas as outras posições da tela, obviamente.
A tela de Patterns não é exibida caso os colocados não tiverem sido computados com o
153
comando Show Collocates. Nesses casos, surge uma mensagem de erro informando que
‘no collocates found, so can’t compute patterns’. Para resolver o problema, basta clicar em
OK para apagar a mensagem de erro, calcular os colocados, clicando em Show Collocates,
e depois clicar em Patterns.
View. Esse botão aciona o Viewer, que abre automaticamente o texto em que se encontra o
cursor. O Viewer leva em conta os ajustes de ‘Tags’ (vide p. 112) na exibição dos textos.
Notes. Esse botão abre uma pequena janela que permite a entrada de notas, tais como
lembretes a respeito dos dados, curiosidades, maneira pela qual a concordância está
ordenada, etc. As anotações são salvas juntamente com a concordância e se referem à
concordância inteira, não a cada linha. Para fechar a janela, basta clicar em OK (salvando
as anotações) ou ‘Cancel’ (para fechar sem salvar). Para vê-las novamente, em outra
sessão do programa, é preciso clicar no botão ‘Notes’ de novo, a partir de qualquer linha
da concordância.
154
8. A ferramenta WordList
8.1. Visão Geral
O programa WordList produz listas de freqüência de palavras.
O WordList é acionado clicando em ‘Tools / WordList’ no Controller.
A tela abaixo mostra uma tela com lista de palavras produzida pelo WordList.
As palavras aparecem na coluna ‘Word’, seguidas da sua freqüência, na coluna ‘Freq.’ e da
porcentagem que essa freqüência representa frente ao total de palavras existentes no(s)
arquivo(s) selecionados(s) (isto é, no corpus), na coluna ‘%’; a coluna ‘Lemmas’,
reservada para os lemas (formas canônicas de palavras, como por exemplo, ‘casa’, que
encampa ‘casa’, ‘casinha’, ‘casas’, ‘casinhas, ‘casarão’, etc.) permanece vazia porque não
foi acionada essa função. Os elementos que compõe as listas de palavras do WordSmith
Tools serão explicados a seguir, juntamente com os menus, botões e opções disponíveis no
programa para efetuar ajustes nas listas. Antes, porém, será apresentado um pequeno
roteiro com os comandos principais para a produção de listas.
155
8.2. Tipos de lista de palavra
As listas de palavra do WordSmith Tools (com exceção daquela feita no arquivo de índice,
‘index file’) podem ser de dois tipos:
(1) Com palavras individuais.
(2) Com agrupamentos de palavras (clusters).
Para selecionar o tipo de lista, é preciso usar o menu Settings / Min. & Max Frequencies /
Clusters size (vide p. 192).
Para exemplificar, tomemos como texto o seguinte:
A casa do João é amarela. A casa do Pedro é branca. A casa do José é branca também.
Listas com palavras individuais são o default do programa. Elas são formadas por palavras
dispostas uma em cada linha. A lista de freqüência do texto acima aparece na figura
abaixo:
Como se percebe, cada palavra do texto aparece separadamente.
156
Já as listas com agrupamentos de palavras são formadas por seqüências de palavras
conforme apareceram no texto. Se essa opção estiver ativada para clusters de tamanho 2, a
lista terá a seguinte aparência:
Cada linha da lista é composta por uma seqüência de duas palavras. Note que há apenas
três seqüências idênticas de duas palavras no texto, contra dez palavras isoladas. Isso
acontece porque nem todas as palavras participam de clusters de duas palavras.
A freqüência mínima de cluster é 2, mas com um artifício é possível fazer o WordSmith
Tools listar os clusters do texto, mesmo os que somente ocorram uma vez. Para fazer isso,
basta copiar o mesmo texto para outra pasta e escolhê-lo novamente, ou copiá-lo com
outro nome para a mesma pasta. Depois, deve ser selecionado os dois arquivos e feito o
processamento, do modo normal. O WordSmith Tools tratará os dois arquivos como sendo
diferentes, embora o conteúdo deles seja idêntico. Ao ver as freqüências na lista de
palavras, o analista deve interpretá-las de tal modo que uma freqüência igual a 2 significa,
na verdade, um cluster que ocorreu apenas uma vez. Uma freqüência igual a 4 indica, na
realidade, uma freqüência igual a 2, e assim por diante. Não haverá números ímpares na
freqüências. Para fazer essa adaptação das freqüências automaticamente, é possível usar o
recurso ‘Compute’ (botão ), que é explicado na p. 203. A fórmula necessária para esse
caso é Rel(2)/2 , que significa ‘divida cada linha da coluna 2 por 2’. Essa fórmula assume
que as freqüências aparecem na coluna 2, que é o default. Se o layout da lista foi alterado,
é preciso mudar a posição na fórmula.
157
Os exemplos e referências a seguir, a menos que especifiquem ao contrário, fazem menção
a listas de palavras isoladas.
8.3. Procedimento básico para feitura de lista de palavras no WordList
Há três procedimentos básicos disponíveis no Word List: (1) criar uma lista apenas, para
um ou mais arquivos selecionados, (2) criar várias listas, uma para cada arquivo (‘batch’,
ou lote) e (3) criar um arquivo de índice (index file). Cada opção possui uma finalidade:
(1) Lista simples: É o procedimento básico, para quando o analista precisa criar uma
lista apenas. Pode conter palavras individuais ou agrupamentos (clusters).
(2) Lista produzidas em ‘batch’: Possuem o mesmo formato da lista única, mas são
produzidas em conjunto, uma para cada arquivo. A finalidade é tornar mais rápida
a produção das listas. A alternativa é o usuário produzir uma lista de cada vez,
usando a opção (1). Pode conter palavras individuais ou agrupamentos (clusters).
(3) Arquivo de índice. É um tipo especial de arquivo, diferente das listas tradicionais
(itens 1 e 2 acima), que engloba, além das freqüências de cada palavra, uma
estatística de associação (Mutual Information) para pares de palavras (selecionados
segundo critérios de freqüência), uma linha de concordância e a possibilidade de
fazer concordâncias completas de modo mais rápido. A estatística de Mutual
Information indica quais pares de palavras possuem uma co-ocorrência marcante.
Por isso, pode ser usado juntamente com a análise de concordâncias para
determinar se há associação estatística entre o nódulo e os colocados. Pode ser
somente de palavras isoladas, não aceitando agrupamentos (clusters).
Esse tipo de arquivo exige bastante recursos do computador, por isso a sua
produção é bem mais lenta que a da lista simples. O analista deve levar em conta
esse fato antes de optar por esse tipo de arquivo. As vantagens principais do
arquivo de índice são:
• Permite calcular a estatística Mutual Information para uma lista inteira de
palavras.
• Permite produzir concordâncias mais rapidamente.
158
As desvantagens são:
• Leva muito tempo para produzir. Como exemplo, tomemos um corpus de cerca
de 5 mil palavras. O índice levou 3 minutos e 50 segundos para produzir (com
os ajustes restritivos, feitos para poupar recursos e otimizar a produção,
detalhados na p. 164). Uma lista comum levou 1 ou 2 segundos.
• Os arquivos resultantes tomam muito mais espaço. Por exemplo, um corpus que
resulta num arquivo .lst de 19,5 KB exige 98,5 KB para armazenar os arquivos
.wdx, .xal, .xfo do arquivo de índice.
• Exige muito do hardware. O programa pode travar, em conseqüência disso.
• Não produz lista de estatística, que permite saber o tamanho do corpus. É
preciso produzir outra lista simples para obter essa informação.
Assim, em termos práticos, o analista deve optar por um arquivo de índice, se:
• Desejar calcular a estatística Mutual Information.
• Precisar fazer muitas concordâncias para o mesmo corpus.
• Necessitar fazer concordâncias apenas, o corpus não deve ser muito grande (o
que pode demorar muito tempo para produzir o arquivo) nem muito pequeno
(pois as concordâncias feitas sem o arquivo índice seriam rápidas de fazer,
também). A definição do que seria um corpus grande ou pequeno depende do
computador do usuário. Ele deve experimentar com seus textos e julgar por si
mesmo se o tempo extra gasto compensa a facilidade das concordâncias mais
rápidas. O analista deve lembrar que a intenção do arquivo de índice para
concordâncias é tornar o trabalho mais eficiente.
A produção de cada um desses tipos é descrita abaixo.
8.3.1. Como criar uma lista de palavras apenas (de um arquivo ou de
vários)
(1) No Controller, clique em Tools e depois em WordList.
(2) Na janela do WordList, clique em File e depois em Start ou no botão .
159
(3) Na janela ‘Getting Started’, clique em ‘Choose Texts Now’ se estiver fazendo a
primeira lista desde que iniciou o programa. Se já tiver escolhido os textos e quiser
mantê-los, clique em ‘Make a WordList Now’.
(4) Se quiser mudar de textos, clique em ‘Change Selection’. Na janela ‘Choose
Texts’, clique em ‘Clear Previous’. Selecione os arquivos que quiser, clicando nas
pastas (porção esquerda da janela) e, depois, nos arquivos (porção direita da
janela).
(5) Clique em OK.
(6) Reaparecerá a janela ‘Getting Started’. Nela, clique em ‘Make a WordList Now’.
(7) O processamento será iniciado. Para interrompê-lo, clique em Suspend, na janela
de andamento. Depois, clique em ‘Stop Now’.
(8) As listas serão mostradas na tela:
São três janelas: a janela chamada de ‘new wordlist (F)’ mostra a lista classificada
por ordem de freqüência das palavras, de modo descendente (as palavras mais
freqüentes aparecem em cima); ‘new wordlist (A) mostra a mesma lista ordenada
160
por ordem alfabética (de A a Z, segundo a escolha do idioma e do conjunto de
caracteres, em ‘Settings’); e ‘new wordlist (S)’ traz as ‘estatísticas’, que
compreendem a quantidade de ocorrências (tokens), unidades (types), variação
lexical (type-token ratio), etc. As listas não são salvas automaticamente; se o
usuário não as salvar, elas serão perdidas quando o programa for terminado. Para
salvá-las, é preciso usar o comando ‘Save’, no menu ‘File’, ou o botão na barra
de ferramentas. O formato do arquivo da lista é próprio do WordSmith Tools e
recebe a extensão padrão ‘.lst’. Esse formato não é legível por outros programas
(como o Word, por exemplo).
8.3.2. Como criar várias listas de palavras (‘batch’)
(1) No Controller, clique em Tools e depois em WordList.
(2) Na janela do WordList, clique em File e depois em Start ou no botão .
(3) Na janela ‘Getting Started’, clique em ‘Choose Texts Now’ se estiver fazendo a
primeira lista desde que iniciou o programa. Se já tiver escolhido os textos e quiser
mantê-los, clique em ‘Make a Batch Now’.
(4) Se quiser mudar de textos, clique em ‘Change Selection’. Na janela ‘Choose
Texts’, clique em ‘Clear Previous’. Selecione os arquivos que quiser, clicando nas
pastas (porção esquerda da janela) e, depois, nos arquivos (porção direita da
janela).
(5) Clique em OK.
(6) Reaparecerá a janela ‘Getting Started’. Nela, clique em ‘Make a Batch Now’.
(7) Surgirá uma janela onde você deve especificar o local onde serão gravadas as listas
de palavras. Digite a pasta no espaço ‘Directory’. Na parte designada ‘Filenames’,
há duas escolhas a fazer. A primeira, que diz ‘based on original filename’, serve
para que cada lista de palavra possua o nome do arquivo correspondente, seguida
da extensão .lst. A segunda, que diz ‘use mask’, é indicada para que cada lista seja
nomeada de modo parecido, de acordo com um ‘nome padrão’. O nome padrão é
composto de algumas letras que formarão o início do nome de cada arquivo; o
nome do arquivo, por sua vez, será composto pelo ‘nome padrão’ seguido de vários
161
números. O nome padrão deve ser digitado na caixinha logo abaixo ‘use mask’. A
figura abaixo ilustra essa tela:
De acordo com a janela acima, o diretório foi definido como ‘c:\temp’, o que fará
com que as listas sejam gravadas nessa pasta. O nome padrão foi definido como
‘wl’; sendo assim, os nomes dos arquivos das listas serão ‘wl000001.lst’ e
‘wl000002.lst’, etc. (serão tantos arquivos .lst quantos forem os arquivos-texto
selecionados). Note que a numeração nem sempre começa por 1; ela é reiniciada a
partir do último arquivo numerado. Assim, se já houver um arquivo chamado
wl000001.lst na pasta, o primeiro arquivo do lote corrente será chamado
wl000002.lst. É possível alterar o nome das listas depois de criadas, usando o
comando de renomear arquivo no Windows Explorer.
O processamento será iniciado. Para interrompê-lo, clique em Suspend, na janela
de andamento. Depois, clique em ‘Stop Now’.
(8) Aparecerá uma janela informando o resultado do processamento:
162
Ao terminar, o usuário deve clicar em OK.
Se for refeito um novo ‘batch’ onde já existam arquivos nomeados com o mesmo
nome padrão, a numeração dos arquivos retomará o ponto onde o processamento
parou. Ou seja, o programa não sobrescreve arquivos. Por exemplo, se tiverem sido
criadas duas listas, ‘wl000001.lst’ e ‘wl000002.lst’ na primeira tentativa, as
próximas listas a serem geradas serão ‘wl000003.lst’ e ‘wl000004.lst’, conforme
mostra a tela a seguir. É possível alterar o nome das listas depois de criadas, usando
o comando de renomear arquivo no Windows Explorer.
163
(9) As listas não serão exibidas diretamente na tela. Para vê-las, o usuário deve abri-las
usando as opções do comando ‘File’: ‘Frequency + Alphabetical’ abre as listas de
freqüência e em ordem alfabética ao mesmo tempo, ‘Frequency List’ aciona a de
freqüência apenas, ‘Alphabetical List’ ativa a em ordem alfabética apenas, e
‘Statistics’ abre a de estatística. Para abrir a lista de estatística depois de ter aberto
a lista alfabética ou freqüencial (ou ambas), o usuário pode usar o menu ‘File /
Statistics’, ou clicar no botão , na barra de ferramentas. Note que não é possível
abrir as listas clicando-se diretamente no nome do arquivo correspondente (por
exemplo textos.lst) no Windows Explorer; o WordSmith Tools não aceita
associação de arquivos.
O formato em que os arquivos da lista foram salvos é próprio do WordSmith Tools
e recebe a extensão padrão ‘.lst’. Esse formato não é legível por outros programas
(como o Word, por exemplo).
8.3.3. Como produzir um arquivo de índice (‘index file’)
Uma lista de índice (‘index file’) é um arquivo que mostra uma estatística de associação
‘Mutual Information’ (vide p. 190) para pares de palavras. Ele também permite a criação
de concordâncias de modo bem mais rápido do que o habitual (sem o arquivo de índice).
164
Os passos necessários são os seguintes:
(1) No Controller, clique em Tools e depois em WordList.
(2) Na janela do WordList, clique em File e depois em Start ou no botão .
(3) Na janela ‘Getting Started’, clique em ‘Choose Texts Now’ se estiver fazendo a
primeira lista desde que iniciou o programa. Se já tiver escolhido os textos e quiser
mantê-los, siga para o passo 6.
(4) Se quiser mudar de textos, clique em ‘Change Selection’. Na janela ‘Choose
Texts’, clique em ‘Clear Previous’. Selecione os arquivos que quiser, clicando nas
pastas (porção esquerda da janela) e, depois, nos arquivos (porção direita da
janela).
(5) Clique em OK.
(6) Na janela do WordList propriamente dita (não em ‘Getting Started’), faça os
ajustes necessários no menu Settings / Index Settings. Os seguintes ajustes são
recomendados:
• File name = digite a pasta, crie um nome de arquivo (com até oito letras) e use
terminação .wdx (p.ex. c:\wsmith\wordlist\temp.wdx)
• High-frequency cut-off: 100. Este número serve para facilitar o processamento,
visando à economia de memória do computador. Caso o texto ou corpus exija mais
memória do que o computador possui, o programa fará um corte nos dados, eliminando
as palavras que possuam freqüência inferior ao valor indicado aqui. Assim, nesse caso,
seriam mantidas para o cálculo de Mutual Information apenas as palavras que
possuíssem freqüência 100 ou mais.
• Activated = Marcado. Isso fará com que a função ‘index’ esteja pronta para ser
executada com o comando Index / New Index.
• File Order Too = Marcado. É necessário para calcular Mutual Information; se desejar
apenas as concordâncias, desmarque essa opção. Para efeito dos exemplos e referências
posteriores a esses ajustes, a opção será considerada ‘marcada’. Se essa opção não tiver
sido marcada e o usuário clicar em ‘Mutual Information’ quando a lista estiver aberta,
165
aparecerá uma mensagem de erro dizendo ‘Couldn’t find (nome do arquivo).xfo’.
• Procedure: Mutual Information.
• log-base 2 = Marcado.
• Ignore sentence, para. & heading breaks = Desmarcado, o que faz com que o programa
não ignore (isto é, leve em conta) as divisões de sentença, parágrafos e intertítulos
indicadas no menu Settings / Text Characteristics do WordList (vide p. 121 ff). Desse
modo, palavras que estejam separadas por sentenças, parágrafos e intertítulos não serão
computadas.
• Maximum percent: 10.0. Esse valor indica a porcentagem de freqüência máxima que
uma palavra deva possuir para ser levada em conta. A idéia é a de que palavras com
freqüência muito alta (p.ex. ‘de’, ‘o’, ‘para’, etc.) não são interessantes do ponto de
vista de Mutual Information, pois atraem muitas palavras para seu ambiente
colocacional. A melhor estratégia aqui, na maioria dos casos, é inscrever um valor alto,
de tal modo que nenhuma palavra seja deixada de lado. Um valor com 10%, sugerido
aqui, fará com que palavras estruturais como ‘de’ e ‘para’ tenham seu Mutual
Information calculado. Porém, por outro lado, não se corre o risco de deixar de fora
palavras potencialmente interessantes que tenham freqüência alta.
• Min. mutual info: 3. Esse é o valor mínimo de Mutual Information. Palavras com
valores inferiores não serão exibidas na tela de resultados.
• Min. frequency: 3. Freqüência mínima para que uma palavra tenha sua estatística
calculada. É a contrapartida do valor ‘Maximum percent’.
• Horizons: 5 L, 5 R. São os horizontes máximos de onde serão retiradas as palavras para
o cálculo de Mutual Information. Palavras que estejam mais distantes do que esses
parâmetros não serão levadas em conta.
A seguir, clique OK.
Para exemplificar, tomemos um corpus com um total de ocorrências igual a 5 mil palavras.
As palavras que terão seu Mutual Information exibido serão aquelas cuja freqüência for:
166
-menor ou igual a 50 (Max. percent), já que 1% de 5000 é 50. -maior ou igual a 3 (min. frequency).
Dentre as restantes, o programa exibirá ainda somente aquelas cujo Mutual Information for
maior ou igual a 3. Lembrando que o programa já escolheu, inicialmente, somente as
palavras com freqüência menor do que 100.
(7) Clique no menu Index, New Index. O programa começará a processar o corpus.
Para interrompê-lo, clique em Suspend, na janela de andamento. Depois, clique em
‘Stop Now’.
(8) Quando aparecer uma janela informando que o arquivo .wdx foi salvo, clique em
OK para fechá-la. Pode ainda aparecer uma janela de erro, dizendo algo como o
ilustrado na figura abaixo. Nesse caso, basta clicar em OK e continuar. Esse
problema não afetou a produção da lista.
(9) A lista não é exibida automaticamente. Para abri-la, clique em Index / Alphabetical
List, para abrir uma lista por ordem alfabética ou File Order, para abrir uma lista
ordenada por aparição no arquivo. Caso o programa trave, é preciso terminar o
WordList e reiniciá-lo. No Controller, clique em Tools / WordList. Se a opção
WordList já estiver marcada, e o WordList não se iniciar, será preciso fechar o
Controller, reiniciá-lo e somente então acionar Tools / WordList.
(10) Se o analista desejar fazer concordâncias, sem calcular a estatística de
associação ‘Mutual Information’, pode clicar na palavra escolhida e depois no
botão .
(11) Se quiser calcular a estatística de Mutual Information, será preciso clicar no
botão na barra de ferramentas da lista. Em seguida, o programa fará o cálculo
167
dessa estatística segundo os ajustes efetuados no passo 6. O andamento do cálculo
é mostrado palavra a palavra na janela de andamento. Se quiser interromper o
processamento, basta clicar em Suspend e depois em ‘quit now’. A figura a seguir
ilustra o resultado de uma tela do arquivo de índice.
Este resultado foi obtido a partir dos ajustes sugeridos no passo 6. As palavras do
corpus estão na coluna Word, seguidas de suas respectivas freqüências na coluna
Freq. A coluna ‘a concordance line’ mostra uma linha de concordância, como
exemplo. Para ver mais linhas, é preciso clicar no botão , que acionará o
programa Concord e mostrará a concordância dessa palavra. A coluna ‘Related 1’
mostra a palavra que possui o maior escore de Mutual Information, seguida de seu
escore propriamente dito, na coluna ‘Mutual 1’. As demais colunas trazem a
mesma seqüência de informação: palavra, seu valor de Mutual Information, em um
total de até 10 palavras.
A lista deve ser salva, caso contrário o cálculo de Mutual Information será perdido.
A lista é salva automaticamente, com o nome e a pasta já designadas (no passo 6).
Se o usuário tentar criar uma nova lista com o mesmo nome enquanto a lista estiver
aberta, o programa emitirá uma mensagem de erro dizendo que não pode salvar o
arquivo. Nesse caso, será necessário alterar o nome ou a pasta do arquivo (vide
passo 6) e somente então reiniciar o processamento. Para abrir uma lista já salva,
clique no menu Index / Alphabetical list.
8.4. A janela Getting Started
Esta janela surge assim que o usuário clica em Start (no menu File / Start) ou no botão
168
‘Start’. Ela reúne vários botões que fazem atalhos aos comandos principais do programa e
que dirigem a criação da lista de palavras. Abaixo aparece uma figura que a ilustra.
A seguir, são explicados os comandos disponíveis nessa janela.
Choose Texts Now. Permite ir à janela de seleção de arquivos, mostrada abaixo:
169
Esse botão aparece somente quando ainda não foi feita seleção de arquivos. Quando
arquivos já tiverem sido selecionados, esse botão muda de nome para ‘Change Selection’.
As partes dessa janela são descritos a seguir.
Janela de seleção de pastas: Espaço onde aparecem os nomes das pastas.
Janela para seleção de disco: Janela onde o usuário seleciona o drive em que estão os
arquivos que quer escolher.
Janela de listagem de arquivos: Mostra os arquivos disponíveis na pasta. Seu conteúdo é
condicionado ao que for especificado na janela para seleção de nome de arquivos, descrita
a seguir. Para escolher um arquivo apenas, clique nele. Para escolher mais de um arquivo,
segure a tecla Control e depois clique nos arquivos que desejar. Para selecionar uma
seqüência de arquivos, clique no primeiro arquivo da seqüência, segure a tecla Shift e
clique no último arquivo da seqüência.
170
Linhas de informação de arquivos selecionados: Indicam a quantidade de arquivos que já
foram selecionados, o número de bytes que corresponde à escolha e o número de pastas
onde residem os arquivos selecionados.
Janela para seleção de nome de arquivos: Digite o tipo de nome de arquivo que deseja
selecionar. Por exemplo, para escolher os arquivos terminados em .txt, digite *.txt . Para
escolher os arquivos iniciados em ‘jornal’ (p.ex. jornal01.txt, jornal02.asc, etc) digite
jornal*.*.
Favourites: Save: Botão para salvar uma seleção de arquivos. Caso deseje salvar uma
seleção de arquivos que acabou de efetuar, clique nesse botão. A sua seleção será salva
num arquivo-texto que poderá ser recuperada depois, economizando tempo. Ao clicar em
Save, aparecerá uma janela padrão do Windows pedindo um nome de arquivo. Selecione
uma pasta e digite um nome de arquivo. Prefira a terminação .txt.
Favourites: Get: Botão para recuperar uma seleção de arquivos, conforme descrita acima,
em Save. Clicando nesse botão aparecerá uma janela de seleção de arquivos. O usuário
deve escolher o arquivo desejado e depois clicar em OK. Caso já tenha sido feita uma
seleção de arquivos, antes desse janela de seleção aparecerá uma mensagem perguntando
‘Clear Previous Selection?’ (Apagar seleção anterior?). Clicando em OK, o usuário é
levado então à janela de seleção de arquivo.
Sort: Indica as opções de ordenamento dos nomes de arquivos para a seleção. N ordena os
arquivo alfabeticamente, T por tipo de arquivo, S por tamanho de arquivo, e D por data.
Clicando duas vezes seguidas em qualquer das opções, o ordenamento se fará de modo
inverso. Por exemplo, no caso de N, será pelo nome de arquivo começando por Z e indo
até A.
All: Botão que seleciona todos os arquivos mostrados na janela de listagem de arquivos.
Include sub-directories: Opção para escolher todos os arquivos das sub-pastas (caso
existam). Por exemplo, se a pasta selecionada for c:\corpus e ela contiver sub-pastas
chamadas de c:\corpus\coleta1 e c:\corpus\coleta2, para selecioná-las automaticamente
sem abri-las basta clicar em c:\corpus, escolher ‘include sub-directories’ e depois clicar
em ‘All’ ou OK.
171
View: Botão que abre o Viewer, um aplicativo para visualização de arquivos. É aberta uma
janela para cada arquivo selecionado. Por isso, caso tenha sido escolhido um número
grande de arquivos, o programa tentará abrir tantas janelas quantas forem necessárias para
exibir todos os arquivos. Muitas vezes o excesso de janelas faz com que o programa deixe
de funcionar, sendo necessário o encerramento forçado do programa (com as teclas
Control – Alt – Del).
Clear Previous: Botão para cancelar uma escolha de arquivo já existente. É importante
acioná-lo sempre que for necessário mudar uma seleção, pois o programa retém a
informação dos arquivos durante uma mesma seção, ou seja, até ser desligado. Por isso,
caso arquivos sejam selecionados sem ter sido clicado esse botão, os arquivos recém-
selecionados irão se somar aos já escolhidos antes.
OK: Botão que finaliza a escolha dos arquivos e fecha a janela.
Cancel: Fecha a janela sem ativar as escolhas de arquivo que estavam sendo feitas. Clicar
nesse botão, contudo, não cancela uma escolha de arquivos previamente realizada.
Change Selection. Remete também à janela de seleção de arquivos. É muito importante
lembrar de clicar em Clear Previous para cancelar uma escolha anterior de arquivos, caso
contrário a seleção atual irá se somar à anterior.
Make a word list Now. É o segundo botão da janela Getting Started. Faz uma lista de
palavras dos arquivos selecionados. Vide p. 158 para mais detalhes.
Make a batch now. É o terceiro botão da janela Getting Started. Faz várias listas de
palavra, uma para cada arquivo selecionado. Vide p. 163 para maiores detalhes.
8.5. Janelas do WordList
Essas janelas surgem quando (a) é dado o comando de ‘Make a word list now’, (b) quando
é aberta uma lista de palavras, ou (c) quando é aberto um arquivo de índice. Para a lista
comum (isto é, exceto a de arquivo de índice), o programa produz rotineiramente três telas
para cada lista:
(1) uma ordenada por freqüência, indicada por (F) após o nome do arquivo, ou ‘new
wordlist (F), caso a lista ainda não tenha sido salva;
172
(2) Outra ordenada por ordem alfabética, sinalizada por (A) após o nome do arquivo,
ou ‘new wordlist (A) caso ainda não tenha sido salva;
(3) Uma terceira contendo informações estatísticas (tamanho dos textos, variação
lexical, etc.) indicada por (S) logo após o nome do arquivo, ou ‘new wordlist (S)
caso ainda não tenha sido salva.
Para a o arquivo de índice, o programa produz duas janelas:
(1) Uma ordenada por ordem alfabética, seguida de uma linha de concordância e de
colunas reservadas para o cálculo da estatística Mutual Information.
(2) Uma outra ordenada pela ordem em que as palavras apareceram nos textos (File
Order), seguida de um gráfico (plot) que ilustra a posição das palavras.
Essas janelas são explicadas na p. 179.
8.5.1. As listas de freqüência (F) e alfabética (A)
A figura abaixo ilustra uma tela de uma lista de palavras ordenada por ordem de
freqüência. O layout dessa lista é igual ao da lista ordenada por ordem alfabética. A lista
de estatística possui ordenação diferente, explicada mais a seguir.
173
Word. Essa coluna mostra as palavras (‘types’, isto é, cada item, forma ou vocábulo) que
aparecem no(s) arquivo(s).
Freq. Mostra a freqüência da palavra.
%. Mostra a freqüência em termos de porcentagem do total de palavras (‘tokens’, isto é, o
total de ocorrências das palavras, com todas as repetições).
Lemma. Coluna dedicada aos lemas, que são definidas como formas ‘canônicas’ das
palavras (p.ex. ‘correr’ é o lema de ‘corro, corres, corre, corremos, etc.). Essa coluna
aparece sempre vazia quando a lista é acabada de ser criada, pois o WordSmith Tools não
faz lematização automática, durante o processamento. A lematização é sempre feita uma
vez preparada a lista de palavras. Para o WordSmith Tools, lemas não precisam ser formas
canônicas; são apenas palavras que incorporam freqüências de mais de uma palavra. Por
exemplo, o usuário pode achar necessário agrupar as formas ‘casa’ e ‘casas’ juntas; desse
modo, pode escolher uma ou outra para ser o lema do grupo. Ao ativar os comandos
necessários, a lista exibirá a freqüência conjunta das duas formas ao lado daquela que for
escolhida como lema (pode ser ‘casa’ ou ‘casas’, conforme o analista preferir).
8.5.2. A lista de estatística (S)
Abaixo aparece uma janela que ilustra uma lista de estatística. Vale lembrar que essa lista
é exibida automaticamente quando uma lista é criada (não no modo ‘batch’), mas não é
mostrada quando um arquivo de lista de freqüência ou alfabética é aberto. Para abri-la, é
preciso usar o menu ‘File / Statistics’, ou clicar no botão .
174
Text File. Mostra o nome de cada arquivo processado (caso haja mais do que um). Quando
há mais do que um arquivo processado, a palavra ‘Overall’ é usada para indicar o total dos
arquivos.
Bytes. Tamanho do arquivo, em bytes (divida por 1000 para saber o tamanho em
Kilobytes, uma medida mais comum). Não deve ser usado para reportar o tamanho do
corpus ou do texto analisado, pois não possui valor lingüístico.
Tokens. Indica o total de ocorrências de palavras do texto. Também chamado de ‘running
words’, significa o total de palavras, levando em conta as repetições, desde a primeira até a
última de todos os arquivos selecionados. Por exemplo, o trecho abaixo possui 16 ‘tokens’:
O gato viu o cão, o galo viu a galinha, e o coelho viu a lebre. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
175
Types. Mostra o total de itens, formas ou vocábulos do(s) arquivo(s), sem levar em conta
as repetições. O mesmo trecho acima possui 10 ‘tokens’:
O gato viu o cão, o galo viu a galinha, e o coelho viu a lebre. 1 2 3 4 5 6 7 8 9 10
Type-Token Ratio. É o resultado da divisão do total de ‘types’ pelo total de ‘tokens’,
multiplicado por 100. A multiplicação por 100 serve para transformar o valor em
porcentagem. Esse valor significa a extensão da variação lexical do texto. Um número
maior indica uma variação maior, isto é, há menos repetições de palavras (do mesmo
‘type’); um número menor aponta para uma variação menor, pois há mais repetições do
mesmo ‘type’. Em suma, quanto maior o seu valor, mais palavras diferentes o texto
conterá. Em contraposição, um valor baixo indicará um número alto de repetições, o que
pode indicar um texto menos ‘rico’ ou variado do ponto de vista de seu vocabulário. Por
isso, ela é interpretada como uma medida da riqueza lexical do texto.
Por exemplo, na frase acima sobre o gato, o cão, etc., a razão type-token é:
10 / 16 * 100 = 62,5
Isso indica que, nesse texto, 62,5% das palavras (‘tokens’) não são repetidas. O restante
(37,5%) o são. Em números, isso significa:
16 * 37,5 / 100 = 6
Ou seja, seis ‘tokens’ são repetidos:
o, o, viu, o, viu, a
Standardized Type-Token Ratio. Mostra uma razão type-token média, calculada em blocos
do texto. O tamanho de cada bloco é definido pelo usuário (no menu ‘Settings / Min-Max
Frequencies / Type-Token Basis’), mas o valor padrão (‘default’) é 500 palavras. Quando
esse valor estiver ausente da lista de estatística significa que o tamanho do bloco é maior
do que o tamanho do texto(s) selecionado(s), já que os blocos que não atingem o tamanho
estipulado são ignorados.
Para exemplificar, suponhamos que o tamanho desse bloco seja 5. Tomando o exemplo
anterior, do texto sobre o galo, a galinha e os outros animais, o cálculo seria feito assim:
176
Bloco 1: O gato viu o cão, 1 2 3 4 5 (Tokens) 1 2 3 4 (Types) Bloco 2: o galo viu a galinha, 1 2 3 4 5 (Tokens) 1 2 3 4 5 (Types) Bloco 3: e o coelho viu a 1 2 3 4 5 (Tokens) 1 2 3 4 5 (Types) Ignorado, ou seja, não forma bloco: lebre.
Bloco Types Tokens Type-Token Ratio 1 4 5 80,0 2 5 5 100,0 3 5 5 100,0 Total 280,0 Média 280,0 / 3 = 93,3
O valor de 93,3 é consideravelmente mais alto do que os 62,5 da razão tradicional. Isso
sempre acontece com o type-token ratio padronizado, pois trechos maiores apresentam
mais repetição do que trechos menores.
A forma padronizada é empregada para neutralizar a influência do tamanho do texto na
computação da razão type-token, já que textos maiores por natureza apresentam mais
repetições e por isso tendem a possuir valores mais baixos do que textos curtos. A razão
type-token simples é portanto sensível à extensão do material textual, não sendo assim
confiável para uso em comparações entre textos de tamanhos diferentes (que são a norma,
aliás; textos autênticos de extensão igual são extremamente raros). A diferença entre os
valores da fórmula simples (63,5) e padronizado (93,3) obtidos acima ilustra este efeito. O
texto inteiro, por ser maior, dá mais espaço para repetições, que de fato ocorreram, e daí
seu valor é mais baixo. O cálculo padronizado, por sua vez, impediu que se levasse em
conta a repetição de palavras ocorridas no outro trecho, resultando assim em um valor
médio mais alto.
Ave. Word Length. Mostra a média do tamanho das palavras, em quantidade de letras.
Sentences. Mostra o total de sentenças do texto. As sentenças são definidas, por default em
177
arquivos-texto simples (‘plain text file’), como um ponto final seguido de um espaço e
uma palavra iniciada por letra maiúscula. A quantidade de sentenças relatada pelo
programa deve então ser encarada com cuidado, pois a contagem é mecânica. A contagem
também é influenciada pelo tipo de formatação de texto empregado nos arquivos (texto
simples, HTML, SGML, XML; vide mais a respeito na p.124 e ff. Os ajustes são feitos no
menu ‘Settings / Text Characteristics.’ Para mais explicações sobre o menu ‘Text
Characteristics’, vide p. 121 ff.).
Sent. Length: o tamanho médio de cada sentença (média aritmética, ou ‘mean’), em
número de palavras. Se estiver vazio, o texto só possui uma sentença (se possuir mais, é
preciso definir os ajustes corretos em Text Characteristics; vide p. 121 ff.).
Sd. Sent. Length. O desvio padrão (‘standard deviation’, ou ‘sd’) do tamanho médio das
sentenças. O desvio padrão é uma medida de dispersão dos dados, que normalmente
acompanha o valor da média aritmética. Ele indica se os valores observados estão
próximos ou distantes da média. Um valor baixo, no caso discutido aqui, mostra que as
sentenças possuem tamanhos parecidos com a média. Um valor alto revela o oposto: que
as sentenças possuem extensão distante da média, ou que há um grupo de sentenças que
difere bastante da média.
Não há valor absoluto para estabelecer se um desvio padrão é alto ou baixo, pois ele
depende da unidade que foi empregada no cálculo (frações, unidades, centenas, milhares,
etc.). Para saber se um desvio padrão é alto ou baixo, é preciso compará-lo ao valor da
respectiva média. Por exemplo, tomemos os valores abaixo:
Tamanho da Sentença 10 10 10 10 10 20 20 20 20 20
A média do tamanho de sentença (‘Sent. Length’) é 15, e o ‘Sd. Sent. Length’ é 5,27. Em
178
termos simples, 5,27 significa quantas unidades, aproximadamente, os valores individuais
das sentenças estão distantes (‘desviam’) da média. Quando comparado ao valor da média,
esse desvio padrão se revela alto, pois indica que há valores de tamanho de sentença que
estão aproximadamente 5 pontos acima ou abaixo da média (isto é, 15 – 5 = 10, e 15 + 5 =
20); ou seja, é alto porque há sentenças que são o dobro do tamanho das outras (20 / 10 =
2).
Paragraphs. Número de parágrafos contados pelo programa. Um parágrafo é entendido
pelo WordSmith Tools como uma seqüência de <Enter><Tab>. Essa definição pode ser
alterada no menu ‘Settings / Text Characteristics’ (vide p. 121). A definição de parágrafo
está condicionada ao tipo de formatação do arquivo (texto simples, HTML, SGML, XML;
vide p. 124).
Para. Length. Tamanho médio dos parágrafos, em palavras.
Sd. Para. Length. Desvio padrão da média do tamanho dos parágrafos. Vide discussão
sobre desvio padrão acima.
Headings. Quantidade de subtítulos nos textos. Um subítulo é algo, por exemplo, como ‘0.
Introdução’, ‘3. Metodologia’, etc., presentes em artigos de pesquisa. Os subtítulos são
definidos por etiquetas (‘tags’) específicas. Se o texto não possuir tais etiquetas, ou se as
etiquetas próprias de um texto não forem especificadas, não será efetuada a contagem.
Vide p. 124 para uma discussão sobre tipos de arquivo e formatação, e p. 112 sobre
etiquetas (‘tags’).
Heading length. Comprimento médio dos cabeçalhos, em palavras.
Sd. Heading length. Desvio padrão do comprimento médio dos cabeçalhos.
1-letter words, 2-letter words, etc. Mostra o comprimento médio das palavras do texto:
palavras formadas por uma letra, duas letras, etc. O comprimento máximo, padrão, é 14
letras, por isso a última categoria engloba as palavras com 14 ou mais letras. Mas esse
tamanho máximo pode ser alterado no menu ‘Settings / WordList / Word Length’. Se
houver alteração, a janela de estatística computará as contagens para esses novos valores.
179
8.5.3. As listas do arquivo de índice (‘index file’)
Conforme explicado acima (p. 172), há duas listas de arquivo de índice: uma ordenada por
ordem alfabética, outra por ordem de aparição no arquivo (File order).
8.5.3.1.A lista por ordem alfabética
Essa lista mostra as palavras ordenadas alfabeticamente e é aberta pelo menu Index,
Alphabetical List.
A figura a seguir ilustra a lista ordenada alfabeticamente, já com os valores de Mutual
Information calculados (vide p. 163 para explicação sobre como calcular essa estatística e
p. 190 para mais detalhes sobre essa estatística).
As colunas existentes na tela são as seguintes:
Word: as palavras do corpus.
Freq.: freqüências das palavras.
A concordance line: uma linha de concordância, como exemplo do uso da palavra. Para
ver mais linhas, é preciso clicar no botão , acionando o programa Concord.
Related 1: colocado que possui o maior escore de Mutual Information. Para saber a
freqüência dessa palavra como colocado, é preciso produzir uma concordância e verificar a
freqüência em Show Collocates. Se estiver em branco, significa que a freqüência da
palavra é alta ou baixa demais, ou seu escore de Mutual Information é baixo demais, de
acordo com os ajustes estabelecidos no menu Settings / Index Settings.
180
Mutual 1: escore de Mutual Information do colocado mencionado em Related 1. Se estiver
em branco, vide explicação acima, em Related 1.
Related 2, etc. até Related 10: colocados do nódulo, em ordem decrescente de Mutual
Information. Se estiverem em branco, vide explicação acima, em Related 1.
Mutual 2, etc. até Mutual 10: escores de Mutual Information de Related 2, etc., até Related
10, respectivamente. Se estiverem em branco, vide explicação acima, em Related 1
Este resultado foi obtido a partir dos ajustes sugeridos no item 8.3.3, p. 163, que estabelece
os ajustes de freqüência mínima e máxima para poupar tempo e otimizar o uso de recursos
para a produção do arquivo de índice. Eles são:
-High-frequency cut-off: 100 -maximum percent: 1.0 -min. frequency: 3 -Min. mutual info: 3
Esses valores fazem com que o programa, respectivamente:
-Compute, primeiramente, o Mutual Information para palavras com freqüência superior a 100. Se ainda houver recursos de memória suficientes, o programa processará as demais palavras. -Não compute o Mutual Information para palavras com freqüência equivalente a mais do que 1% do total de ocorrências do corpus. - Não compute o Mutual Information para palavras com freqüência inferior a 3. -Não mostre o resultado da estatística de Mutual Information quando esta for menor do que 3.
Esses ajustes produziram os seguintes efeitos no resultado exibido na figura acima:
• A palavra ‘A’ (na linha 1) foi ignorada porque possui mais de 1% do total de palavras
do corpus (‘maximum percent’). O corpus possui 4762 tokens, 1% disso equivale a
47,62, e ‘A’ possui 210 ocorrências.
• A palavra ‘À’, de freqüência 21, teve seu Mutual Information calculado porque possui
menos de 47 ocorrências (maximum percent) e mais do que 3 (min. frequency).
• A palavra ABBT, de freqüência 2, não teve seu Mutual Information calculado porque
sua freqüência é menor do que o mínimo estipulado (3, em min. frequency).
E assim por diante.
181
8.5.3.1.1.Os botões da tela de índice
Os botões constantes nessa lista são:
Layout: Faz alterações na disposição das colunas e nas cores da tela.
Compute: Calcula o resultado de uma fórmula definida pelo usuário.
Compute Mutual Information: calcula a estatística de associação Mutual
Information.
Change case. Transforma as palavras em minúsculas, iniciadas por maiúsculas, ou
inteiramente em maiúsculas. Para acionar cada tipo de transformação, basta clicar
no botão até alcançar a formatação desejada.
Mark-Unmark. Permite selecionar (ou desmarcar) palavras para terem suas
freqüências unidas (isto é, somadas), o que serve para fazer lematização manual (ou seja,
sem o auxílio de um arquivo de lematização). A palavra deve ser selecionada com o mouse
ou a tecla de seta. Depois, o botão Mark – Unmark deve ser clicado. Para anular uma
marcação, a palavra deve ser escolhida novamente e o botão Mark-Unmark clicado.
Search: Faz uma busca por alguma palavra ou número na lista.
Filenames: Mostra os nomes dos arquivos usados na preparação da lista. Esses
nomes podem ser editados usando o botão ‘replace’ (que não funciona em algumas
versões).
Concord. Faz uma concordância da palavra onde está o cursor ou daquelas
selecionadas.
8.5.3.2.A lista por ordem de arquivo (File Order)
Essa lista mostra as palavras ordenadas pela ordem em que elas primeiro apareceram nos
textos e é aberta pelo menu Index, File Order List.
A figura abaixo ilustra uma tela com lista ordenada por ordem de aparição no arquivo.
182
Os elementos dessa tela são:
Word: palavra.
Freq.: freqüência da palavra no corpus.
Plot: gráfico mostrando a posição das palavras. As ocorrências são sinalizadas por
pequenos traços verticais. Cada traço não representa, necessariamente, uma palavra, pois
se a freqüência for muito alta, não haverá espaço nem definição suficiente na tela para
mostrar em detalhe todas as posições exatas da palavra. Para saber com exatidão a posição
de cada palavra no texto, é preciso salvar a lista como texto (Save as Text, ). Como esse
recurso não mostra a separação entre os arquivos processados, ela é recomendada apenas
para análises de textos únicos. Vide discussão no final dessa seção.
Percebe-se que o gráfico está entrecortado por uma linha (azul, no original)
aproximadamente a dois terços do início da coluna onde o gráfico está inserido. Essa linha
foi acionada pelo botão Ruler . Esse recurso desenha uma linha no gráfico mostrando
onde um arquivo começa e outro termina, caso mais de um arquivo tenha sido selecionado.
Se apenas um arquivo tiver sido analisado, então o botão produz uma divisão em oito
partes iguais (esse recurso não está ativo em algumas versões). No caso da tela acima, a
linha mostra a separação entre os dois arquivos escolhidos para análise, mas ele não indica
qual arquivo corresponde a qual parte da divisão. O botão Filenames não fornece essa
183
informação, pois a ordem em que ele informa o nome dos arquivos não é necessariamente
a ordem em que eles aparecem na coluna Plot. Para saber qual arquivo cada divisão
representa, é possível usar o Concord. Para tanto, o usuário deve escolher uma palavra cuja
freqüência seja 1, colocando o cursor sobre ela. Depois, deve acionar o botão . O
resultado será uma concordância de uma linha apenas; a coluna File, do Concord,
informará a fonte dessa linha, que será, então, o arquivo a que pertence aquela ocorrência
encontrada no Plot. Voltando ao Plot, o usuário poderá então determinar qual seção do
gráfico corresponde aquele arquivo. Ele deve fazer isso com tantas divisões quantas forem
necessárias.
Os botões dessa lista são os mesmos da lista alfabética, mostrados na p. 181, com exceção
do botão Ruler, explicado no parágrafo acima.
O botão ‘Save as Text’ ( ) grava a lista transformando as posições do ‘plot’ em números,
que representam a posição da palavra no texto. Esse recurso não registra a divisão entre os
arquivos, mostrada pelo ‘Ruler’. Por isso, não é recomendada para análises de vários
textos ao mesmo tempo. Abaixo aparece um exemplo.
WordSmith Tools -- 25/12/2002 14:33:29 N Word Freq. Word Numbers 1 RECENTLY 1 1 2 A 14 2,34,49,69,81,243,296,410,466,506,533,563,583,598 3 RESEARCH 1 3 4 ABOUT 3 4,31,38 5 THE 43 5,10,59,62,92,96,105,110,121,156,158,162,167,171,178,194,210,234,274,301,304,317,329,340,353,359,379,384,407,424,435,438,476,480,494,513,521,527,546,555,567,576,586
Como se percebe, a formatação não é clara. Para melhorar a visualização do arquivo, é
recomendável transportá-lo para um editor como o MS Word. Lá, basta abri-lo ou colar
uma parte do arquivo, selecionar a lista (menos o cabeçalho), clicar em Tabela, Converter,
Texto em Tabela e depois em OK, ou simplesmete clicar no botão Tabela, da barra de
ferramentas. Depois, deve ser pedido Tabela, Auto-Ajuste, Auto-Ajuste para Conteúdo. O
resultado será parecido com o seguinte:
N Word Freq. Word Numbers 1 RECENTLY 1 1 2 A 16 2, 34, 49, 69, 81, 243, 296, 410, 466, 506, 533, 563, 583, 598,
629, 658 3 RESEARCH 1 3 4 ABOUT 5 4, 31, 38, 678, 783
184
5 THE 106 5, 10, 59, 62, 92, 96, 105, 110, 121, 156, 158, 162, 167, 171, 178, 194, 210, 234, 274, 301, 304, 317, 329, 340, 353, 359, 379, 384, 407, 424, 435, 438, 476, 480, 494, 513, 521, 527, 546, 555, 567, 576, 586, 620, 654, 660, 670, 679, 693, 10, 59, 62, 92, 96, 105, 110, 121, 156, 158, 162, 167, 171, 178, 194, 210, 234, 274, 301, 304, 317, 329, 340, 353, 359, 379, 384, 407, 424, 435, 438, 476, 480, 494, 513, 521, 527, 546, 555, 567, 576, 586, 620, 654, 660, 670, 679, 693, 695, 702, 735, 763, 772, 807, 829, 837, 841
A coluna ‘Word Numbers’ refere-se à área onde existia o gráfico. Agora, as posições
foram traduzidas para números, sendo que cada número refere-se à posição seqüencial da
palavra no texto.
8.5.4. Os menus
Esta seção descreve os menus existentes no WordList.
8.5.4.1.File
Esse menu dá acesso a várias opções do programa, descritas abaixo.
Start. Opção que remete à tela de Getting Started.
Frequency and Alphabetical. Abre listas de freqüência e alfabética, conjuntamente.
Frequency list. Abre listas ordenadas por ordem de freqüência.
Alphabetical list. Abre listas ordenadas por ordem alfabética.
Statistics. Abre listas de estatística.
Detailed consistency list. Abre lista de consistência detalhada.
Merge two word lists. Possibilita mesclar duas listas. O usuário deve escolher os dois
arquivos de lista. Os dois arquivos devem estar na mesma pasta.
Print. Abre uma pequena janela de visualização da impressão. Nessa tela, no topo,
encontram-se botões de zoom e de envio do arquivo para a impressora.
Save. Permite salvar a lista num arquivo. O nome do arquivo não deve ultrapassar oito
caracteres, seguido de uma extensão de no máxima três caracteres. A extensão padrão é
185
.lst.
Save As. Opção usada para salvar, com um nome diferente, uma lista já salva.
Save As Text. Faz com que a lista seja salva num arquivo-texto. A tela correspondente
pede que o usuário especifique um nome para o arquivo, além de permitir fazer ajustes no
tipo de informação que é gravado no arquivo. Pressionando OK faz com que o arquivo seja
gravado. As opções dessa tela são:
Header: Linha de cabeçalho que ficará no topo do arquivo. A mensagem padrão, contendo
a data e hora do salvamento da lista, aparece automaticamente. O usuário pode digitar o
que quiser lá. Caso não deseje um cabeçalho, basta apagar a informação do campo.
Footer: Linha de rodapé. Não há um rodapé pré-formatado. Deixar em branco esse campo
faz com que o programa não insira nenhum rodapé.
Number each line: Se marcado, faz com que cada linha da lista seja numerdada,
seqüencialmente.
Column separator: Caracter que faz a separação entre as colunas de informação da lista.
Tab: caracter de tabulação (é o default). Specify: o usuário pode especificar um caracter
ali, digitando-o.
Rows to save: linhas a serem salvas no arquivo. All: todas. Any highlighted: Somente as
linhas selecionadas (com o mouse ou tecla shift conjuntamente com tecla de seta, para
cima ou para baixo). Specify: número das linhas da lista a serem salvas.
Rows to save: colunas a serem salvas no arquivo. All: todas. Any highlighted: Somente as
colunas selecionadas (com o mouse ou tecla shift conjuntamente com tecla de seta, para
esquerda ou para direita). Specify: número das colunas da lista a serem salvas (zero é a
coluna ‘N’).
Copy. Abre uma janela que permite que o conteúdo da lista seja copiado para um destes
destinos: (a) clipboard, (b) arquivo-texto (text file), (c) impressora (printer), (d) arquivo lst
(lst file), conforme mostra a tela abaixo.
186
A opção ‘clipboard’ faz com que a lista seja enviada para o clipboard (‘área de
transferência’) do Windows. Desse modo, o conteúdo pode ser colado, por exemplo, em
um arquivo do Word. É a opção mais flexível, mas ao mesmo tempo deve ser evitada caso
o tamanho da lista seja grande (tamanho grande é relativo ao hardware), pois a máquina
pode travar. A opção ‘text file’ funciona do mesmo modo que ‘Save as Text’, explicado
acima, enquanto ‘printer’ faz a mesma operação que o comando ‘Print’, e ‘lst file’, a
mesma que ‘Save’. As opções em ‘What data’ referem-se à porção da lista que será
copiada: ‘all’ copia tudo, ‘selected’ copia somente a porção previamente escolhida com o
mouse (ou tecla shift mais teclas de seta). ‘Let me specify’ não está ativo (permanece em
cor cinza).
Exit. Finaliza o programa. Faz uma série de perguntas antes de encerrar-se.
No-check exit. Finaliza o programa bruscamente, sem fazer perguntas.
8.5.4.2.Settings
Abaixo são descritos os itens desse menu.
8.5.4.2.1.Choose Texts.
Leva à janela de seleção de textos, explicada na p. 168.
8.5.4.2.2.Colours.
Permite mudar as cores das janelas da lista.
187
8.5.4.2.3.Directories.
Remete a uma janela onde se pode especificar os diretórios default usados pelo programa
para escolher textos (‘Texts’) e para salvar e abrir listas (‘Concord’), listas de palavras-
chave (‘KeyWords’) e listas de palavra (‘WordList’). É aconselhável não alterar esses
diretórios. Pode ser útil modificá-los temporariamente caso o usuário deseje trabalhar por
algum tempo com pastas diferentes, o que economizará tempo para acessar as pastas.
8.5.4.2.4.Font.
Remete à guia ‘General’ do menu ‘Settings’, que serve para especificar aspectos
relacionados à fonte e a outros tipos de ajuste.
8.5.4.2.5.Index settings.
Permite fazer ajustes na maneira pela qual o programa criará arquivos de índice (‘index
files’), que são arquivos usados para cálculo da estatística de associação ‘Mutual
Information’ e que ainda permitem a criação de concordâncias de modo bem mais rápido
do que o habitual (sem o arquivo de índice). A tela a seguir ilustra esse item do menu:
188
As opções presentes na tela de ‘index settings’ são:
File name: Local para digitar a pasta e o nome do arquivo de índice a ser salvo. Deve
possuir a terminação .wdx. Esse é o arquivo-base do index file, que guarda apenas ajustes
do programa, mas o programa ainda produz um arquivo com terminação .xal e outro .xfo.
O primeiro (de tamanho maior do que o dos textos que compõem o corpus analisado)
registra a posição em ordem alfabética de todas as palavras do corpus; o segundo (que é
geralmente a metade do tamanho do corpus escolhido) guarda informação a respeito da
ordem das palavras em relação umas às outras.
High frequency cut-off: Freqüência mínima das palavras que serão levadas em conta no
primeiro processamento. Palavras que estiverem abaixo dessa freqüência mínima só serão
processadas se houver memória disponível na máquina, depois que as demais já tiverem
sido processadas. O número sugerido pelo programa é 500, o que significa que palavras
com freqüência igual ou maior a 500 receberão atenção especial e terão sua freqüência
computada. As demais ‘deverão esperar’ e só serão processadas se houver recursos no
computador. A necessidade desse passo é devida ao fato de que a produção de um arquivo
189
de índice é muito laborioso para o computador, tornando a produção do arquivo muito
demorada e com tendência a travar a máquina. O ideal seria que esse filtro não fosse
necessário, forçando a máquina a sempre computar todas as palavras. Computadores com
mais memória podem suportar um número de ‘high frequency cut-off’ mais baixo. A
sugestão é que o usuário experimente com esse número na sua máquina até encontrar um
valor confortável, ou seja, que não paralise seu computador, não leve tempo demasiado,
nem seja pouco informativa (isto é, com poucas palavras).
Activated: Quando marcada, ativa a produção do arquivo de índice.
File Order Too: Faz com que o programa leve em conta a posição de cada palavra nos
arquivos. Isso permite que seja computada a estatística de Mutual Information.
Procedure: Especifica a estatística a ser usada para estimar o grau de associação entre
palavras. ‘Mutual information’ é a única opção disponível.
Log base 2: Tira o logaritmo à base 2 do resultado da estatística de Mutual Information. O
resultado prático do logaritmo é reduzir as diferenças entre os valores originais. Por
exemplo, um escore de Mutual Information igual a 5 equivale a um igual a 2,32 com base
logarítmica 2. Já um escore igual a 10 é equivalente a 3,32 em base logarítmica e um de
100, a 6,64. Ou seja, uma mudança de 100% no escore bruto ocasionou apenas uma
mudança de 1 ponto no escore logarítimico (isto é, 43% de acréscimo em relação a 2,32),
enquanto um acréscimo de 20 vezes elevou o escore logarítmico a menos de três vezes.
Ignore sentence, para & heading breaks: Quando marcado, faz com que o programa leve
em conta colocados que estejam em sentenças e parágrafos diferentes, ou em seções
diferentes do texto (sinalizadas por subtítulos). Quando desmarcado, somente computa
colocados que estejam dentro da mesma sentença ou do mesmo parágrafo (caso uma marca
de final de sentença esteja faltando) e da mesma seção do texto (de acordo com os
subtítulos que porventura existam). Para formatar sentença, parágrafo e subtítulo, é preciso
estabelecer o tipo de texto e sua formatação, no menu ‘Settings / Text Characteristics’.
Vide p. 121 para uma explicação sobre esse assunto.
Max. Percent: Valor máximo de freqüência (expresso em porcentagem) aceito para incluir
palavras no cálculo de Mutual Information. Palavras com freqüência acima desse valor
serão desconsideradas. Por exemplo, um valor de 1.0 significa freqüência equivalente a 1%
190
do total. Assim, num texto ou corpus que possua 10 mil palavras (tokens), as palavras com
freqüência acima de 100 (que é 1% de 10 mil) não terão seu Mutual Information Score
calculado. Tem a finalidade de servir como filtro, para acelerar o processamento, do
mesmo modo que ‘High frequency cut-off’ explicado acima.
Min. Mutual Info: Valor mínimo de Mutual Information que irá aparecer na listagem. O
valor recomendado é 3. Não é um filtro de cálculo, como High frequency cut-off’ e ‘Max
Percent’. Apenas restringe a inclusão de palavras na listagem final, após o cálculo ter sido
realizado.
Min. Frequency: Freqüência mínima exigida para que uma palavra tenha seu Mutual
Information calculado. É outro filtro, assim como ‘High frequency cut-off’ e ‘Max
Percent’, detalhados acima. Palavras com freqüência muito baixa em geral não possuem
um grau de associação relevante. O valor recomendado é 4, mas dependendo do tamanho
do texto ou do corpus, pode ser mudado. Com corpora pequenos, é possível até mesmo
estabelecer um valor 2. A sugestão é que o analista experimente com alguns valores e
verifique o resultado, até encontrar um valor satisfatório.
Horizons. São os horizontes da concordância, ou seja, a distância máxima entre o nódulo e
seus colocados, para a esquerda e para a direita (vide p. p. 98 para explicação mais
detalhada). Esse horizonte será o utilizado pelo arquivo de índice para cálculo da
estatística Mutual Information. O valor normalmente usado é cinco palavras para esquerda
e cinco para a direita (5L e 5R). Somente serão levadas em conta as palavras que estejam
dentro dos horizontes definidos.
8.5.4.2.6.A estatística Mutual Information
A possibilidade de cálculo da estatística Mutual Information está presente no arquivo de
índice. Essa estatística é um dos tipos de medida de associação usados na análise de
concordância; as outras mais comuns são a Observado / Esperado (Observed / Expected) e
o Escore T (T-Score). Elas servem para mostrar até que ponto há uma relação de co-
ocorrência entre o nódulo (a palavra de busca) e os seus colocados (as palavras ao redor do
nódulo) que ultrapassa o que se poderia conseguir ao acaso. Em outras palavras, se a
atração entre o nódulo e o colocado não parece ser aleatória. Uma associação não aleatória
é aquela que é mais comum do que o esperado.
191
A estatística Mutual Information pode ser calculada sem o arquivo de índice, usando uma
calculadora ou uma planilha (tipo Excel). Contudo, a opção de cálculo automático no
WordSmith Tools tem a vantagem de facilitar esse processo, pois o programa calcula a
estatística para todas as palavras do corpus (que passem nas exigências colocadas em vigor
pelos ajustes do programa). Dessa forma, o cálculo automático torna-se, também, um meio
de filtrar os dados, permitindo ao analista descobrir mais facilmente quais palavras, entre
as muitas que existem no corpus, merecem sua atenção detalhada, por exibirem um grau de
associação alto. Normalmente, um valor de 3 ou mais para a estatística Mutual Information
é considerado alto.
A fórmula para o cálculo de Mutual Information é:
MI = log2 O / E
Sendo que:
O = f(n,c)/N
E = f(n)/N * f(c)/N
Onde:
f(n): a freqüência do nódulo no corpus.
f(c): a freqüência do colocado no corpus.
f(n,c): a freqüência da ocorrência mútua do nódulo (n) e do colocado (c).
N: o tamanho do corpus.
8.5.4.2.7.Min & Max Frequencies.
Permite efetuar os seguintes ajustes:
Numbers included: Quando marcado, faz com que o programa inclua números na lista, tais
como eles apareceram. Se estiver desmarcado, o programa não inclui números na lista de
palavras e os representa como ‘#’ no cálculo de lista de agrupamentos (clusters).
Word Length: As janelas indicam os tamanhos mínimo e máximo (em número de
192
caracteres) que as palavras terão na lista de palavras. Palavras maiores do que o valor
maior serão omitidas da lista (se a opção ‘abbreviate with’ não estiver marcada) ou
aparecerão truncadas (se estiver).
Abbreviate with + : Palavras que excederem o valor máximo permitido de Word Length
serão truncadas com ‘+’. Por exemplo, se o tamanho máximo for 14 caracteres, a palavras
‘inconstitucionalissimamente’ aparecerá como ‘inconstitucion+’.
Word Frequency. Valores mínimo e máximo permitidos na lista de palavras. Palavras fora
dessa faixa serão omitidas da lista.
Type / Token basis. Valor do bloco de texto usado para cálculo da razão Type-Token
padronizada (standardized). Vide p. 175 para detalhes desse índice.
Clusters size: define o tamanho dos clusters nas listas de agrupamentos. A caixa
‘Activated’ próxima a este campo deve estar marcada para ativar esse tipo de lista. Se esta
opção estiver ativada, as listas de palavra (simples e em modo ‘batch’, não as de arquivo
de índice) serão produzidas não com palavras isoladas, mas com agrupamentos, segundo a
extensão definida nesse campo. Vide seção 8.2 na p. 155 para mais detalhes.
Case sensitivity. Quando ativada (na caixa ‘activated’), faz a lista distinguir entre palavras
(todas ou em parte) escritas com letras maiúsculas e em minúsculas. Assim, por exemplo,
‘Mesmo’ e ‘mesmo’ serão computadas separadamente. Se não estivar ativada, a lista
desconsidera o uso de maiúsculas e minúsculas, e agrupa, por exemplo, as freqüências de
‘Mesmo’, ‘mesmo, ‘MESMO’, ‘mEsMO’, etc. Esses ajustes são subordinados ao tipo de
alfabeto e de caracteres usados nesse alfabeto conforme discriminado no arquivo
Save: guarda esses ajustes para uso posterior. Se marcado, esses ajustes estarão ativos para
a próxima sessão do programa.
8.5.4.2.8.Printing
Permite fazer ajustes na impressão, fontes e nos arquivos abertos automaticamente pelo
programa quando iniciado. Vide item 7.4.2.3.8 na p. 110.
8.5.4.2.9. Stop list
Permite especificar lista de palavras a serem excluídas do processamento dos textos. Cada
193
ferramenta exige a especificação independente de uma lista, no espaço diante do nome da
ferramenta (p.ex. Concord stop list). Clicando em ‘Browse’, o usuário tem acesso à lista de
pastas, de onde pode selecionar o arquivo correspondente. Depois de indicar o nome e a
pasta do arquivo, é necessário ainda marcar a caixa ‘Activated’, caso contrário a lista não
será levada em conta. Vide item 7.4.2.3.10 p. 111 para maiores detalhes.
8.5.4.2.10.Tag list
‘Tags’ (ou etiquetas) são códigos de marcação dos textos, que trazem informações dos
mais variados tipos. Os ajustes feitos nesse menu alteram a maneira como o programa
reage a esses códigos. Vide seção 7.4.2.3.11 na p. 112 para mais detalhes.
8.5.4.2.11.Text Characteristics
Essa opção refere-se à guia ‘Text’ da tela de ‘Settings’. Nela, é possível fazer ajustes na
maneira pela qual o programa processa a formatação dos textos. Vide seção 7.4.2.3.12 p.
121 para maiores informações.
8.5.4.2.12.Review all Settings
Essa opção abre uma janela que resume os ajustes feitos nos vários menus. Os botões
‘Text’, ‘Tags’, etc. localizados junto à margem direita simplesmente remetem o usuário a
partes da listagem de ajustes, facilitando a localização dos ajustes desejados. Entretanto,
não é possível modificar as opções diretamente nessa janela. É preciso ir novamente ao
menu ‘Settings’ da ferramenta desejada ou do Controller para processar as alterações.
8.5.4.3.Comparison
Esse menu permite fazer comparações entre listas, para saber (a) quais palavras possuem
freqüências acima do esperado (opção ‘compare 2 wordlists’), ou (b) quais palavras estão
presentes em várias listas (opções ‘consistency (simple)’ e ‘consistency (detailed)’).
8.5.4.3.1.Compare 2 wordlists
O intuito dessa comparação é mostrar as palavra-chave de uma lista de palavras, ou seja,
palavras de freqüência marcante. Por marcante entende-se freqüências mais altas ou mais
baixas, estatisticamente significativas, do que aquelas num conjunto de referência. Esse
conjunto de freqüências de referência é representado por outra lista, formada a partir do
194
chamado ‘corpus de referência’ (reference corpus). Para mais detalhes sobre palavras-
chave, vide o capítulo 0 (p. 210 e subseqüentes); para uma visão geral da tela de palavras-
chave, que é idêntica à mostrada pelo comando ‘compare 2 lists’, vide p. 210.
A comparação é feita pelo programa KeyWords. Assim, esse menu é, para todos os efeitos,
um atalho para o programa KeyWords, já que o mesmo poderia ser feito naquele
programa. A tela resultante é, de fato, do programa KeyWords, mas o programa que
permanece funcionando é o WordList.
Clicando nessa opção, surge uma tela que pede a escolha de duas listas de palavras (.lst) já
salvas. Se o analista quiser comparar a lista que acabou de fazer (e que está sendo exibida
na tela), deve salvá-la primeiro e depois compará-la.
A lista é feita usando os ajustes em vigor para o KeyWords (no menu Settings, Min & Max
Frequencies, guia KeyWords) e para os textos em geral (menu Settings, principalmente
guias Text, Tags e Stop List).
A lista resultante da comparação, com as palavras-chave, deve ser salva usando o comando
File, Save ou clicando no botão . Ela será salva no formato KeyWords (extensão .kws).
8.5.4.3.2.Consistency (simple)
Essa comparação produz uma lista que mostra as palavras consistentes, isto é, aquelas que
aparecem em várias listas de palavra. A listagem também mostra em quantas listas de
palavra cada palavra apareceu. É possível comparar mais de 16 mil listas ao mesmo tempo.
Para criar uma lista de consistência simples, é preciso clicar no menu Comparison e depois
em Consistency Simple. Surgirá um tela que permite escolher os arquivos a serem
comparados. A figura abaixo reproduz essa tela:
195
Cada arquivo deve ser uma lista de palavras (extensão .lst, por default) previamente
gravada no formato do programa WordList. Para selecionar as listas, o usuário deve
manter pressionada a tecla Shift do teclado e depois clicar no nome dos arquivos. Clicando
em OK, o processamento terá início, demonstrado numa janela de andamento. Para
interromper o processamento, é preciso usar as teclas Control, Alt, Del, conjuntamente,
para encerrar o programa WordList.
Uma vez terminado, o resultado aparece numa lista que possui formato semelhante à
mostrada abaixo.
196
A lista mostra as seguintes informações:
Word: As palavras constantes em uma das listas ou em ambas.
Freq.: A quantidade de listas em que a palavra aparece.
%: Porcentagem referente à quantidade de listas.
Lemmas: lemas.
Para que não seja perdida, a lista deve ser salva com o comando Save no menu File (ou
botão ). Ela é tratada como uma lista de palavras comum e portanto será gravada no
formato de lista de palavra, com a extensão .lst. Para abri-la, deve ser usado o menu File,
Open, Frequency & Alphabetical, Frequency, Alphabetical ou Statistics.
Na tela acima, nota-se que a palavra ‘Windows’ (posição 1004) ocorreu em duas listas,
isto é, em 100% das listas comparadas. Ela é, portanto, altamente consistente. Já a palavra
‘abacatada’ (posição 1012) não é consistente, pois apareceu em apenas uma lista (50% do
total). A dúvida que surge, nesse momento, é a respeito de que lista a palavra ‘abacatada’
faz parte. Para ter essa informação, é possível usar a função ‘Find Files’, acionada no
botão . Mas fazer isso com as muitas palavras de uma lista torna-se improdutivo. Por
197
isso, existe a lista de consistência detalhada, que mostra em que textos cada palavra
ocorreu. Ela é explicada na seção a seguir.
Os botões constantes na tela da lista de consistência simples são:
Re-sort: Faz a reordenação da lista. Funciona como na re-ordenação das
concordâncias (vide p. 97).
Layout: Faz alterações na disposição das colunas e nas cores da tela.
Compute: Calcula o resultado de uma fórmula definida pelo usuário.
More columns: Aumenta o número de colunas na tela, dispondo mais colunas lado
a lado; ajuda a economizar papel durante a impressão.
Change case. Transforma as palavras em minúsculas, iniciadas por maiúsculas, ou
inteiramente em maiúsculas. Para alterar as opções, é preciso clicar várias vezes no botão.
Match. Abre a janela de ajuste de ‘match’, que permite a localização e apagamento
de palavras via arquivo.
Mark-Unmark. Permite selecionar (ou desmarcar) palavras para terem suas
freqüências unidas (isto é, somadas), o que serve para fazer lematização manual (ou seja,
sem o auxílio de um arquivo de lematização). A palavra deve ser selecionada com o mouse
ou a tecla de seta. Depois, o botão Mark – Unmark deve ser clicado. Para anular uma
marcação, a palavra deve ser escolhida novamente e o botão Mark-Unmark clicado.
Lemma-Match. Faz lematização por meio de um arquivo. Esse botão aciona uma
tela de lematização.
Join. soma a freqüência de palavras selecionadas (com a função ‘Mark – Unmark’)
e desabilita a palavra somada (torna cinza a palavra e transforma sua freqüência em zero).
Unjoin. Desfaz a soma das freqüências efetuada com join.
Zap. Retira da lista uma palavra apagada com a tecla ‘delete’.
Edit. Permite redigitar uma palavra constante na lista. A palavra aparecerá numa
pequena janela, onde deve ser feita a edição. Clicando OK, a nova versão é incorporada à
198
lista.
Search: Faz uma busca por alguma palavra ou número na lista.
Filenames: Mostra os nomes dos arquivos usados na preparação da lista. Esses
nomes podem ser alterados usando o botão ‘replace’ (que não funciona em algumas
versões).
Summary stats: mostra contagem de várias características da lista.
Rotate: Muda a orientação da lista, do sentido vertical (o default) para horizontal.
View. Abre o viewer, com o(s) texto(s) onde a palavra ocorreu.
Concord. Faz uma concordância da palavra onde está o cursor ou das palavras
selecionadas.
Files. Faz uma concordância e mostra somente as ocorrências das palavras naqueles
arquivos que contém todas elas Não funciona com palavras lematizadas (joined), emitindo
uma mensagem de erro. Vide p. 207 para mais detalhes.
8.5.4.3.3.Consistency (detailed)
Assim como a lista de consistência simples (explicada acima), a lista de consistência
detalhada mostra as palavras de consistência, isto é, aquelas que ocorrem em várias listas
de palavras. Mas ao contrário da lista simples, ela mostra, além do total de listas em que a
palavra ocorreu, quais arquivos cada uma ocorreu.
A lista detalhada, porém, possui algumas desvantagens em relação à simples:
• O tempo de processamento é maior.
• O número de palavras (types) em conjunto que pode ser processado é menor (cerca de
16 mil). Listas maiores que esse valor são truncadas.
• A lista não informa a porcentagem do total de listas em que cada palavra ocorreu.
Para produzir uma lista de consistência detalhada, é preciso escolher as listas, até um total
de 50 (embora o menu indique a possibilidade de escolher mais de 16 mil), usando a janela
199
de seleção, explicada acima.
A seguir, o programa inicia o processamento, que é mais lento do que para a lista de
consistência simples. Contudo, se as listas selecionadas somarem mais do que 16368
palavras (types), o programa emite uma mensagem de erro, pois excedeu o seu limite. A
tela que exibe esse aviso aparece na figura abaixo.
Depois de pressionar OK, o processamento prossegue, mas o resultado será referente às
16368 primeira palavras, contadas a partir da somatória das freqüências daquelas que
aparecem em todos as listas. Isso significa que o resultado será parcial. A lista resultante
aparece logo após e é ilustrada na figura a seguir.
A tela aparece ordenada de modo inverso, isto é, em ordem decrescente pela coluna Files,
seguida da coluna Total. Por isso, as palavras mais consistentes aparecem no final da lista.
200
Isso pode ser mudado por meio do botão Re-Sort ( ), com os ajustes seguintes:
• Main Sort: Files.
• Then by: Total.
• Caixa Activated: Marcada.
• Lines to sort: All.
• How to sort: Ascending, desmarcado.
Note que em algumas versões do programa, essa função de re-ordenação não funciona bem
para a lista de consistência detalhada; portanto, os resultados podem não ser os
pretendidos. Caso isso aconteça, é possível ordenar a lista corretamente numa planilha
eletrônica (p.ex. Excel).
Para que não seja perdida, a lista deve ser salva com o comando Save no menu File (ou
botão ). Ao contrário da lista de consistência simples, ela não é tratada como uma lista
de palavras comum, sendo gravada num formato especial, cujo arquivo possui terminação
.dcl. Para abri-la, é necessário usar o menu File, Open Detailed Consistency List.
Os elementos da tela da lista de consistência são:
Word: palavra.
Files: Quantidade de arquivos em que a palavra aparece.
Total: freqüência total da palavra nos arquivos.
(Penúltima coluna): freqüência da palavra na lista indicada pelo nome no alto da coluna
(‘conv’, no caso da tela anterior).
(Última coluna): freqüência da palavra na lista indicada pelo nome no alto da coluna
(‘reuni’, no caso da tela anterior).
Os itens que aparecem em vermelho são aqueles em que a freqüência ou porcentagem é
maior.
Para exemplificar, tomemos a palavra ‘A’, que está na posição 16368. Segundo a lista de
201
consistência, ela aparece em dois arquivos e possui freqüência total de 83716, sendo 83515
no arquivo ‘conv’ e 201 no arquivo ‘reuni’. Note que a lista não indica quantos arquivos
foram selecionados no total, portanto não é possível estimar, pela informação mostrada, se
essa palavra é consistente ou não. Mas como sabemos (por termos escolhido, mas também
pelo que nos informou a lista de consistência simples) que duas listas foram selecionadas,
podemos julgar que ‘A’ é uma palavra consistente, pois está presente nos dois arquivos.
Como se percebe, a lista de consistência não é muito útil para casos em que as palavras
ocorrem nos dois arquivos, pois essa informação a lista de consistência simples já fornece.
A lista detalhada é mais útil para descobrir em qual lista uma palavra ocorreu, ou deixou
de ocorrer.
Subindo mais na lista, chega-se a um ponto em que o total de arquivos passa a ser 1,
conforme mostra a tela abaixo.
A palavra ‘anos’ (posição 16081), por exemplo, segundo a tela acima, ocorre em um
arquivo apenas, qual seja, em ‘conv’. O mesmo acontece com as demais palavras acima
dessa.
Os botões da janela da lista de consistência detalhada são os mesmos da lista simples. Vide
p. 197.
202
8.5.4.4.Index
Esse menu permite produzir e abrir arquivos de índice (vide p. 157 para uma explicação
desse recurso).
8.5.4.4.1.New Index
Cria um arquivo de índice segundo os ajustes feitos no menu Settings, Index settings. Vide
p. 163 para um roteiro de como produzir um arquivo de índice e p. 187 para uma
explicação dos ajustes.
8.5.4.4.2.Alphabetical list
Abre um arquivo de índice formatado em ordem alfabética. Vide p. 179 para uma
explicação dessa tela.
8.5.4.4.3.File order list
Abre um arquivo de índice formatado por ordem de aparição no arquivo. Vide p. 181 para
uma explicação dessa tela.
8.5.4.5.Window
Esse menu organiza as janelas, no estilo padrão do Windows. ‘Tile’ coloca as janelas de
modo adjacente, ‘Cascade’ uma sobre as outras, ‘Arrange All’ as transforma em ícones
(não está ativo em algumas versões) e ‘Minimize All’ as minimiza.
8.5.4.6.Help
É o menu de ajuda, padrão do Windows. A versão do WordSmith Tools instalada pode ser
vista na opção ‘About & Memory’ do menu ‘Help’.
8.6. Os botões da barra de ferramenta do WordList
Esses botões fazem parte da janela do Word List. Alguns estão sempre visíveis, mesmo
quando não há nenhuma lista aberta, outros não. Eles são descritos abaixo:
Remete à janela Getting Started (vide 8.4, p. 167).
Save. Abre a janela de salvamento da lista, ou, se a lista de palavra já tiver sido
203
gravada, salva-a novamente com o mesmo nome.
Save As. Abre a janela de salvamento de arquivo, permitindo salvar uma lista de
palavra com outro nome.
Save as Text. Salva a lista de palavra como texto. Vide p. 185.
Print Preview. Permite ver a aparência da impressão antes de enviar o material para
a impressora.
Copy. Permite copiar a lista de palavras inteira ou em partes para a área de
transferência (clipboard), arquivo-texto (equivalente a Save as Text), impressora
(equivalente a imprimir), e um arquivo .lst (equivalente a Save ou Save As). Em What
Data, permite selecionar se a lista de palavras ou lista de palavra-chave será salva inteira
(all), ou somente a parte selecionada com o cursor (selected).
Help. Abre o menu de ajuda.
Advice. Abre um menu mostrando um ‘mapa’ dos comandos e localizando o
usuário nesses comandos. Também sugere alguns comandos que o usuário pode utilizar.
Pode ser útil para o analista que se sente ‘perdido’ em meio aos comandos ou que
esqueceu algum comando.
8.7. Os botões da janela de lista de palavras (.lst)
Esta seção apresenta os botões encontrados na tela onde aparece a lista de palavras do tipo
simples (.lst).
Re-sort: Faz a reordenação da lista. Segue o exemplo da re-ordenação usada nas
concordâncias
Layout: Faz alterações na disposição das colunas e nas cores da tela.
Compute: Calcula o resultado de uma fórmula definida pelo usuário. Esse recurso
disponibiliza funções de planilha de cálculo para a lista de palavras. Por isso, o mesmo
resultado por ser obtido transportando a lista de palavras para uma planilha, com Excel e
realizando os cálculos lá. Mas a maior vantagem do recurso ‘Compute’ é que o cálculo é
feito diretamente na lista, economizando tempo. Além disso, o resultado é salvo no mesmo
204
arquivo, deixando os dados mais organizados. Alguns cálculos mais complexos talvez
necessitem de uma planilha eletrônica, mas para a maior parte deles, ‘Compute’ é
suficiente.
A figura a seguir ilustra a tela de entrada de dados.
O campo superior é destinado à entrada das fórmulas. As fórmulas utilizam uma notação
especial para representar as células (posições na tela), que lembra aquela usada em
planilhas de cálculo, como Excel. As posições, por sua vez, podem ser de dois tipos:
relativas ou absolutas. Uma posição relativa refere-se a cada linha de uma coluna. Por
exemplo, a posição Rel(2) indica todas as linhas da coluna 2. Uma posição absoluta, por
sua vez, representa uma coluna e linha específicas; Abs(2;1) indica a primeira linha (1) da
coluna 2.
As demais opções da tela representam atalhos para facilitar a entrada de dados e, portanto,
são opcionais. O usuário pode digitar diretamente a fórmula que desejar.
A primeira dessas opções é uma calculadora, que o usuário pode usar para entrar os dados
no campo de entrada de fórmulas. O sinal de divisão aparece na tela como ‘÷’, mas é
possível digitar a barra (/) para representar a mesma operação.
205
A caixinha ‘standard’, que se encontra no meio da tela traz algumas funções de cálculo,
como logaritmo, pi e raíz quadrada. O usuário pode clicar duas vezes naquela que desejar
para ela ser inserida no campo de entrada de fórmula. Também é possível digitar
diretamente o código da função.
O espaço ‘Your data’ refere-se às posições das colunas e linhas. A caixa ‘relative’ elenca
as colunas existentes na lista. Isso serve como atalho para a digitação, além de ser um
lembrete do conteúdo de cada coluna. Para incluir uma delas, basta clicar duas vezes. O
programa incluirá a coluna no código de posição relativa; assim, se a coluna 2 for
selecionada e clicada duas vezes, o código resultantes será Rel(2).
A caixinha ‘cumulative’ destina-se a fazer um cálculo cumulativo, mas não está ativo. Um
cálculo cumulativo adiciona o resultado da linha superior à linha inferior, sucessivamente.
A opção ‘Absolute’ também insere códigos automaticamente no campo de entrada de
fórmula. A caixinha existente indica os números de linha da lista. O usuário pode rolar a
lista (em incrementos de 10) até encontrar o número que deseja ou digitar diretamente no
espaço.
Ao clicar no botão OK, o cálculo é efetuado e o resultado exibido na tela. A fórmula que
deu origem à tela aparece no topo da coluna.
Para ilustrar o processo de cálculo, tomemos a fórmula exibida na tela acima, que é:
Rel(2)÷21234
Essa fórmula faz com que o programa divida o valor de cada linha da coluna 2 por 21234.
A intenção ao usar essa fórmula é saber a diferença entre as ocorrências da palavra mais
freqüente e as demais. O resultado aparece na figura abaixo.
206
Como se percebe, o resultado foi disposto na coluna ao lado de ‘Lemma’. A primeira linha
diz ‘1.00’, pois representa o resultado da divisão de 21234 (o valor da coluna 2, linha 1)
por 21234 (isto é, por si mesmo). A segunda linha mostra 0,69, que é o resultado da
divisão de 14656 (o valor da coluna 2, linha 2) por 21234. A terceira linha exibe 0,57, que
é a divisão de 12153 (o valor da coluna 2, linha 3) por 21234. E assim por diante.
More columns: Aumenta o número de colunas na tela, dispondo mais colunas lado
a lado; ajuda a economizar papel durante a impressão.
Change case. Transforma as palavras em minúsculas, iniciadas por maiúsculas, ou
inteiramente em maiúsculas. Para alterar as opções, é preciso clicar várias vezes no botão.
Match. Abre a janela de ajuste de ‘match’, que permite a localização e apagamento
de palavras via arquivo.
Mark-Unmark. Permite selecionar (ou desmarcar) palavras para terem suas
freqüências unidas (isto é, somadas), o que serve para fazer lematização manual (ou seja,
sem o auxílio de um arquivo de lematização). A palavra deve ser selecionada com o mouse
ou a tecla de seta. Depois, o botão Mark – Unmark deve ser clicado. Para anular uma
marcação, a palavra deve ser escolhida novamente e o botão Mark-Unmark clicado.
Lemma-Match. Faz lematização por meio de um arquivo. Esse botão aciona uma
tela de lematização.
Join. soma a freqüência de palavras selecionadas (com a função ‘Mark – Unmark’)
207
e desabilita a palavra somada (torna cinza a palavra e transforma sua freqüência em zero).
Unjoin. Desfaz a soma das freqüências efetuada com join.
Zap. Retira da lista uma palavra apagada com a tecla ‘delete’.
Edit. Permite redigitar uma palavra constante na lista. A palavra aparecerá numa
pequena janela, onde deve ser feita a edição. Clicando OK, a nova versão é incorporada à
lista.
Search: Faz uma busca por alguma palavra ou número na lista.
Filenames: Mostra os nomes dos arquivos usados na preparação da lista. Esses
nomes podem ser alterados usando o botão ‘replace’ (que não funciona em algumas
versões).
Summary stats: mostra contagem de várias características da lista.
Statistics. Abre a lista de estatística relativa à lista (alfabética ou de freqüência).
Rotate: Muda a orientação da lista, do sentido vertical (o default) para horizontal.
View. Abre o texto no viewer.
Concord. Faz uma concordância da palavra onde está o cursor ou daquelas
selecionadas. Para selecionar duas palavras adjacentes na lista, basta clicar em uma,
pressionar a tecla shift no teclado e clicar na outra. Para selecionar palavras não
adjacentes, é preciso usar o botão Mark – Um-Mark ( ). Para fazer outra concordância
depois de usar ‘Mark’, é preciso, antes demarcar os itens, senão o Concord repetirá a
concordância das palavras marcadas. Para desmarcar, use o mesmo botão Mark Um-Mark.
As palavras estarão desmarcadas assim que o sublinhado (highlight em azul) desaparecer.
Files. Faz uma concordância e mostra somente as ocorrências das palavras naqueles
arquivos que contém todas elas. Para exemplificar, tomemos o exemplo da lista mostrada
na figura abaixo.
208
Segunda essa lista, os dois itens selecionados, ‘abandonando’ e ‘abandonar’, somam 19
ocorrências (6 de ‘abandonando’ e 13 de ‘abandonar’). Pressionando o botão de Concord
( ), o usuário produzirá uma concordância que mostra essas 19 ocorrências. Entretanto,
nem sempre as duas palavras aparecem nos mesmos textos (pelo menos uma vez). A
função faz justamente isso. Clicando nessa opção, o programa Concord buscará
somente as ocorrências de ‘abandonar’ e ‘abandonando’ que estejam nos mesmos textos. O
resultado aparece na figura a seguir.
209
Essa tela mostra apenas 9 ocorrências, que são aquelas em que ambas palavras aparecem
no mesmo texto. Na coluna ‘File’ é possível saber quais textos possuem as duas palavras:
visao.txt e veja/v9.txt.
Em certas versões do programa, esse comando não funciona com palavras lematizadas
(joined), emitindo uma mensagem de erro.
210
A ferramenta KeyWords
8.8. Visão Geral
8.8.1. Palavras-chave
O programa KeyWords produz listas de palavras-chave. Palavras-chave são aquelas cujas
freqüências são diferentes, de modo estatisticamente significativo, das freqüências
encontradas em um corpus de referência.
Embora o termo seja ‘palavra-chave’, na verdade elas não precisam ser, necessariamente,
palavras individuais (p.ex. ‘café’, ‘casa’), podendo ser seqüências de palavras ou ‘clusters’
(‘café com leite’, ‘casa da sogra’). O KeyWords também processa listas de palavra
formadas por clusters (vide p. 106). O default é palavra-chave individual. No restante do
texto, referência a ‘palavra-chave’ indicará referência a palavra-chave individual.
Palavras-chave não são o mesmo que palavras ‘importantes’. O programa usa um critério
estatístico, quantitativo, para identificar as palavras-chave; já uma pessoa usa outros
critérios de relevância. Seguindo o mesmo raciocínio, o programa não identifica
necessariamente aquelas palavras-chave encontradas, por exemplo, em artigos científicos
no campo ‘palavras-chave’ (ou key words, mot clefs, etc.).
O KeyWords é acionado clicando em ‘Tools / KeyWords’ no Controller.
As palavras-chave podem ser de dois tipos: positivas e negativas. Elas são:
• Positivas, quando sua freqüência é significativamente mais alta no corpus do estudo do
que no de referência.
• Negativas, quando sua freqüência é significativamente mais alta no corpus de
referência do que no de estudo.
As palavras-chave positivas e negativas são exibidas separadamente na tela de resultados.
As positivas aparecem no começo da lista, em cor amarela. As negativas surgem no final
da lista, em cor diferente (vermelho é o default).
As palavras-chave são úteis na análise lingüística para diversos fins, como por exemplo:
• Identificar a temática (‘aboutness’) de um corpus ou de um texto.
211
• Descrever a organização interna dos textos.
• Localizar marcas indicativas de posicionamento ideológico.
• Traçar um perfil lexical de um autor ou de outros indivíduos.
Uma análise por KeyWords exige dois elementos básicos:
(1) um corpus de estudo, representado em uma lista de freqüência de palavras. O
corpus de estudo é aquele que se pretende descrever. A ferramenta KeyWords
aceita a análise simultânea de mais de um corpus de estudo.
(2) um corpus de referência, também formatado como uma lista de freqüência de
palavras. Também é conhecido como ‘corpus de controle’, e funciona como termo
de comparação para a análise. A sua função é a de fornecer uma norma com a qual
se fará a comparação das freqüências do corpus de estudo. A comparação é feita
através de uma prova estatística selecionada pelo usuário (qui-quadrado ou log-
likelihood). As palavras cujas freqüências no corpus de estudo forem
significativamente maiores segundo o resultado da prova estatística são
consideradas chave (vide a distinção entre palavras-chave positivas e negativas
abaixo). O conteúdo do corpus de referência influencia quais palavras-chave serão
identificadas, de tal modo que é possível antecipar o tipo de influência que um
corpus de referência terá no resultado da lista de palavras-chave se compararmos os
perfis dos corpora, com relação a aspectos como: os gênero(s) incluídos, os
assuntos, os períodos, a autoria, etc. Vide item 8.10 (p. 225) para uma explicação
desse ponto.
As palavras-chave são extraídas a partir dos ajustes em vigor para o KeyWords (no menu
Settings, Min & Max Frequencies, guia KeyWords) e para os textos em geral (menu
Settings, principalmente guias Text, Tags e Stop List).
Palavras-chave positivas e negativas
As palavras-chave podem ser de dois tipos:
• Positivas: aquelas cujas freqüências são estatisticamente maiores no corpus de estudo
do que no corpus de referência.
212
• Negativas: aquelas cujas freqüências são estatisticamente menores no corpus de estudo
do que no corpus de referência.
As palavras-chave positivas são o tipo default, ou seja, quando não é especificado o tipo,
subentende-se que o tipo em questão é ‘positivo’.
Na verdade, uma definição mais completa de palavra-chave deve incorporar os tipos de
restrição de freqüência mínima estipulados no menu Settings / Min & Max Frequencies.
Desse modo, uma definição mais rigorosa seria:
Palavra-chave (positiva) é aquela cuja freqüência é estatisticamente superior à encontrada
num corpus de referência, de tal modo que sejam satisfeitas todas as seguintes condições:
a palavra possua uma freqüência de ocorrência maior ou igual ao valor estipulado pelo
usuário no menu Settings / Min & Max Frequencies, min frequency.
o nível de significância p oriundo do teste estatístico não deve ser superior ao estipulado
pelo usuário no menu no menu Settings / Min & Max Frequencies, max p. value.
o resultado da estatística qui-quadrado ou log-likelihood (qualquer que seja a escolhida
pelo usuário), representado por ‘keyness’, esteja entre os x maiores de todas as palavras,
sendo x o número máximo estipulado pelo usuário menu Settings / Min & Max
Frequencies, max wanted.
8.8.2. Palavras-chave chave
Palavras-chave chave (key key words) são palavras que são chave em um número
determinado de arquivos. Uma palavra será mais ‘chave chave’ na medida em que ela for
chave em um maior número de textos; por outro lado, palavras que são chave em menos
textos são menos ‘chave chave’. Elas são calculadas pelo programa KeyWords também,
mas exigem um conjunto de procedimentos diferentes por parte do usuário, necessitando
de um banco de dados de palavras-chave (key words database). As palavras-chave chave
podem ser úteis para:
• Identificar a temática de sub-conjuntos de textos, ou seja, especificar quais conjuntos
de textos contém quais palavras-chave em comum.
• Tornar a análise de palavras-chave mais sensível à distribuição das palavras nos textos.
213
O procedimento de palavras-chave ignora esse aspecto, e, dessa forma, uma palavra
pode ser chave devido à sua alta freqüência em um texto apenas, enquanto sua
freqüência nos demais textos não é distintiva o suficiente para lhe conferir o estatuto de
chave. Em outras palavras, as palavras-chave ajudam a classificar palavras-chave em
‘mais chave’ e ‘menos chave’.
Somente as palavras-chave positivas são levadas em conta para identificação das palavras-
chave chave.
É importante ressaltar que uma palavras-chave muito freqüente não é necessariamente uma
palavra-chave chave, pois sua freqüência pode ser resultado da ocorrência em poucos
textos (menos que o exigido pelo usuário).
8.9. Procedimentos básicos para feitura de lista de palavras-chave
Há três procedimentos básicos disponíveis no KeyWord: (1) criar uma lista apenas,
utilizando uma lista relativa ao corpus de estudo e uma ao corpus de referência; (2) criar
várias listas, usando diversas listas de corpora de estudo e uma única para corpus de
referência (‘batch’, ou lote); e (3) criar um arquivo de banco de dados (key words
database). Cada opção possui uma finalidade:
(1) Lista única. Permite identificar as palavras-chave de um único corpus de estudo.
(2) Listas em lote (‘batch’). Trata-se de um procedimento para produção de listas, não
de listas diferentes. As listas são idênticas à lista única, mas são produzidas
automaticamente pelo programa, em seqüência. Permitem identificar as palavras-
chave de vários corpora de estudo frente ao mesmo corpus de referência.
(3) Banco de dados. É um tipo de arquivo que engloba várias listas de palavras-chave.
Possui duas funções: (1) Ser um meio mais organizado de manter juntas várias
listas de palavras-chave relacionadas; para visualizar as várias listas individuais
que compõem o banco de dados, é preciso usar o comando Next list in .kdb, no
menu File. (2) Permitir identificar as palavras-chave chave de um conjunto de
corpora de estudo. As palavras-chave chave são provenientes da comparação de
vários corpora de estudo frente ao mesmo corpus de referência. A produção de um
banco de dados requer um processamento inicial por lote.
214
8.9.1. Como criar uma lista de palavras-chave apenas (de um arquivo ou
de vários)
(1) No Controller, clique em Tools e depois em KeyWords.
(2) Na janela do KeyWords, clique em Settings, Min Max Frequencies e faça os
ajustes pertinentes ou clique em OK nessa tela para aceitar os ajustes já existentes.
(3) Na janela do KeyWords, clique em File e depois em Start ou no botão .
(4) Na janela ‘Getting Started’, clique em ‘Find the key words in a text’, conforme
ilustra a figura abaixo:
(5) A tela seguinte pedirá a escolha de duas listas de palavras (.lst) já existentes,
conforme ilustra a figura abaixo. Se as listas não existirem, é preciso ir ao
WordList, criar e salvar as listas, antes de continuar.
215
(6) No espaço Word List 1, o analista deve escolher a sua lista de estudo (aquela que
tem interesse em analisar). No espaço Word List 2, deve selecionar a lista de
referência (aquela que possui as freqüências de referência, usadas para
comparação). A lista de referência (Word List 2) deve ser maior, em número de
types, do que a de estudo. Caso contrário, surgirá uma mensagem como a ilustrada
na figura abaixo. A recomendação é que a lista de referência seja cinco vezes, no
mínimo, maior do que a de estudo (Berber Sardinha, 2004).
216
(7) Se o usuário clicar em OK, o processamento continuará. Se quiser cessar o
processamento nesse ponto, é preciso usar as teclas Control, Alt e Del,
pressionadas juntas. Essa combinação de teclas faz parte do Windows, sendo usada
para fechar programas. Surgirá, então, uma tela, informando quais os programas
que estão em funcionamento. O usuário deverá selecionar KeyWords e clicar em
‘Finalizar Tarefa’. A figura abaixo ilustra essa tela.
(8) Surgirá mais uma tela de confirmação informando que o programa WordList teve
seu encerramento solicitado. O usuário deve então clicar em ‘Encerrar Tarefa’. O
programa WordList será encerrado e quaisquer listas não salvas serão perdidas.
Para reiniciar o processamento, o usuário deverá fechar o Controller, pois em seu
menu Tools, o programa WordList permanece selecionado e, portanto, não pode
ser reinicializado. A seguir, deverá iniciar o Controller novamente, escolher o
menu Tools e WordList e reiniciar os passos descritos aqui.
(9) Uma vez selecionadas as listas corretamente, o usuário deve clicar em OK na tela
de seleção de listas. Surgirá uma janela que mostra o andamento do processamento,
conforme ilustra a figura a seguir:
217
(10) Para interromper o processamento, é preciso usar as teclas Control, Alt e
Del, pressionadas juntas, e depois confirmar ‘Encerrar Tarefa’, conforme já
explicado acima, o que fechará o programa WordList por inteiro. Listas não salvas
serão perdidas.
(11) Se o andamento não for interrompido e houver diferenças significativas
entre as freqüências das palavras das duas listas, surgirá uma tela com o resultado
da comparação. Caso contrário, aparecerá uma tela informando que não há
palavras-chave, conforme ilustra a tela abaixo. Para encerrar essa mensagem, o
usuário deve clicar em OK.
(12) Se a análise detectar palavras-chave, o resultado aparece numa tela como a
reproduzida na figura abaixo. A porção da tela a seguir mostra algumas das
palavras-chave positivas, isto é, aquelas cujas freqüências são mais altas,
estatisticamente falando, no corpus de estudo do que no de referência. Como a lista
está ordenada por ordem de chavicidade (‘keyness’), as palavras localizadas no
início da lista mostram aquelas cujas freqüências são mais discrepantes em relação
ao corpus de referência. Por exemplo, ‘Mendonça’ é a palavra-chave mais
distintiva, pois sua freqüência corresponde a 2,44% do total de palavras (‘tokens’)
do corpus de estudo, contra menos do que 0,01% no corpus de referência; ela é,
assim, cerca de 250 vezes mais freqüente no corpus de estudo. Vale lembrar que as
células em branco nas colunas de freqüência indicam valores abaixo de 0,01.
218
(13) Na parte inferior da tela, aparecem as palavras-chave negativas, que são
aquelas cujas freqüências são mais altas, estatisticamente falando, no corpus de
referência. As palavras-chave negativas são identificadas na lista por sua cor
diferente (vermelho, no default). A figura a seguir ilustra parte dessa tela. A
palavra mais negativamente chave está localizada no final da lista. As palavra-
chave se tornam menos negativas à medida que se sobe na lista. Como se percebe,
a palavra-chave mais negativa é ‘de’, que ocorre o equivalente a 1,79% do total das
palavras no corpus de estudo, mas 4,84% no corpus de referência, ou seja, ela é
cerca de 2,5 vezes menos freqüente no corpus de estudo.
219
(14) A lista deve ser salva com o comando Save, no menu File, ou clicando no
botão . A lista será salva no formato nativo do programa KeyWords, com a
extensão .kws.
8.9.2. Como criar várias lista de palavras-chave ao mesmo tempo (‘batch’)
Este se trata de um procedimento para criação, em série, de várias listas de palavras-chave.
Essas listas são idênticas às comuns, que são produzidas uma a uma a partir de listas de
palavras individuais (e cujos passos estão descritos acima).
(1) No Controller, clique em Tools e depois em KeyWords.
(2) Na janela do KeyWords, clique em Settings, Min Max Frequencies e faça os
ajustes pertinentes ou clique em OK nessa tela para aceitar os ajustes já existentes.
(3) Clique em File e depois em New Batch of Key Word Lists.
(4) Surgirá uma janela de escolha das listas. Se as listas não existirem, é preciso ir ao
WordList, criar e salvar as listas, antes de continuar. No espaço Word List 1, o
analista deve escolher a sua lista de estudo (aquela que tem interesse em analisar).
No espaço Word List 2, deve selecionar a lista de referência (aquela que possui as
freqüências de referência, usadas para comparação). A lista de referência (Word
List 2) deve ser maior, em número de types, do que a de estudo. Caso contrário,
220
surgirá uma mensagem como a ilustrada na figura abaixo. A recomendação é que a
lista de referência seja cinco vezes, no mínimo, maior do que a de estudo (Berber
Sardinha, 1999). O usuário deve, então, clicar em OK, para iniciar o
processamento. Uma vez iniciado, será preciso usar as teclas Ctrl, Alt, Del,
simultaneamente, para interromper o andamento. Vide p. 216 para mais detalhes
sobre como interromper o uso do programa dessa maneira.
A próxima janela permite fazer processamento por lote (batch of files). No espaço
superior, aparece a pasta onde o banco de dados será salvo. Lá aparece
automaticamente o endereço default, especificado no menu Settings / Directories.
Os ajustes de tipo de nomeação instruem o programa sobre como nomear o arquivo
de banco de dados. A opção ‘based on original filename’ faz com que o programa
nomeie os arquivos .kws com um nome derivado dos textos usados na lista de
palavras (.lst). Por exemplo, se um texto chamado meutexto.txt foi usado para criar
a lista de palavras estudo.lst, a opção ‘based on original filename’ faria com que o a
lista de palavras-chave fosse chamada meutext1.kws ou algo parecido. Ou seja, o
arquivo não recebe um nome derivado do nome dado à lista de palavras (que seria
algo como estudo.kws). A outra opção da janela, ‘use mask’, dá um nome genérico
para o arquivo .kws, que começa com os caracteres especificados no campo logo
abaixo a essa opção (o máximo são quatro caracteres-base). O default é ‘kw’,
portanto, a lista de palavras-chave é chamada de kw000001.kws, caso não haja
nenhum outro arquivo com esse nome já salvo na pasta; se houver, o nome passará
para kw000002.kws, e assim por diante. É possível alterar o nome das listas depois
de criadas, usando o comando de renomear arquivo no Windows Explorer. Estes
detalhes da nomeação dos arquivos são importantes porque as listas não são abertas
automaticamente ao término do processamento. Dessa forma, o usuário deverá
encontrar as listas nas pastas. Se ele não souber como o programa nomeou as listas
(embora o nome delas seja mostrado na janela de finalização de procedimento –
vide passo abaixo), poderá não encontrar as listas que deseja. A figura a seguir
ilustra essa janela.
221
(5) Uma vez terminado o processamento, aparece uma janela de confirmação,
mostrando os nomes dos arquivos criado. Os arquivos de palavras-chave recebem a
terminação .kws por default. Para continuar é preciso clicar em OK. Ao lado desse
botão, aparece um número que indica a quantidade de listas produzidas. No
exemplo apresentado aqui, foram duas listas; portanto, aparece o número 2,
conforme mostra a figura abaixo.
222
(6) Está encerrada a feitura das listas de palavras-chave em lote. Os arquivos não são
abertos automaticamente, por isso o usuário deve usar o comando Open Key Word
List, no menu File, para vê-las. Se o usuário desejar abri-las, a aparência da lista
será idêntica à da lista de palavras-chave comum.
8.9.3. Como criar uma lista de palavras-chave chave (‘database’)
A criação de uma lista de palavras-chave chave requer a produção de um arquivo de banco
de dados (database), que é descrito abaixo.
(1) No Controller, clique em Tools, KeyWords.
(2) No KeyWords, clique em Settings, Min Max Frequencies e faça os ajustes
pertinentes ou clique em OK nessa tela para aceitar os ajustes já existentes.
(3) Clique no menu File, Create a New Database.
(4) Surgirá a janela de escolha de listas de palavra (choose word lists). No espaço à
esquerda, selecione pelo menos duas listas referentes a corpora de estudo. Para
selecionar a primeira lista, simplesmente clique nela; para selecionar as demais,
segure a tecla ‘Control’ e clique no nome da lista. Para selecionar uma seqüência
de listas, clique na primeira, segure a tecla ‘Shift’ e clique na última. Para
desmarcar a seleção de uma lista, segure a tecla Control e clique na lista. No espaço
à direita, selecione apenas uma lista referente ao corpus de referência. Depois,
clique em OK para continuar. A figura a seguir ilustra este passo.
223
(5) Surgirá a janela que permite fazer processamento por lote (batch of files), ilustrada
na figura a seguir. Na verdade, o programa fará um processamento por batch mas
salvará os arquivos de lista de palavras todos num arquivo só (com extensão .kdb).
Esse mega-arquivo, por assim dizer, é o banco de dados (key words database).
Nessa janela, portanto, a providência mais importante que o usuário deve tomar é
marcar a caixinha ‘store in a database’. No espaço superior, aparece a pasta onde o
banco de dados será salvo. Lá aparece automaticamente o endereço default,
especificado no menu Settings / Directories. Os ajustes de tipo de nomeação
instruem o programa sobre como nomear o arquivo de banco de dados. A opção
‘based on original filename’ faz com que o programa nomeie o arquivo .kdb com
um nome derivado dos textos usados na lista de palavras (.lst). Por exemplo, se um
texto chamado meutexto.txt foi usado para criar a lista de palavras estudo.lst, a
opção ‘based on original filename’ faria com que o arquivo de banco de dados
fosse chamado meutex01.kdb ou algo parecido. Ou seja, o arquivo não recebe um
224
nome derivado do nome dado à lista de palavras (que seria algo como estudo.kdb).
A outra opção da janela, ‘use mask’, dá um nome genérico para o arquivo .kdb, que
começa com os caracteres especificados no campo logo abaixo a essa opção. O
default é ‘kw’, portanto, o arquivo de banco de dados é chamado de
kw000001.kdb, caso não haja nenhum outro arquivo com esse nome já salvo na
pasta; se houver, o nome passará para kw000002.kdb, e assim por diante. É
possível alterar o nome das listas depois de criadas, usando o comando de
renomear arquivo no Windows Explorer.
(6) Uma vez terminado o processamento, aparece uma janela de confirmação,
mostrando o nome do arquivo criado. O arquivo de banco de dados, conforme dito
acima, recebe a terminação .kdb por default. Para continuar é preciso clicar em OK.
Ao lado desse botão, aparece um número que indica a quantidade de listas
incluídas no arquivo .kdb. No exemplo apresentado aqui, foram duas listas;
portanto, aparece o número 2, conforme mostra a figura abaixo.
225
(7) Está encerrado o processamento do arquivo de banco de dados, que agrupa as
palavras-chave chave. O arquivo não é aberto automaticamente, por isso o usuário
deve usar o comando Open Database, no menu File, para inspecioná-lo.
8.10. O corpus de referência
As palavras-chave são identificadas por meio da comparação de freqüências entre um
corpus de estudo (que o usuário deseja analisar) e um corpus de referência. Desse modo, o
corpus de referência desempenha um papel fundamental no resultado da análise. Não há
palavras-chave absolutas: elas são sempre relativas ao corpus de referência empregado.
Duas análises com o mesmo corpus de estudo, usando dois corpora de referência
diferentes, mostrarão resultados distintos.
Não há regras sobre qual o corpus de referência correto. A responsabilidade é do analista
em utilizar um corpus que seja apropriado. Os corpora de referência normalmente
utilizados possuem algumas características em comum, discutidas abaixo.
Os corpora de referência são maiores do que o corpus de estudo. O corpus de referência
deve ser, obrigatoriamente, maior do que o de estudo, caso contrário o programa emite um
aviso (‘... is bigger than the reference corpus file’). O corpus de referência deve ser maior
em relação ao número de types (itens diferentes, vocábulos ou formas), mas como
226
geralmente um número maior de types advém de um número maior de tokens (total de
palavras, ou running words), os corpora de referência também são maiores do que o de
referência em relação à quantidade de tokens. O corpus de referência deve ser maior, em
primeiro lugar, porque sua função é a de representar as freqüências da língua de um modo
geral. Em segundo lugar, deve ser maior a fim de garantir que o maior número de palavras
do corpus de estudo esteja representada no corpus de referência, o que permite a
comparação das freqüências, caso contrário as freqüências não existiriam para serem
comparadas!
Os corpora de referência são muitas vezes de grandes proporções. Geralmente usa-se
corpora de grande extensão como referência. Para o inglês, muitas vezes é usado o BNC,
com 100 milhões de palavras, ou uma coletânea de textos do jornal britânico ‘The
Guardian’ com mais de 90 milhões de palavras. Ambas as listas estão disponibilizadas no
site do autor do programa WordSmith Tools, Mike Scott, em www.liv.ac.uk/ ~ms2928/ .
Para o português do Brasil, pode ser usado o Banco de Português, com mais de 200
milhões de palavras, advindo do projeto DIRECT (CEPRIL, LAEL, Pontifícia
Universidade Católica de São Paulo), disponível pelo site http://lael.pucsp.br/ lael .
Apesar dessa preferência em usar corpora de referência com mais de 100 milhões de
palavras, o corpus de referência não precisa ser tão maior do que o de estudo; algo em
torno de cinco vezes o tamanho do corpus de estudo já é o suficiente (Berber Sardinha,
1999).
O corpus de referência não deve conter o corpus de estudo, porque senão, de certo modo,
estaria sendo feita uma comparação do corpus de estudo consigo mesmo. Além disso, se o
corpus de estudo estiver contido no de referência, as freqüências do corpus ‘inflacionam’
as freqüências do corpus de referência: devido à soma das freqüências, algumas
freqüências salientes no corpus de estudo podem se obscurecer, e portanto, deixar de
indicar palavras-chave. Por exemplo, se no corpus de estudo a palavra ‘banana’ tiver
freqüência 10 e, no corpus de referência, possuir freqüência 1, a diferença será grande
(‘banana’ é dez vezes maior no corpus de estudo) e possivelmente significativa, ou seja, a
palavra ‘casa’ tem chances de ser chave. Mas, se adicionarmos o corpus de estudo ao de
referência, as freqüências passariam a ser 10 no corpus de estudo e 11 no de referência, ou
seja, um diferença de apenas 1, o que diminui as chances de ‘banana’ ser chave.
Quanto à sua composição, não há corpus de referência certo ou errado. Vale o conselho
227
presente na Ajuda do programa WordSmith Tools:
‘Compare apples with pears, or, better still, Coxes with Granny Smiths. So choose your
reference corpus in some principled way. The computer is not intelligent and will try to do
whatever comparisons you ask it to, so it's up to you to use human intelligence and avoid
comparing apples with phone boxes!’
A composição do corpus de referência influencia os tipos de palavra que podem se tornar
chave. Um corpus de características genéricas semelhantes ao corpus de estudo tende a
‘filtrar’, ou seja, eliminar, os elementos genéricos (i.e. relativos a um mesmo gênero) em
comum, resultando em uma lista de palavras-chave que não inclui estes elementos. Alguns
traços lingüísticos que podem vir a ser filtrados são, entre outros, marcadores discursivos
privilegiados, escolhas lexicais típicas, e formas verbais flexionadas em comum. Por
exemplo, se for feita a comparação entre um corpus de estudo de artigos de pesquisa
acadêmicos de medicina e um corpus de referência do mesmo tipo, pode se esperar que
palavras como ‘resultados’, ‘análise’, ‘sugerem’ não se tornem chave. Já um corpus de
referência de um gênero distinto do de estudo tende a não excluir tais palavras ‘genéricas’.
Por isso, um corpus de referência geral, que inclua vários gêneros, é tida como a escolha
não-marcada para estudos de palavras-chave.
Para se ter uma idéia do tipo de filtragem que pode vir a ocorrer nas palavras-chave, pode-
se utilizar um quadro semelhante ao mostrado abaixo.
1 2 3 4 Característica Corpus de
estudo Corpus de referência Resultado
Na coluna 2, deve-se colocar as características referentes ao corpus de estudo, um por
linha. Faz-se o mesmo com o corpus de referência, na coluna 3. As características que
coincidirem, entre as duas colunas, podem promover filtragem entre as palavras-chave. Por
outro lado, as características que diferirem, entre os dois corpora, tendem a se manter entre
as palavras-chave na forma que aparecem no corpus de estudo. Ou seja, a característica
referente ao corpus de estudo se mantém. O quadro a seguir ilustra uma situação hipotética
de comparação de dois corpora:
1 2 3 4
228
Característica Corpus de estudo Corpus de referência
Resultado
Modo Falado Escrito Traço retido: Linguagem falada
Gênero Aulas de inglês Jornais Traço retido: Gênero aula de inglês
Assunto Vários Vários Traço filtrado: Assuntos variados em comum
Período Contemporâneo Contemporâneo Traço filtrado: Tópicos em comum relativos ao cotidiano
Tendo em vista as características retidas, mostradas acima na coluna ‘Resultados’,
podemos supor que as palavras-chave resultantes indicariam:
• Traços da linguagem falada
• Traços do gênero ‘aula de inglês’
8.11. A janela Getting Started
Esta janela surge assim que o usuário clica em Start (no menu File / Start) ou no botão
‘Start’. Ela contém apenas um botão, que diz Find the Key Words in a Text, ao contrário
das demais ferramentas (Concord e WordList), em que Getting Started propicia atalhos aos
comandos principais do programa. A diferença resulta do fato de que o KeyWords
compara listas já produzidas pelos WordList; sendo assim, os ajustes devem ser feitos para
a produção das listas, no WordList e não no KeyWords.
Abaixo aparece uma figura que a ilustra.
229
8.12. A janela do KeyWords
As principais janelas do programa KeyWords são: (a) a de palavras-chave e (b) a de
palavras-chave chave (database).
8.12.1. A janela da lista de palavras-chave
A figura abaixo ilustra uma janela do programa KeyWords, com palavras-chave:
Os elementos dessa tela são:
230
Word: palavra-chave.
Freq.: (primeiro da esquerda para a direita) Freqüência da palavra-chave no corpus de
estudo.
(nome dos textos) %: (primeiro da esquerda para a direita) porcentagem da freqüência da
palavra-chave, referente ao total de tokens do corpus de estudo.
Freq.: (segundo da esquerda para a direita) Freqüência da palavra-chave no corpus de
estudo.
(nome dos textos) %: (segundo da esquerda para a direita) porcentagem da freqüência da
palavra-chave, referente ao total de tokens do corpus de referência.
Keyness: resultado da estatística de comparação (qui-quadrado ou log-likelihood).
P: valor da estatística p, que indica o grau de significância da estatística de comparação.
As células de porcentagem que estiverem em branco indicam valores abaixo de 0,01, que é
o mínimo exibido.
Valores menores significam maior significância. O máximo geralmente aceitável é 0,05.
Para palavras-chave, o default de p máximo é 0,000001, isto é, diferenças com valor de p
maior não são consideradas chave. Esse valor pode ser alterado a partir do WordList na
opção Max p value, no menu Settings, Min & Max Frequencies, guia KeyWords.
As células de porcentagem que estiverem em branco indicam valores abaixo de 0,01, que é
o mínimo exibido.
A lista é apresentada com ordenação pela coluna Keyness. Desse modo, as palavra-chave
positivas que possuem freqüências mais discrepantes são colocadas no topo da lista. As
que possuem freqüências menos diferentes aparecem perto do final da lista. As negativas
aparecem no final da lista. As negativas são ordenadas por keyness em ordem inversa, ou
seja, a última é a que possui a freqüência mais discrepante (a freqüência no corpus de
referência é marcadamente mais alta do que no corpus de estudo).
É importante atentar para o fato de que a diferença entre as freqüências deve ser procurada
olhando-se para as colunas de porcentagem de freqüência e não para as colunas de
231
freqüência absoluta. Isso porque os corpora de estudo e de referência são, por definição, de
extensão diferente. Desse modo, as diferenças de freqüência entre eles não indicam,
necessariamente, freqüências discrepantes o bastante para serem consideradas indicativas
de palavras-chave. A coluna de porcentagem permite uma visão melhor dessas diferenças,
pois relativiza as freqüências.
No exemplo acima, a palavra ‘Né’ é a mais chave, pois possui uma freqüência de 2,06%
no corpus de estudo e 0,03% no corpus de referência. Daí o seu valor de p tão expressivo
(0,000000). Descendo para o final da lista, o resultado é o seguinte:
Nota-se que as palavras-chave negativas surgem a partir do número 66, com a palavra
‘Inint’, que não aparece no corpus de estudo (freqüência zero), mas ocorre 10374 vezes no
de referência (0,33%). A palavra-chave mais negativa é a que está na posição 77: ‘F’, com
freqüência 0 no corpus de estudo e 45285 (1,44%) no de referência.
8.12.2. A janela da lista de palavras-chave chave (‘database’)
A figura abaixo ilustra uma janela do programa KeyWords, com palavras-chave chave
(‘database’):
232
As colunas constantes nessa tela são:
Word: A palavra-chave chave.
Of 2: Em quantos textos (arquivos) a palavra é chave. O número logo após ‘of’ indica a
quantidade total de arquivos usados nesse banco de dados (database) e é, portanto,
variável. Um banco de dados formado por dez textos teria uma tela onde nesta coluna
apareceria ‘Of 10’.
As %: Porcentagem do total de arquivos em que a palavra é chave. Por exemplo, a palavra
‘Roberto’ é chave em todos (isto é, em 2 dos 2) textos que compõem o banco de dados, por
isso é sinalizado com ‘100’ nessa coluna, significando 100%.
8.12.3. Os menus
Os menus do programa KeyWords são apresentados abaixo. Eles valem tanto para a lista
de palavras-chave quanto para a de palavras-chave chave.
8.12.3.1.File
As opções do menu File são descritas abaixo.
8.12.3.1.1.Start
Inicia a preparação de listas de palavras-chave individuais (isto é, não em lote – ‘batch’). É
233
equivalente ao botão .
8.12.3.1.2.New batch of key word lists
Inicia a preparação de listas de palavras-chave em lote (‘batch’). Vide p. 219.
8.12.3.1.3.Open key word lists
Abre uma lista de palavras-chave.
8.12.3.1.4.Find
Efetua busca de palavras em listas de palavras-chave (.kws, não .kdb). As palavras de
busca são especificados na janela reproduzida abaixo.
É possível perceber que a janela surge truncada. O botão OK, que inicia a pesquisa, não
aparece totalmente visível. O usuário deve abrir a janela para ter acesso a esse botão. A
janela já aberta aparece na figura abaixo. Nos campos ‘search words’, o usuário deve
digitar as palavras que quer encontrar nas listas. Se preencher mais de um campo, o
programa interpreta que ambas as palavras devem estar presentes (relação ‘e’); se um
arquivo contiver apenas uma delas (relação ‘ou’), esse arquivo é desconsiderado. Depois
de digitar a(s) palavra(s) que deseja, basta clicar em OK. O resultado é mostrado como na
janela reproduzida abaixo.
234
No espaço ‘Results’, são indicados os arquivos que contém a(s) palavra(s). O número em
parênteses significa a freqüência da última palavra digitada; se apenas uma palavra for
digitada, a freqüência será referente a essa palavra. No caso acima, o valor ‘(259)’ indica
que ‘até’ possui 259 ocorrências. Esse comando não distingue letras maiúsculas de
minúsculas; as palavras aparecem digitadas automaticamente em letra maiúscula. Além
disso, o resultado mostrado não distingue palavras-chave positivas de negativas. A
freqüência mostrada pode ser relativa a uma palavra-chave de qualquer um dos dois tipos.
8.12.3.1.5.Next list in .kdb
Permite abrir as listas individuais de um banco de dados (arquivo .kdb). Este comando
somente está ativo quando há um arquivo de palavras-chave chave (extensão .kdb) aberto
(por meio do menu File / Database); nas demais ocasiões, ele permanece cinza
(inoperante). Este comando traz uma janela que dá acesso à abertura das listas que fazem
parte do banco de dados, conforme ilustra a figura abaixo:
235
O usuário deve clicar no número que deseja, depois em OK e a lista se abrirá. Para abrir as
demais, é preciso acionar o comando Next List in .kdb novamente. A lista aberta possui o
formato de uma lista de palavras-chave comum (.kws), não o de um banco de dados.
8.12.3.1.6.New database
Abre a tela de seleção de arquivos para a produção de um novo arquivo de banco de dados
(.kdb).
8.12.3.1.7.Open database
Aciona a janela de abertura de arquivos de banco de dados. A janela é do tipo padrão do
Windows, com um espaço para seleção de pastas e outro para a escolha dos arquivos.
8.12.3.1.8.Merge two databases
Opção não implementada no programa. Emite um mensagem de aviso.
8.12.3.1.9.Print
Abre uma pequena janela de visualização da impressão. Nessa tela, no topo, encontram-se
botões de zoom e de envio do arquivo para a impressora. Somente funciona com uma lista
aberta.
8.12.3.1.10.Save
Permite salvar uma lista ou arquivo de banco de dados (database) num arquivo. O nome do
arquivo não deve ultrapassar oito caracteres, seguido de uma extensão de no máxima três
236
caracteres. A extensão padrão da lista comum é .kws e do arquivo de banco de dados é
.kdb.
8.12.3.1.11.Save As
Opção usada para salvar uma lista ou arquivo de banco de dados já salva com um nome
diferente.
8.12.3.1.12.Save as Text
Faz com que a lista seja salva num arquivo-texto. A tela correspondente pede que o
usuário especifique um nome para o arquivo, além de permitir fazer ajustes no tipo de
informação que é gravado no arquivo. Pressionando OK faz com que o arquivo seja
gravado. As opções dessa tela são:
Header: Linha de cabeçalho que ficará no topo do arquivo. A mensagem padrão, contendo
a data e hora do salvamento da lista, aparece automaticamente. O usuário pode digitar o
que quiser lá. Caso não deseje um cabeçalho, basta apagar a informação do campo.
Footer: Linha de rodapé. Não há um rodapé pré-formatado. Deixar em branco esse campo
faz com que o programa não insira nenhum rodapé.
Number each line: Se marcado, faz com que cada linha da lista seja numerdada,
seqüencialmente.
Column separator: Caracter que faz a separação entre as colunas de informação da lista.
Tab: caracter de tabulação (é o default). Specify: o usuário pode especificar um caracter
ali, digitando-o.
Rows to save: linhas a serem salvas no arquivo. All: todas. Any highlighted: Somente as
linhas selecionadas (com o mouse ou tecla shift conjuntamente com tecla de seta, para
cima ou para baixo). Specify: número das linhas da lista a serem salvas.
Rows to save: colunas a serem salvas no arquivo. All: todas. Any highlighted: Somente as
colunas selecionadas (com o mouse ou tecla shift conjuntamente com tecla de seta, para
esquerda ou para direita). Specify: número das colunas da lista a serem salvas (zero é a
coluna ‘N’).
237
8.12.3.1.13.Copy
Abre uma janela que permite que o conteúdo da lista seja copiado para um destes destinos:
(a) clipboard, (b) arquivo-texto (text file), (c) impressora (printer), (d) arquivo lst (lst file),
conforme mostra a tela abaixo.
A opção ‘clipboard’ faz com que a lista seja enviada para o clipboard (‘área de
transferência’) do Windows. Desse modo, o conteúdo pode ser colado, por exemplo, em
um arquivo do Word. É a opção mais flexível, mas ao mesmo tempo deve ser evitada caso
o tamanho da lista seja grande (tamanho grande é relativo ao hardware), pois a máquina
pode travar. A opção ‘text file’ funciona do mesmo modo que ‘Save as Text’, explicado
acima, enquanto ‘printer’ faz a mesma operação que o comando ‘Print’, e ‘kws file’, a
mesma que ‘Save’. As opções em ‘What data’ referem-se à porção da lista que será
copiada: ‘all’ copia tudo, ‘selected’ copia somente a porção previamente escolhida com o
mouse (ou tecla shift mais teclas de seta). ‘Let me specify’ não está ativo (permanece em
cor cinza).
8.12.3.1.14.Exit
Finaliza o programa. Faz uma série de perguntas antes de encerrar-se.
8.12.3.1.15.No-check Exit
Finaliza o programa bruscamente, sem fazer perguntas.
238
8.12.3.2.Settings
As opções do menu Settings são descritas abaixo.
8.12.3.2.1.Colours.
Permite mudar as cores das janelas da lista.
8.12.3.2.2.Directories.
Remete a uma janela onde se pode especificar os diretórios default usados pelo programa
para escolher textos (‘Texts’) e para salvar e abrir concordâncias (‘Concord’), listas de
palavras-chave (‘KeyWords’) e listas de palavra (‘WordList’). É aconselhável não alterar
esses diretórios. Pode ser útil modificá-los temporariamente caso o usuário deseje trabalhar
por algum tempo com pastas diferentes, o que economizará tempo para acessar as pastas.
8.12.3.2.3.Font.
Remete à guia ‘General’ do menu ‘Settings’, que serve para especificar aspectos
relacionados à fonte e a outros tipos de ajuste.
8.12.3.2.4.Min & Max Frequencies
Nessa tela são feitos os ajustes relativos a critérios de preparação das listas e de execução
do teste estatístico que determina as palavras-chave. A tela é reproduzida abaixo.
239
Chi-square e Log-likelihood
As opções ‘chi-square’ (qui-quadrado) e ‘log-likelihood14’ se referem aos cálculos
estatísticos que fazem as comparações de freqüências de cada palavra nas listas de palavras
relativas ao corpus de estudo e ao de referência.
A estatística log-likelihood, também chamado de G2, é calculada por meio da preparação
de uma tabela (‘contingency table’) de valores observados, como a apresentada abaixo15,
para cada palavra que se encontra nos dois corpora (de estudo e de referência, o corpus de
estudo pode ser o 1 ou o 2).
Estudo Referência Total Freqüência da palavra a b a+b Freqüência das demais c-a d-b c+d-a-b
14 Pode ser traduzido como ‘log-verossimilhança’.
15 Paul Rayson, em http://ucrel.lancs.ac.uk/llwizard.html
240
palavras no corpus Total c d c+d
A seguir, são calculadas as chamadas freqüências esperadas (‘expected frequencies’), que
representam os valores que seriam obtidos caso não houvesse diferença entre as
freqüências. Esses valores esperados também compõem uma tabela, mostrada abaixo.
Estudo Referência Freqüência esperada da palavra Ea Eb
Para calcular o valor Ea (a freqüência esperada de ‘a’), o cálculo é o seguinte:
Ea = c*(a+b) / (c+d)
Para calcular o valor Eb (a freqüência esperada de ‘b’), o cálculo é o seguinte:
Eb = d*(a+b) / (c+d)
Esses valores das freqüências observadas e esperadas, bem como o tamanho dos corpora,
devem ser transpostos para a fórmula de cálculo de log-likelihood, que é a seguinte:
Essa fórmula pode ser re-escrita da seguinte maneira:
G2 = 2*((a*ln (a/E1)) + (b*ln (b/E2)))
Onde ln significa o logaritmo natural.
Para ilustrar, tomemos os seguintes dados:
Corpus de estudo Corpus de referência Freqüência da palavra ‘banana’
125 100.000
Tamanho dos corpora 10.000 10.000.000
Em termos de porcentagem do total do corpus, temos:
241
Corpus de estudo
Corpus de referência
Porcentagem da freqüência da palavra ‘banana’ em relação ao tamanho do corpus
1,25% 1%
Transpondo esses números para a tabela completa, chegamos a:
Estudo Referência Total Freqüência de ‘banana’ 125 100.000 100.125 Freqüência das demais palavras no corpus 9875 9.900.000 9.909.875
Total 10.000 10.000.000 10.010.000
Aplicando a fórmula, obtemos:
G2 = 5,83
O próximo passo consiste em saber se o valor de G2 = 5,83 indica uma diferença de
freqüência estatisticamente significativa ou não. Se indicar, então a palavra é chave; caso
contrário, não é. Os valores de significância indicam os níveis de probabilidade de que as
diferenças entre as freqüências poderiam ter acontecido por acaso. A significância
estatística é indicada por meio da letra p. Quanto menor o valor de p, mais significante é a
diferença. O valor máximo de p normalmente adotado é 0,05. Esse valor significa que a
probabilidade é de uma chance em 20 (1/20=0,05) de os resultados terem sido obtidos por
acaso; com p = 0,01, a probabilidade é de 1 em 100, com p = 0,001 de uma de 1.000, e
assim em diante. Na comparação de palavras-chave, o valor de p adotado é bem menor do
que p = 0,05, porque as diferenças de freqüência entre o corpus de estudo e o de referência
são geralmente expressivas, já que o corpus de referência deve, por definição, ser maior do
que o de estudo. Normalmente, o valor escolhido está entre 0,000001 e 0,000000001.
Quanto menor o valor, maior a diferença entre as freqüências deverá ser para que a palavra
se torne chave.
Para saber se o resultado de G2 indica uma diferença significativa entre as freqüências, é
preciso consultar uma tabela de valores críticos (mínimos) de significância estatística para
esse teste. Alguns valores críticos importantes para o tipo de tabela mostrado acima são:
Valor de G2 Significância Menor que 3,8 Não significante (isto é, p > 0,05)
242
Entre 3,8 e menor que 6,6 Significante (p < 0,05) Maior ou igual a 6,6 Significante (p < 0,01)
O valor de G2 = 5,83 está entre 3,8 e 6,6 e, portanto, é significante (p < 0,05). Ou seja,
‘banana’ é uma palavra-chave desse corpus.
Contudo, seguindo o raciocínio exposto acima, o valor de significância deve ser menor do
que 0,05 em análise de palavras-chave, para que sejam escolhidas palavras cujas
freqüências demonstrem diferenças realmente marcantes. Assim, a palavra ‘banana’
poderia não fazer parte da lista palavras-chave, porque:
• Caso o valor máximo de p escolhido para a análise (no próprio menu ‘Min & Max
Frequencies’, no campo ‘max p. value’) fosse menor (digamos 0,000001), ‘banana’
não seria considerada chave.
• Se o valor de G2 obtido por ela não a colocasse entre as aquelas possíveis diante da
quantidade máxima estabelecida no campo ‘max wanted’, a palavra não seria incluída
na lista. Por exemplo, se ‘max wanted’ fosse 500 e existissem outras 1000 palavras
com G2 maior, ‘banana’ estaria fora da lista de palavras-chave.
• Mesmo que o valor de p estivesse em 0,05 (o máximo possível) e ‘max wanted’ desse
conta da posição em que ‘banana’ se encontra, uma lista ordenada por ‘keyness’ (isto
é, pelo resultado do teste estatístico) não exibiria a palavra ‘banana’ entre as primeiras
da lista.
O programa KeyWords exibe tanto as freqüências observadas quanto as porcentagens das
palavras-chave. Desse modo, o analista pode ter uma idéia da freqüência relativa das
palavras em relação ao corpus, evitando um erro de julgamento que poderia acontecer caso
se detivesse nas freqüências absolutas. Por exemplo, no caso acima, a palavra ‘banana’
possuía freqüência de 125 em um corpus e de 100 mil em outro; essas freqüências por si só
dão a impressão de que ‘banana’ é muito mais freqüente no corpus de estudo (100 mil), o
que não faz dela uma palavra-chave positiva. O analista poderia até ser levado a pensar
que ela poderia ser palavra-chave negativa, visto que sua freqüência no corpus de estudo é
bem maior. Mas, quando levamos em conta a freqüência da palavra e quanto isso
representa em termos do tamanho do corpus (em tokens), conforme mostram as
freqüências em porcentagem, percebemos que a palavra ‘banana’ possui freqüência
243
parecida nos dois corpora (1,25% versus 1%).
Por exemplo, tomemos o caso abaixo:
Estudo Referência Freqüência de ‘banana’ 2965 1.152.203 Tamanho do corpus (tokens) 592.860 230.460.560
% da freqüência em relação ao tamanho do corpus (tokens)
0,5% 0,5%
Nesse caso, as freqüências de ocorrência são muito diferentes, mas representam a mesma
porcentagem em ambos os corpora: 0,5%. Sendo assim, a palavra não é chave. O valor de
G2 resultante é zero (p não significante).
Para o cálculo do qui-quadrado (χ2), os dados são dispostos no mesmo tipo de tabela com
os valores observados, conforme mostrado acima (p. 241). Também são calculados os
valores esperados, mas desta vez para a tabela inteira:
Corpus 1 Corpus 2 Freqüência esperada da palavra Ea Eb
Freqüência esperada das demais palavras no corpus E(c-a) E(d-b)
Para calcular os valores de E(c-a) (a freqüência esperada de ‘c-a’) e de E(d-b) (a
freqüência esperada de ‘d-b’), os cálculos são os seguintes:
E(d-b)=d*(c+d-a-b)/ c+d
E(c-a)=c*(c+d-a-b)/ c+d
A seguir, são calculadas as diferenças entre as freqüências observadas e os esperadas para
cada valor da tabela usando a fórmula abaixo:
(Valor observado – valor esperado)2 / valor esperado
Assim, para o cálculo dessa diferença para o valor ‘a’ da tabela, temos:
244
(a-Ea) 2 / Ea
e para b:
(b-Eb) 2 / Eb
e assim por diante.
Depois, são somadas as diferenças das quatro células da tabela. O resultado é o valor do
qui-quadrado. Desse modo, temos a tabela abaixo como referência:
Corpus 1 Corpus 2 Diferença entre a freqüência observada e a esperada da palavra
W X
Diferença entre a freqüência observada e a esperada das demais palavras no corpus
Y Z
Qui-quadrado será então:
W + X + Y + Z
Ou, em notação matemática:
!"
=E
EO2
2 )(#
O valor de qui-quadrado deve então ser comparado a uma tabela de valores críticos
específica, do mesmo modo que o log-likelihood:
Valor de χ2 Significância Menor que 5,99 Não significante (isto é, p > 0,05) Entre 5,99 e menor que 9,21 Significante (p < 0,05) Maior ou igual a 9,21 Significante (p < 0,01)
Tomando o exemplo acerca da palavra ‘banana’ mostrado acima, o resultado da estatística
qui-quadrado seria:
χ2 = 6,31
245
que é significante no nível de p < 0,05. Esse valor é idêntico ao obtido com log-likelihood.
Como se percebe pela exposição acima, os dois testes operam com o mesmo princípio:
comparam as freqüências observadas no corpus com as freqüências esperadas. Contudo,
nem por isso os resultados são idênticos, usando um método ou outro. Para ilustrar, abaixo
aparecem os resultados referentes às 20 primeiras palavras-chave de uma lista ordenada
por ‘keyness’, usando a opção log-likelihood (lembrando que as células em branco
indicam valores abaixo de 0,01):
N WORD FREQ. ESTUDO.LST FREQ. REFER.LST KEYNESS P 1 DÓLARES 730 0,12 16.312 2766,3 0,000000 2 VEJA 628 0,11 20.863 1925,6 0,000000 3 COPYRIGHT 196 0,03 385 1597,7 0,000000 4 VINTE 293 0,05 4.963 1260,3 0,000000 5 SE 6.064 1,02 1.459.885 0,63 1199,4 0,000000 6 RESERVADOS 190 0,03 1.179 1170,2 0,000000 7 UM 7.158 1,21 1.903.447 0,83 918,8 0,000000 8 QUARENTA 161 0,03 1.832 811,5 0,000000 9 ANOS 1.890 0,32 377.564 0,16 678,2 0,000000 10 NUM 686 0,12 81.781 0,04 668,0 0,000000 11 TRINTA 166 0,03 3.567 640,9 0,000000 12 NOVECENTOS 104 0,02 697 625,9 0,000000 13 UMA 5.528 0,93 1.511.965 0,66 612,4 0,000000 14 QUINZE 146 0,02 2.652 609,0 0,000000 15 NUMA 573 0,1 65.526 0,03 591,1 0,000000 16 QUILÔMETROS 209 0,04 9.631 519,5 0,000000 17 SETENTA 94 0,02 1.001 485,4 0,000000 18 NÄO 52 54 473,8 0,000000 19 SESSENTA 93 0,02 1.173 451,0 0,000000 20 REAIS 240 0,04 15.839 450,2 0,000000
A seguir aparecem as 20 primeiras palavras-chave, usando os mesmos corpora, retiradas
com a estatística qui-quadrado:
N WORD FREQ. ESTUDO.LST FREQ. REFER.LST KEYNESS P 1 COPYRIGHT 196 0,03 385 25.313,10 0,000000 2 DÓLARES 730 0,12 16.312 10.783,20 0,000000 3 RESERVADOS 190 0,03 1.179 9.872,80 0,000000 4 NÄO 52 54 9.674 0,000000 5 VEJA 628 0,11 20.863 5.956,50 0,000000 6 VINTE 293 0,05 4.963 5.787,40 0,000000 7 FORCAS 34 47 5.347 0,000000 8 MILHÖES 28 28 5.222 0,000000
246
9 NOVECENTOS 104 0,02 697 5.020,00 0,000000 10 QUARENTA 161 0,03 1.832 4.733,70 0,000000 11 EVELYNE 30 43 4.599 0,000000 12 VISAO 32 53 4.498,20 0,000000 13 CINCOENTA 32 55 4.393 0,000000 14 GORBACHEV 36 77 4.287 0,000000 15 SÄO 22 23 3.971 0,000000 16 CROSSAN 20 22 3.499 0,000000 17 PINTASSILGO 27 56 3.253 0,000000 18 BONAB 17 17 3.095,70 0,000000 19 PODERA 19 24 3.073 0,000000 20 VILINHA 18 21 3.033 0,000000
Comparando as duas listas, o resultado é o seguinte:
Ocorrem* em ambas as listas 8 40% Ocorrem em apenas uma das listas 12 60% Total 20 100%
* Os números referem-se à contagem de itens (‘types’)
As oito palavras que acontecem em ambas as listas são:
COPYRIGHT DÓLARES NÄO NOVECENTOS QUARENTA RESERVADOS VEJA VINTE
Todas as demais palavras são exclusivas de um ou outro método.
Esses resultados sugerem que os dois testes produzem listas razoavelmente diferentes, pelo
menos entre as palavras-chave mais distintivas (entre as 20 primeiras), já que menos da
metade das palavras-chave extraídas por qualquer um dos métodos é semelhante às
extraídas pelo outro método. A razão disso parece estar relacionada à freqüência das
palavras selecionadas como chave por cada método. A tabela abaixo mostra as freqüências
médias das 20 primeiras palavras-chave identificadas por cada estatística.
Estudo Referência Log-likelihood 1.260 274.016 Qui-quadrado 133 2.338
247
As freqüências das palavras na lista preparada com qui-quadrado parecem ser
sensivelmente mais baixas do que na lista com log-likelihood. Na verdade, trata-se de uma
tendência do teste qui-quadrado de atribuir significância mesmo a palavras de freqüência
baixa quando elas ocorrem em corpora grandes (Kilgariff). Devido a isso, o log-likelihood
é um teste mais robusto, que se protege desse problema. As palavras-chave indicadas por
ele tendem a ser mais claramente indicativas de freqüências realmente distintivas. Assim, é
recomendável que o analista dê preferência ao log-likelihood como método de extração de
palavras-chave.
Max p. value
Este é o espaço onde o usuário deve escolher o nível de significância máximo
(representado por p) para uma palavra poder ser considerada chave. Palavras cujo
resultado da comparação estatística resultar em um p igual ou menor (isto é, com mais
zeros) que o indicado poderão ser consideradas chave. Note que nem todas as palavras que
passam nesse critério são incluídas na listagem de palavras-chave, pois elas ainda sofrerão
outro corte, feito pelo critério de número máximo desejado (max wanted).
O valor de significância é obtido a partir do cálculo estatístico comparativo das
freqüências, usando o método qui-quadrado (chi-square) ou o log-likelihood (explicados
na subseção acima). Em termos práticos, a escolha de um nível de significância menor
(isto é, com mais zeros) implica na identificação de menos palavras-chave.
Max wanted
Permite a especificação do número máximo de palavras-chave a serem incluídas na
listagem. O programa escolhe as primeiras x palavras (dentre aquelas com valor de p
satisfatório, conforme explicado acima), de acordo com o valor de ‘keyness’, que é o valor
da prova estatística. Quanto mais alto o valor de ‘keyness’, maior a discrepância entre a
freqüência do corpus de estudo e a do corpus de referência (guardadas as especificidades
de cada método estatístico). Assim, se o for especificado o valor de 500 palavras para
‘Max wanted’, o programa escolherá as 500 palavras-chave com ‘keyness’ mais alto, que
serão aquelas cujas diferenças de freqüência são estatisticamente mais marcantes.
Esse critério pode parecer redundante em relação ao de valor máximo de p, mas não o é.
Isso porque muitos valores de ‘keyness’ podem possuir um mesmo valor de p, já que este é
248
expresso em valores que compreendem uma faixa: p=0.00001 aceita todos os valores que
são menores do que ele, em incrementos de uma casa decimal (p=0.000001, p=0.0000001,
etc.).
Min frequency
Permite determinar a freqüência mínima da palavra para se tornar chave. Para que todas as
palavras sejam levadas em conta durante o processamento estatístico, é preciso especificar
o valor 1. Entretanto, normalmente o analista não deseja que palavras com freqüência 1
possam ser consideradas chave, por isso é recomendável usar o mínimo de 2 para esse
campo. Quanto menor o corpus, menor deve ser este valor. Não há recomendações
objetivas acerca de qual o valor da freqüência mínima em razão do tamanho do corpus
usado na pesquisa. O usuário pode tanto experimentar com vários valores até considerar os
resultados satisfatórios, ou simplesmente especificar o valor mínimo de 2. Os demais
ajustes (max p. value e max wanted) farão a seleção das palavras.
Database min frequency
Indica a quantidade mínima de arquivos em que uma palavra foi chave para que seja
incluída num banco de dados (database) de palavras-chave. Um banco de dados de
palavras-chave é usado para identificação de palavras-chave chave.
Algumas indicações para estabelecimento do valor desse campo aparecem abaixo:
• O valor mínimo deve ser dois. Caso contrário, qualquer palavra-chave será palavra-
chave chave.
• Se houver muitos arquivos no banco de dados, é melhor estabelecer um valor maior do
que dois. Uma maneira de chegar a um número minimanente criterioso é fazer com que
seja representativo da maioria dos textos (arquivos), isto é, a metade mais um. Assim,
se o banco de dados possuir 50 textos, então o valor seria 26 (50 / 2 = 25; 25 + 1 = 26).
• O valor deve ser maior do que o referente a ‘associates min frequency’, caso contrário
o programa não distinguirá entre palavra-chave chave e associado: qualquer associado
poderá palavra-chave chave, desde que ocorra nos mesmo textos (arquivos) em uma
palavra-chave chave ocorreu. Vide explicação sobre diferença entre palavra-chave
chave e associado na subseção abaixo.
249
Quanto mais alto o valor digitado nesse campo, menor será o número de palavras-chave
chave. Por exemplo, suponha que a palavra ‘Brasil’ tenha sido chave em apenas um texto
(arquivo). Se o número mínimo exigido em Database Min Frequency for 2, a palavra
Brasil não será incluída no banco de dados.
Porém, isso não significa que ‘Brasil’ seria totalmente descartado da análise. Na verdade,
‘Brasil’ ainda poderá ser um associado (‘associate’) de uma outra palavra-chave, caso
possua a freqüência mínima para isso (vide abaixo).
Associate min frequency
Indica a quantidade mínima de arquivos em que uma palavra foi chave juntamente com
uma palavra-chave chave para que seja considerada associada à palavra-chave chave.
Por exemplo, suponha que ‘Brasil’ seja chave em 10 textos (arquivos) e o número mínimo
estipulado para ser chave chave (em database min frequency) seja 5. Dessa forma, ‘Brasil’
é palavra-chave chave. Agora suponha que ‘país’ seja chave em cinco dos 10 textos em
que ‘Brasil’ também é chave e que o valor mínimo estipulado em ‘associate min
frequency’ seja 2; dessa forma, ‘país’ é considerado associado da palavra-chave chave
‘Brasil’.
Não há um valor exato para a freqüência mínima do associado. A ajuda do WordSmith
Tools fala em um valor igual a 5, o que significa que uma palavra-chave terá de ocorrer em
pelo menos cinco dos textos (arquivos) em que uma outra palavra é chave chave para ser
um associado a ela.
Uma dúvida que surge a respeito das noções de palavra-chave chave e de associado é se
todo associado é palavra-chave chave. A resposta é não. Os ajustes de freqüência mínima
são independentes para cada um. Conforme explicado acima, para palavra-chave chave, a
freqüência mínima é estipulada em ‘Database Min Frequency’ e para associado, em
‘associate min frequency’.
Porém, os dois poderão ser a mesma coisa (ou seja, uma palavra-chave chave terá como
associado uma outra palavra-chave chave e vice-versa) em circunstâncias especiais. Mais
especificamente:
• Se as freqüências mínimas exigidas (em database min frequency e associate min
250
frequency) forem iguais, e ...
• ... se o associado ocorrer sempre nos mesmos textos (arquivos) que a palavra-chave
chave.
Para ilustrar as diferenças entre palavra-chave chave e associado, vide o exemplo abaixo.
Os valores mínimos levados em conta são:
• Min database frequency: 3
• Min associate frequency: 2
Imagine que as palavras-chave dos textos do banco de dados (database) sejam as
mostradas na tabela a seguir:
Texto Texto 1 Texto 2 Texto 3 Texto 4 Palavras-chave
Maçã (a) Banana (c) Laranja Figo
Maçã (a) Banana (c) Limão (d) Abacaxi (b)
Maçã (a) Manga (e) Limão (d) Abacaxi (b)
Pêssego Manga (e) Uva Abacaxi (b)
A análise resultante aparece abaixo.
Palavra-chave chave:
Maçã, porque ocorre como chave em três textos (1, 2 e 3).
Abacaxi, porque ocorre como chave em três textos (2, 3 e 4).
Associados:
Banana: Associado de ‘maçã’ porque ocorre em dois textos em que ‘maçã’ é chave (1 e 2).
Limão: Associado de ‘maçã’ porque ocorre em dois textos em que ‘maçã’ é chave (2 e 3).
Manga: Associado de ‘abacaxi’ porque ocorre em dois textos em que ‘abacaxi’ é chave (3
e 4).
8.12.3.2.5.Printing
251
Permite fazer ajustes na impressão, fontes e nos arquivos abertos automaticamente pelo
programa quando iniciado. Vide item 7.4.2.3.8 na p. 110.
8.12.3.2.6.Stop list
Permite especificar lista de palavras a serem excluídas do processamento dos textos. Cada
ferramenta exige a especificação independente de uma lista, no espaço diante do nome da
ferramenta (p.ex. Concord stop list). Clicando em ‘Browse’, o usuário tem acesso à lista de
pastas, de onde pode selecionar o arquivo correspondente. Depois de indicar o nome e a
pasta do arquivo, é necessário ainda marcar a caixa ‘Activated’, caso contrário a lista não
será levada em conta. Vide item 7.4.2.3.10 p. 111 para maiores detalhes.
8.12.3.2.7.Tag list
‘Tags’ (ou etiquetas) são códigos de marcação dos textos, que trazem informações dos
mais variados tipos. Os ajustes feitos nesse menu alteram a maneira como o programa
reage a esses códigos. Vide seção 7.4.2.3.11 na p. 112 para mais detalhes.
8.12.3.2.8.Text Characteristics
Essa opção refere-se à guia ‘Text’ da tela de ‘Settings’. Nela, é possível fazer ajustes na
maneira pela qual o programa processa a formatação dos textos. Vide seção 7.4.2.3.12 p.
121 para maiores informações.
8.12.3.2.9.Review all Settings
Essa opção abre uma janela que resume os ajustes feitos nos vários menus. Os botões
‘Text’, ‘Tags’, etc. localizados junto à margem direita simplesmente remetem o usuário a
partes da listagem de ajustes, facilitando a localização dos ajustes desejados. Entretanto,
não é possível modificar as opções diretamente nessa janela. É preciso ir novamente ao
menu ‘Settings’ da ferramenta desejada ou do Controller para processar as alterações.
8.12.3.3.Window
Esse menu organiza as janelas abertas na tela, no estilo padrão do Windows. ‘Tile’ coloca
as janelas de modo adjacente, ‘Cascade’ uma sobre as outras, ‘Arrange All’ as transforma
em ícones (não está ativo em algumas versões) e ‘Minimize All’ as minimiza.
252
8.12.3.4.Help
É o menu de ajuda, padrão do Windows.
A versão do WordSmith Tools instalada pode ser vista na opção ‘About & Memory’ do
menu ‘Help’.
8.13. Os botões da barra de ferramentas
Esses botões fazem parte da janela do KeyWords. Alguns estão sempre visíveis, mesmo
quando não há nenhuma lista aberta, outros não. Eles são descritos abaixo:
Remete à janela Getting Started (vide 8.10, p. 225).
Save. Abre a janela de salvamento da lista, ou, se ela já tiver sido gravada, salva-a
novamente com o mesmo nome.
Save As. Abre a janela de salvamento de arquivo, permitindo salvar uma lista com
outro nome.
Save as Text. Salva a lista de palavra como texto. Vide p. 236.
Print Preview. Permite ver a aparência da impressão antes de enviar o material para
a impressora.
Copy. Permite copiar a lista de palavras inteira ou em partes para a área de
transferência (clipboard), arquivo-texto (equivalente a Save as Text), impressora
(equivalente a imprimir), e um arquivo .lst (equivalente a Save ou Save As). Em What
Data, permite selecionar se a lista de palavras ou lista de palavra-chave será salva inteira
(all), ou somente a parte selecionada com o cursor (selected). Vide p. 237.
Help. Abre o menu de ajuda.
Advice. Abre um menu mostrando um ‘mapa’ dos comandos e localizando o
usuário nesses comandos. Também sugere alguns comandos que o usuário pode utilizar.
Pode ser útil para o analista que se sente ‘perdido’ em meio aos comandos ou que
esqueceu algum comando.
253
8.14. Botões da janela de palavras-chave
Esta seção apresenta os botões encontrados na tela onde aparece a lista de palavras-chave
do tipo simples (.kws). Os botões da tela de arquivo de banco de dados (.kdb) são
apresentados na p. 261 ff.
Re-sort: Faz a reordenação da lista. Segue o tipo de re-ordenação usado nas
concordâncias.
Layout: Faz alterações na disposição das colunas e nas cores da tela.
Compute: Calcula o resultado de uma fórmula definida pelo usuário. Esse recurso
disponibiliza funções de planilha de cálculo para a lista de palavras.
Change case. Transforma as palavras em minúsculas, iniciadas por maiúsculas, ou
inteiramente em maiúsculas. Para alterar as opções, é preciso clicar várias vezes no botão.
Match. Abre a janela de ajuste de ‘match’, que permite a localização e apagamento
de palavras via arquivo.
Mark-Unmark. Permite selecionar (ou desmarcar) palavras para terem suas
freqüências unidas (isto é, somadas), o que serve para fazer lematização manual (ou seja,
sem o auxílio de um arquivo de lematização). A palavra deve ser selecionada com o mouse
ou a tecla de seta. Depois, o botão Mark – Unmark deve ser clicado. Para anular uma
marcação, a palavra deve ser escolhida novamente e o botão Mark-Unmark clicado.
Zap. Retira da lista uma palavra apagada com a tecla ‘delete’.
Edit. Permite redigitar uma palavra constante na lista. A palavra aparecerá numa
pequena janela, onde deve ser feita a edição. Clicando OK, a nova versão é incorporada à
lista.
Search: Faz uma busca por alguma palavra ou número na lista.
Filenames: Mostra os nomes dos arquivos usados na preparação da lista. Esses
nomes podem ser alterados usando o botão ‘replace’ (que não funciona em algumas
versões).
254
Plot: gráfico mostrando a posição das palavras-chave. É semelhante ao gráfico
produzido pelo arquivo de índice do tipo File Order (vide p 181). Ao acionar esse
comando, o programa começa o processamento, fazendo uma concordância para cada
palavra-chave constante na lista, tanto as positivas quanto as negativas. Por isso, o
processamento pode demorar vários minutos. Para interromper o andamento, é preciso
teclar, conjuntamente, Control, Alt, Del, depois encerrar o programa KeyWords. Vide mais
detalhes sobre a janela do ‘plot’ em 8.14.1 p. 255.
Rotate: Muda a orientação da lista, do sentido vertical (o default) para horizontal.
View. Abre o viewer, com o(s) texto(s) onde a palavra ocorreu.
Concord. Faz uma concordância da palavra onde está o cursor ou das palavras
selecionadas.
Word list. Salva a lista de palavras-chave (.kws) como uma lista de palavras no formato
.lst. Por exemplo, a lista de palavras mostrada na p. 260 transforma-se numa lista de
palavras conforme a mostrada na figura abaixo.
255
Files. Faz uma concordância e mostra somente as ocorrências das palavras naqueles
arquivos que contém todas elas. Serve para encontrar os arquivos que contém a(s)
palavra(s) desejada(s). Não funciona com palavras lematizadas (joined), emitindo uma
mensagem de erro. Vide p. 207 para mais detalhes.
8.14.1. A janela do gráfico (‘plot’)
A figura abaixo ilustra a tela do ‘plot’.
As colunas dessa tela são as seguintes:
Word: A palavra-chave.
Links: Número de ligações (‘links’) da palavra. Uma ligação acontece quando uma
palavra-chave ocorre no mesmo horizonte colocacional de outra palavra-chave. Horizonte
colocacional é a distância máxima de cada lado de uma palavra de onde são extraídos os
colocados. A distância padrão do horizonte é de cinco palavras para a esquerda e cinco
para a direita (a distância pode ser alterada no menu Settings / Text Characteristics, na guia
Concord, horizons). O número indicado nessa coluna mostra a freqüência somada das
ocorrências da palavra-chave em questão no horizonte colocacional das demais. Devido ao
fato de uma palavra poder ocorrer com mais de uma ao mesmo tempo, a soma das
ocorrências pode ultrapassar o total de ocorrências da palavra. Por exemplo, na janela
reproduzida acima, a palavra-chave ‘MINUTINHO’ (na linha 7) aparece com 17 ligações
256
(‘links’) em 5 ocorrências (‘In’). As cinco ocorrências da palavra geraram 17 ligações
porque uma mesma ocorrência de ‘minutinho’ qualquer ocorreu com várias outras
palavras-chave ao mesmo tempo. Para ver quais palavras formaram as ligações, é preciso
acionar o botão ‘Links’ ( ) (vide p. 258).
In: Freqüência da palavra-chave.
Plot: O gráfico. As ocorrências são sinalizadas por pequenos traços verticais. Cada traço
não representa, necessariamente, uma palavra, pois se a freqüência for muito alta, não
haverá espaço nem definição suficiente na tela para mostrar em detalhe todas as posições
exatas da palavra. Algumas vezes, quando muitos traços se aglomeram, eles podem formar
uma área sólida no gráfio. Para saber com exatidão a posição de cada palavra no texto, é
preciso salvar a lista como texto (Save as Text, ). Como esse recurso não mostra a
separação entre os arquivos processados, ela é recomendada apenas para análises de textos
únicos. Vide discussão no final dessa seção.
O gráfico está entrecortado por uma linha tracejada (azul, no original) aproximadamente a
um quarto do início da coluna onde o gráfico está inserido. Essa linha foi acionada pelo
botão Ruler . Esse recurso desenha uma linha no gráfico mostrando onde um arquivo
começa e outro termina, caso mais de um arquivo tenha sido selecionado. Se apenas um
arquivo tiver sido analisado, então o botão produz uma divisão em oito partes iguais (esse
recurso não está ativo em algumas versões). No caso da tela acima, a linha mostra a
separação entre os dois arquivos escolhidos para análise, mas ele não indica qual arquivo
corresponde a qual parte da divisão. O botão Filenames não fornece essa informação,
pois a ordem em que ele informa o nome dos arquivos não é necessariamente a ordem em
que eles aparecem na coluna Plot. Para saber qual arquivo cada divisão representa, é
possível usar o Concord. Para tanto, o usuário deve escolher uma palavra cuja freqüência
seja 1, colocando o cursor sobre ela. Depois, deve acionar o botão . O resultado será
uma concordância de uma linha apenas; a coluna File, do Concord, informará a fonte dessa
linha, que será, então, o arquivo a que pertence aquela ocorrência encontrada no Plot.
Voltando ao Plot, o usuário poderá então determinar qual seção do gráfico corresponde
aquele arquivo. Ele deve fazer isso com tantas divisões quantas forem necessárias.
Para detalhes sobre o botão ‘Save as Text’ ( ), que grava a lista transformando as
posições do ‘plot’ em números, vide p. 183.
257
A janela do gráfico traz consigo os seguintes botões:
Re-Sort. Re-ordena o gráfico a partir das informações das colunas do gráfico. A
ordenação inicial é por ‘hits per 1,000 words’. Ao clicar no botão ‘Re-Sort’, a ordenação
do gráfico muda automaticamente, na seguinte ordem:
Segundo clique: ordenação por primeira ocorrência (‘text order’). Os arquivos em que o
termo de busca ocorrem primeiro aparecem primeira na listagem, e vice-versa. A margem
esquerda do retângulo de plotagem representa o início de cada texto. A tela abaixo mostra
o gráfico apresentado acima ordenado por primeira ocorrência. Como se percebe, os traços
indicativos de ocorrências formam uma linha diagonal, entre os textos, que se distancia do
início do arquivo.
Essa opção é útil para indicar, por exemplo, como cada texto se segmenta topicalmente, ou
seja, como cada um distribui a informação relativa ao termo de busca em relação aos
demais.
Terceiro clique: re-ordena pela distância entre a primeira e a última ocorrência (‘range’).
Os arquivos em que a distância é maior aparecem no início da listagem, e vice-versa. Os
arquivos com apenas uma ocorrência do termo são dispostos em ordem alfabética. Essa
opção pode dar uma indicação da extensão de cobertura do termo de busca. Na medida em
258
que as aparições posteriores do termo de busca são repetições da primeira e, portanto,
fazem referência anafórica a ela (e às demais), a distância entre a primeira e a última
aparição do termo de busca pode ser vista como uma representação da cobertura que o
termo de busca possui no texto.
Quarto clique: Lista os arquivos em ordem alfabética (de A a Z).
Layout. Esse botão ativa uma janela onde se pode fazer alterações na disposição
dos elementos da tela do gráfico. Na área superior à esquerda, encontram-se os nomes das
diversas colunas que compõem o gráfico. Para mudá-las de ordem, basta selecionar uma de
cada vez e clicar nos botões de seta (pequenos triângulos acima de ‘move’). A seguir, basta
clicar em OK para efetuar as mudanças. Maiores explicações sobre os demais elementos
dessa tela podem ser encontrados na p. 139.
Change case. Transforma as palavras em minúsculas, iniciadas por maiúsculas, ou
inteiramente em maiúsculas. Para alterar as opções, é preciso clicar várias vezes no botão.
Zap. Elimina da tela as linhas do gráfico previamente ‘apagadas’ com a tecla
‘delete’ do teclado.
Search. Abre uma janela para localizar palavras na tela.
Ruler. Desenha uma linha no gráfico mostrando onde um arquivo começa e outro
termina, caso mais de um arquivo tenha sido selecionado. Se apenas um arquivo tiver sido
analisado, então o botão produz uma divisão em oito partes iguais (esse recurso não está
ativo em algumas versões). Vide p. 256 para exemplo.
Links. Mostra as ligações (‘links’) entre a palavra-chave em questão e as demais.
View. Mostra, no Viewer, os textos onde a palavra selecionada aparece.
Concord. Faz uma concordância da palavra selecionada.
Wordlist. Salva a lista de palavras-chave como uma lista de palavras, no formato
.lst. Pode ser útil para permitir a utilização de recursos que a lista de palavras dispõe, como
a lista de consistência.
O usuário notará que os botões de salvamento de tela, que fazem parte da tela do
259
KeyWords, são desativados quando o gráfico é produzido. Isso significa que a tela do
gráfico não pode ser salva, desaparecendo quando a concordância é fechada. O usuário
deve salvar a concordância e produzir um novo gráfico a cada vez que quiser vê-lo
novamente. Porém, é possível copiar o gráfico para um editor de texto como o MS Word,
por exemplo. Para tanto, é preciso clicar em File, depois em Copy; a seguir, selecionar
‘clipboard’, em ‘where to’; em ‘what data’, o usuário deve escolher ‘all’ para copiar o
gráfico inteiro, ou ‘selected’ para transferir apenas as linhas selecionadas com o mouse (o
que é feito simplesmente arrastando o mouse sobre a porção desejada do gráfico). Depois,
já no MS Word, basta clicar em Editar, e Colar Especial e, por fim, selecionar ‘Figura’ ou
‘Figura (meta-arquivo avançado)’.
A informação textual do gráfico (as colunas com os nomes dos arquivos e demais
números) pode ser copiada escolhendo ‘Copy e, a seguir, em ‘where to’, ‘a text file’. O
resultado é um arquivo com as informações textuais e numéricas presentes no arquivo, mas
sem o retângulo de plotagem, que aparece indicado como ‘(plot)’. Também se aplicam
aqui os comentários feitos acima para seleção de partes do gráfico para salvamento.
Também é possível imprmir o gráfico, clicando no botão ‘Print Preview’ ou no menu
‘File’ e depois em ‘Print’.
A tela do gráfico pode ser minimizada (da maneira habitual do Windows, isto é, clicando
em Window, Minimize, ou diretamente no botão correspondente na parte superior direita
da tela). Nesse caso, a tela desaparece e pode ser recuperada por meio do menu Window: a
tela do gráfico estará indicada por ‘dispersion plot’.
Caso os textos de onde as listas foram criadas não forem encontrados pelo programa, será
emitida uma mensagem de erro (‘Can’t locate...’). Para continuar basta clicar em OK. Os
textos não encontrados não serão incluídos no processamento, mas o gráfico será feito.
As palavras-chave negativas aparecem em vermelho, no plot.
8.14.1.1.A tela de ‘links’
Esta tela é acionada pelo botão Links ( ), na tela de plot.
Como exemplo, tomemos a lista de palavras-chave reproduzida parcialmente abaixo:
260
A janela de ‘Links’ para a palavra-chave ‘Mendonça’ (na linha 1) é a seguinte:
As colunas são as seguintes:
Word: Palavras com que ‘Mendonça’ faz ligações.
Links: Freqüência das ligações da palavra-chave ‘Mendonça’ com as demais palavras. A
somatória dessa coluna é que fornece o resultado apresentado na coluna ‘links’ do plot.
Para ‘Mendonça’, esse total é 2670, segundo a figura na p. 255.
261
In: Freqüência de ‘Mendonça’ no corpus de estudo.
=%: Porcentagem relativa ao total de ‘links’ em relação a ‘In’.
8.15. Botões da janela de palavras-chave chave (‘database’)
Os botões da janela do banco de dados (database) são os seguintes:
Re-sort: Faz a reordenação do banco de dados. Segue o modo de re-ordenação
usado nas concordâncias.
Layout: Faz alterações na disposição das colunas e nas cores da tela.
Change case. Transforma as palavras em minúsculas, iniciadas por maiúsculas, ou
inteiramente em maiúsculas. Para alterar as opções, é preciso clicar várias vezes no botão.
Match. Abre a janela de ajuste de ‘match’, que permite a localização e apagamento
de palavras via arquivo.
Zap. Retira do banco de dados uma palavra apagada com a tecla ‘delete’.
Edit. Permite redigitar uma palavra constante no banco de dados. A palavra
aparecerá numa pequena janela, onde deve ser feita a edição. Clicando OK, a nova versão
é incorporada à banco de dados.
Search: Faz uma busca por alguma palavra ou número no banco de dados.
Filenames: Mostra os nomes dos arquivos usados na preparação do banco de dados.
Esses nomes podem ser alterados usando o botão ‘replace’ (que não funciona em algumas
versões).
Associates. Mostra os associados (‘associates’) das palavras-chave chave.
Associados são palavras que são chave em um certo número de textos (arquivos) em que
uma palavra-chave chave ocorre. Esse comando abre uma janela de resultados. A
freqüência mínima para que uma palavra-chave seja um associado é definida pelo usuário
no menu Settings, Min & Max Frequencies.
Rotate: Muda a orientação do banco de dados, do sentido vertical (o default) para
horizontal.
262
View. Abre o viewer, com os textos onde a palavra-chave chave ocorreu.
Concord. Faz uma concordância da palavra onde está o cursor ou das palavras-
chave chave selecionadas.
Word list. Salva o banco de dados (.kdb) como uma lista de palavras no formato .lst.
8.15.1. A tela dos associados (‘associates’)
Abaixo aparece uma reprodução de uma tela dos associados, obtida clicando no botão
‘Associates’ ( ) na barra de ferramentas do banco de dados (‘database’). A listagem de
associados refere-se à palavra ‘Roberto’, que é chave chave num banco de dados.
As colunas constantes na tela são:
Word: Os associados de ‘Roberto’.
Of files: Quantidade de arquivos em que a palavra-chave aparece juntamente com
‘Roberto’.
As %: Porcentagem de ‘Of files’ em relação ao total de textos usados na preparação do
banco de dados. Por exemplo, na figura acima, ‘problema’ aparece como associado de
Roberto em todos (100%) os arquivos do banco de dados. Há sete associados na lista, no
total, pois o critério de freqüência mínima necessário para que uma palavra-chave seja
263
associado, nesse caso, foi estabelecido como 2 (menu Settings, Min & Max Frequencies).
Desse modo, as palavras-chave que co-ocorreram com a palavra-chave chave ‘Roberto’
em apenas um texto não foram incluídas na listagem.
8.15.1.1. Os botões da tela de associados
Os botões constantes na tela de associados são idênticos aos da tela de banco de dados,
mostrados na p. 261, com exceção de ‘clumps’ ( ). Clumps são grupos de palavras-chave
que ocorrem em um ou mais textos onde uma palavra-chave chave também ocorre. É
preciso ressaltar que o comando de clumps, embora esteja na janela de associados, produz
os grupos de palavras-chave relacionados à palavra-chave chave (de onde foram retirados
os associados, isto é, a duas janelas atrás) e não a um associado específico. Por exemplo,
ao selecionar a palavra-chave chave ‘Roberto’ na lista do arquivo de banco de dados e
depois clicar em associates ( ), foi produzida a lista de associados mostrada acima. Nessa
tela, clicando no botão ‘Clumps’ ( ), surgem os grupos de palavras-chave de ‘Roberto’, e
não de qualquer associado. O botão de clumps pertence, mais naturalmente, à tela de
palavras-chave chave e não à de associados, já que os grupos de palavras-chave não são
derivados dos associados, mas sim das palavras-chave chave.
O quadro a seguir explica algumas das diferenças entre palavra-chave chave, associado e
grupo de palavras-chave (‘clump’).
Tipo Resultados exibidos pelo programa
Comentários
Palavra-chave chave
Roberto (2) A palavra ‘Roberto’ é chave chave porque ocorre em dois arquivos. Dois é a freqüência mínima exigida para que uma palavra se torne chave, segundo o valor estipulado no espaço ‘Database Min Freq.’ no menu Settings, Min & Max Frequencies.
Associados (‘Associates’)
Problema (2) (100%) Pra (2) (100%) Roberto (2) (100%) Tá (2) (100%) etc.
Essas palavras são associados de ‘Roberto’ porque ocorrem nos mesmos arquivos que ‘Roberto’. Todas ocorrem como chave em todos (100%) os arquivos em que ‘Roberto’ é chave (2). ‘Roberto’ é mostrado como associado, mas é uma redundância: ela é chave nos mesmos arquivos em que ela o é!
Grupos de palavras-chave (‘Clumps’)
Abraço, aceitar, acertado, acionistas, problema, pra, roberto, tá, tendências,
Essas palavras são todas chave nos arquivos em que ‘Roberto’ é chave. Há mais palavras aqui do que em associados porque a freqüência mínima para fazer parte de um clump é 1. Os associados estão todos incluídos nesta lista porque possuem
264
trabalhados, ... freqüência 2 (isto é, aparecem como chave em dois textos pelo menos), que é maior do que o mínimo exigido para ser membro de um clump (1, ou seja, ser chave em pelo menos um texto). Em outras palavras, qualquer associado faz parte de um clump, mas o reverso não é verdade, a menos que o critério para ser associado seja freqüência 1 (ser chave em pelo menos um texto).
8.15.1.2. A janela de ‘clumps’
Ao clicar no botão ‘clumps’ ( ) na tela de associados, aparece uma tela que exibe os
clumps da palavra-chave chave que deu origem aos associados. Abaixo aparece uma
reprodução de uma tela de ‘clumps’.
As seguintes colunas aparecem nessa tela:
n: número do ‘clump’.
Members: as palavras-chave que formam o ‘clump’.
Files: número de arquivos onde as palavras-chave do ‘clump’ aparecem. Não está operante
em algumas versões (permanece em branco).
File-names: nomes dos arquivos onde as palavras-chave do ‘clump’ aparecem. Não está
265
operante em algumas versões (permanece em branco).
Os ‘clumps’ podem ser juntados
Os botões constantes na tela de ‘clumps’ são idênticos aos da tela de banco de dados,
mostrados na p. 261, com exceção de ‘match clumps’ ( ). A função desse botão é indicar
ao analista quais pares de ‘clumps’ são parecidos, em virtude de possuírem palavras-chave
mútuas. Uma tela especial (vide abaixo) se abre mostrando quais palavras são
compartilhadas por um par de ‘clumps’ e quais são exclusivas a cada um deles. O analista
decide se deve agrupar os ‘clumps’ ou não. Esse agrupamento faz com que se tenham
agrupamentos de textos que possuem palavras-chave em comum, girando em torno de uma
palavra-chave chave. Essa palavra-chave chave é o eixo em torno do qual os ‘matched
clumps’ (re-agrupamentos de palavras-chave) giram.
Um ‘clump’ unido é composto de todas as palavras-chave que existiam nos dois ‘clumps’
originais. As repetições de palavra são eliminadas (por exemplo, se ‘casa’ faz parte tanto
do ‘clump’ 1 quanto do 2, no clump unido ela aparecerá apenas uma vez).
Para unir ‘clumps’, não é preciso usar o botão ‘match clumps’. Basta selecionar um dos
‘clumps’ que queira juntar e arrastar o cursor para cima do outro ‘clump’. Os dois serão
unidos. Um ‘clump’ unido recebe o número do ‘clump’ original de número inferior. Por
exemplo, se os ‘clumps’ 1 e 4 foram unidos, o novo ‘clump’ receberá o número 1.
A tela evocada pelo botão ‘match clumps’ ( ) aparece reproduzida abaixo.
266
Essa janela possui os seguintes elementos:
‘only in one’: mostra as palavras-chave que ocorrem somente no primeiro dos ‘clumps’ do
par.
In both: mostra quais palavras-chave aparecem nos dois ‘clumps’ do par.
Only in the other: mostra as palavras-chave que ocorrem somente no segundo dos ‘clumps’
do par.
Join: Botão que une os dois clumps.
Skip: Botão que não autoriza a união dos clumps exibidos e mostra outros dois clumps. Os
dois clumps mostrados anteriormente permanecem separados e são mantidos na memória
do programa.
Clear Skip: Botão que limpa a memória do programa dos clumps cuja união não foi
autorizada.
A área abaixo desses campos mostra a quantidade de palavras-chave compartilhadas, a
porcentagem dessas palavras do total e pergunta se deve ser feita a união dos ‘clumps’. Por
exemplo, na tela acima, a informação fornecida é: ‘Clump 1 overlaps most with no. 2.
(11% of the 59 words in 2 are in 1.). Join them?’. Isto é: ‘ ‘Clump 1 aproxima-se mais do
267
(‘clump’) n o 2. (11% das 59 palavras no 2 estão no 1.). Unir os ‘clumps’?’. Com base
nessa informação de que há apenas 11% de redundância entre os dois ‘clumps’, a decisão
mais prudente parece ser a de não unir os ‘clumps’.
A tela acima mostra que as palavras-chave compartilhadas pelos dois ‘clumps’ são os sete
associados.
Para ilustrar, retomemos o exemplo da palavra ‘Roberto’:
(1) A função ‘associados’ mostrou sete palavras-chave que aparecem nos mesmos
(dois) textos em que ‘Roberto’ é chave.
(2) A função ‘clumps’, por sua vez, exibiu todas as palavras-chave que ocorrem com
‘Roberto’, mesmo as que ocorrem em apenas um dos textos que ‘Roberto’ é chave
(por isso não são associados).
(3) Já a função de ‘match clumps’ indicou a possibilidade de unir os dois ‘clumps’ que
possuem ‘Roberto’ como palavra-chave chave. Essa mesma função indicou haver
apenas 11% de redundância entre os ‘clumps’. A pergunta que se coloca nesse
estágio é se os dois textos em que ‘Roberto’ é chave possuem léxico-chave em
comum. A resposta é negativa (11%). Daí a melhor decisão é considerar os dois
textos como diferentes, apesar de possuírem ‘Roberto’ como palavra-chave.
268
269
Os utilitários
8.16. File Manager
Essa opção apenas inicializa um gerenciador de arquivos (File Manager), para realizar
operações de busca, cópia, apagamento, etc. de arquivos no Windows. O Gerenciador a ser
aberto é especificado no arquivo Wshell.ini (que se encontra na pasta onde o WordSmith
Tools está instalado, p.ex. c:\wsmith).
É preciso esclarecer que a função de acionamento de gerenciador é supérflua, visto que ele
pode ser acessado diretamente do Windows.
Mas caso o usuário deseje ativá-la, basta clicar nessa opção no menu Utilties / File
Manager.
Se essa opção não funcionar (ou emitir uma mensagem de erro), isso significa que nenhum
gerenciador foi especificado no arquivo Wshell.ini. Para especificá-lo, abra o arquivo num
editor de texto e digite o caminho (path) do gerenciador na linha que se inicia por ‘File
Manager=’, localizada no começo do arquivo. Se o gerenciador estiver no caminho
C:\WINDOWS\EXPLORER.EXE, será preciso digitar essa informação. Abaixo aparece o
trecho do Wshell.ini com o caminho especificado (indicado pela linha sublinhada – o
sublinhado foi adicionado):
[WORDSMITH TOOLS DEFAULTS] [GENERAL SETTINGS] restore last file=NO numbering=YES Internet Browser= ; eg. c:\netscape\netscape.exe File Manager=C:\WINDOWS\EXPLORER.EXE ; eg. c:\progra~1\powerd~1\pdexplo.exe ; (note: see line above for Win 95 long file name example) show help automatically=NO
Para descobrir o caminho do gerenciador, o usuário pode clicar com o botão direito do
mouse no ícone do programa, depois (com o botão esquerdo) em Propriedades e verificar o
caminho na caixa ‘objeto’. É preciso descartar símbolos como /n,/e,C:\ que podem estar
adicionados ao final do caminho (como em C:\WINDOWS\EXPLORER.EXE /n,/e,C:\) e
copiar apenas o nome do disco, das pastas e do programa.
270
Se as pastas e arquivos tiverem nomes longos (mais de oito caracteres), será preciso digitar
os nomes curtos de arquivo do DOS, que podem ser vistos abrindo o prompt do MS-DOS
e digitando dir | more na pasta desejada. Para ir adiante na exibição dos arquivos, tecle
Enter ou a barra de espaço. Para interromper a exibição dos arquivos, segure a tecla Ctrl e
tecle C. Para chegar à pasta desejada, digite:
cd drive:\nome_da_pasta para ir a uma pasta (p.ex. c:\wsmith) cd nome_da_sub-pasta para ir a uma sub-pasta (p.ex. c:\wsmith\concord) cd .. para ir a uma pasta superior (p.ex. para ir de
c:\wsmith\concord para c:\wsmith)
O nome curto de arquivo aparece na parte esquerda da listagem dos arquivos:
BLOCOS~1 BMP 2.754 05/05/99 22:22 Blocos vermelhos.bmp
O arquivo ‘Blocos vermelhos.bmp’ possui o nome curto ‘blocos~1.bmp (note que o ponto
não aparece na listagem dos nomes curtos, sendo substituído por um espaço).
Para sair do prompt do DOS, digite exit e depois tecle Enter.
O usuário pode especificar qualquer gerenciador que se encontre instalado na sua máquina.
8.17. Splitter
Para utilizar o Splitter, é preciso selecionar a opção Utilities / Splitter, no menu Tools do
Controller.
Esse utilitário serve para dividir arquivos grandes em porções menores. É reccomendado
para casos em que num mesmo arquivo estejam contidos vários textos, que precisam ser
desmembrados para efeitos de análise.
Para utilizar o Splitter, clique na opção Splitter no menu Utilities, o que abrirá a tela a
seguir:
271
A seguir, clique no botão clique no botão Start, que abrirá a tela Getting Started:
Depois, clique em Source File(s), para especificar um ou mais arquivos fontes, ou seja,
aqueles a ser desmembrados (vide p.89 para uma explicação). Quando terminar, clique em
OK. Volte para a janela Getting Started e clique em Settings, para especificar onde os
arquivos serão divididos, conforme ilustra a figura a seguir.
272
Nessa janela, as opções são as seguintes:
• End of text separator: Código que indica o final de cada texto. Será usado pelo
programa como local de divisão do arquivo, de tal modo que cada trecho do arquivo
maior que termine até o ponto indicado será salvo num arquivo diferente. Na tela que
aparece na figura, o código é [FF]. É importante ter em mente que esse código deve ser
uniforme e que normalmente não consta do arquivo, devendo ser acrescentado pelo
usuário. Abaixo aparece um exemplo de arquivo que contém vários textos, usando o
código [FF] como separador:
aqui é o início do texto 1 [FF] aqui é o início do texto 2 [FF] aqui é o início do texto 3 [FF]
• Destination directory: Pasta onde os arquivos desemembrados serão salvos.
• Required sizes: Configuração de tamanho mínimo e máximo permitidos dos arquivos
desmembrados.
• Bracket first line: Quando selecionado, faz com que a primeira linha do arquivo
apareça dentro dos sinais < >. Pode ser útil quando a primeira linha após o código
273
separador é algo que o usuário deseja omitir da análise, como um título. Nesse caso, o
título apareceria delimitado pelos sinais. Para omiti-lo de listas de palavras ou de
concordâncias, seria preciso configurar a opção Settings, Text Characteristics, Tags,
Tags to Ignore, marcando a opção Activated (vide p. 112 ff para mais informações
sobre a opção Tags).
• OK: aceita as informações inseridas na tela Settings. Caso o programa emita uma
mensagem de erro dizendo ‘File Access Denied’, é preciso corrigir a opção relativa ao
arquivo fonte (Source file) ou à pasta de destino (Destination directory). O arquivo
fonte pode estar sendo ocupado por um editor de texto, como o Word; nesse caso, basta
fechar o arquivo no editor. Em relação à pasta de destino, é preciso certificar-se de que
ela exista e de que não foi digitada com o nome errado.
Se tudo estiver certo, o programa retornará o usuário à tela Getting Started. Depois, é
preciso clicar em Go Now para iniciar o processamento.
O andamento do processamento será indicado por uma janela de barras coloridas,
semelhantes às que cumprem a mesma função no WordList, Concord e KeyWords. Será
exibida ainda uma tela com os nomes dos arquivos criados seguidoos da quantidade de
linhas em cada um, entre parênteses. Tomando o exemplo anterior de arquivo fonte, o
resultado seria o seguinte:
274
Para fechar a janela, basta clicar em OK.
Para ilustrar, o arquivo te000001.txt possui o seguinte conteúdo:
aqui é o início do texto 1
Os nomes dos arquivos são gerados automaticamente. Cada nome é formado pelas duas
primeiras letras do nome do arquivo fonte mais seis dígitos seqüenciais. A numeração dos
arquivos obedece a numeração dos arquivos que porventura já existam na pasta, iniciando-
se a partir do último arquivo criado. Caso não haja arquivos com o mesmo tipo de nome na
pasta, a numeração começa com 000001. Os nomes dos arquivos são incrementados dentro
da mesma sessão de uso do Splitter, mesmo que o usuário apague os arquivos da pasta. Por
exemplo, na primeira divisão do arquivo temp.txt mostrado acima, o resultado seria três
arquivos: te000001.txt, te000002.txt e te000003.txt (uma vez que a pasta estava vazia). Se
o usuário não ficar satisfeito e apagar os arquivos da pasta e fizer outra tentativa de
desmembramento, os arquivo criados serão te000004.txt, te000005.txt e te000006.txt (e
não te000001.txt, te000002.txt e te000003.txt novamente), muito embora a pasta estivesse
vazia. Mas caso o Splitter seja encerrado e reiniciado, a numeração começará com o
000001 novamente. Se houver arquivos na pasta quando essa nova seção for iniciada, os
números dos arquivos prévios serão ‘pulados’. Por exemplo, se na pasta houver o arquivo
275
te000003.txt criado numa sessão prévia, os próximos arquivos serão te000001.txt,
te000002.txt, te.txt, te000005.txt, te000006.txt, etc. Note que curiosamente, o arquivo
te000004.txt (o primeiro a seguir ao já existente) não foi criado; em seu lugar, aparece
te.txt.
8.18. Text Converter
Esse utilitário possui várias funções:
• Mover arquivos para pastas diferentes.
• Renomear arquivos.
• Modificar os atributos de arquivos.
• Alterar arquivos.
Para utilizar o Converter, é preciso selecionar a opção Utilities / Converter, no menu Tools
do Controller.
A tela de entrada do programa aparece abaixo.
276
A janela acima pode aparecer incompleta. Para torná-la totalmente visível, é preciso
alargá-la com o mouse.
8.18.1. Move if
Essa opção move arquivos para uma pasta diferente caso eles possuam certas palavras ou
expressões, normalmente no cabeçalho de cada arquivo. Um cabeçalho (‘header’) é uma
seqüência de informações adicionadas ao arquivo, com detalhes sobre, por exemplo, a
autoria do texto, a fonte, o gênero, a data de coleta, etc, anotadas com códigos (etiquetas)
uniformes e únicas, de tal modo que não se confundam com o restante do texto (aquilo que
foi realmente dito ou escrito numa situação de comunicação). Isso pode ser útil para
selecionar arquivos de um corpus grande (como o British National Corpus). Para ativar
essa opção, é preciso fazer os ajustes abaixo:
• Na área ‘Choose Files’, selecione a pasta que deseja. A opção ‘Process sub-directories
too’ deve ser marcada caso deseje que o programa busque os arquivo também em sub-
pastas da pasta selecionada. Para restringir a busca somente a certos arquivos da pasta,
digite uma ‘máscara’ na caixa onde aparecem os dois asteriscos (*.*), logo abaixo da
janela com os nomes dos arquivos. Por exemplo, se na pasta c:\temp o usuário desejar
ativar apenas os arquivo terminados em .txt, deve digitar *.txt como máscara.
• Na área ‘Move if’, marque a caixa Activated.
• first ... lines: digite o número de linhas onde deve ser procurado o critério de
busca. Por exemplo, suponha que alguns arquivos do corpus contenham, na
primeira linha, a seguinte etiqueta:
<coleta: 1999>
Nesse caso, o número a ser digitado é 1. Mas se a etiqueta possuir posições
variáveis, como por exemplo desde a primeira até a última linha do cabeçalho (p.ex. a
quinta do arquivo), então o número a ser inserido é 5. É possível sempre digitar um
número alto que leve em conta a extensão máxima do cabeçalho do corpus. Assim, em
ambos os casos seria 5. Mas isso torna o programa mais lento, pois ele precisa procurar
em uma extensão maior de texto em cada arquivo.
• contain: digite o critério de seleção, exatamente como aparece no arquivo
277
(incluindo espaços, etc.). No exemplo acima, o critério seria coleta: 1999 . É
possível omitir os delimitadores da etiqueta (< >).
• to: informe o nome da pasta para onde serão movidos os arquivos. Caso não exista,
será criada uma sub-pasta do diretório onde estão os arquivos. Na tela anterior, a
pasta informada é 1999. Desse modo, será criada uma pasta chamada 1999 em
c:\temp\temp2
• Go Now: Inicia o programa, ativando as opções marcadas (com a caixa Activated).
Nesse exemplo, é iniciada a mudança dos arquivos.
• Os resultados do processamento aparecem na área logo acima do botão Help, na
forma de ‘... files done’ (além de uma contagem de caracteres e palavras).
Aparecerá também um botão Results, que quando clicado simplesmente pinta a
janela de escolha de arquivos na cor azul.
8.18.2. Renaming
Essa opção renomeia arquivos, adicionando numeração seqüencial. Serve para uniformizar
o formato de nomeação de arquivos de um corpus.
Para ativá-lo, marque a caixa Activated e selecione os arquivos. Faça os ajustes das opções
de renomeação (vide abaixo) e clique Go Now.
• Na caixa ‘mask’, digite o formato de nomeação dos arquivos que deseja. As
alternativas são as seguintes (note que somente são aceitos caracteres maiúsculos):
• . (ponto): Significa separador de extensão do nome do arquivo. Tudo aquilo que
segue o ponto é usado como extensão. Tudo o que o precede é tido como parte do
nome do arquivo. Por exemplo, .FOO faz com que todos os arquivos sejam
renomeados com a extensão .foo.
• ? (ponto de interrogação): Significa um caracter do nome original do arquivo. Por
exemplo, TE??.TXT faz com que todos os arquivos recebam um nome que começa
com ‘TEXT’ seguido de dois caracteres restantes do nome original (o terceiro e
quarto caracteres, pois a máscara TE já encobre o primeiro e segundo), seguido de
.TXT. Assim, se os arquivos originais fossem MARIA.TXT e JOAO.TXT, os
278
arquivos renomeados seriam TERI.TXT (isto é, MARIA) e TEAO.TXT (isto é,
JOAO). É importante atentar para o fato de que uma máscara como essa pode
causar ambigüidades, pois os nomes resultantes podem ser iguais. Por exemplo, se
os arquivos originais fossem JOCA.TXT e JECA.TXT, os dois arquivos teriam de
possuir o mesmo nome, TECA.TXT. Como isso não é permitido pelo sistema
operacional, o Converter emitirá uma mensagem de erro, indicando a duplicidade
pontencial:
Clicando em OK na mensagem de erro, o programa prosseguirá com o
processamento (ou emitirá outras mensagens de erro); contudo, o arquivo indicado
receberá um nome com formato numérico, formado pelas letras iniciais propostas (TE)
seguido de seis números. O sistema de numeração é semelhante ao do Splitter,
explicado antes (vide p. 274).
Note que os arquivos de nome longo (mais de oito caracteres ou mais de três
caracteres de extensão) são tratados com o curto nome do DOS (vide p. 270 para uma
explicação). Assim, um arquivo chamado ‘um nome muito longo 1.txt’ seria
interpretado pelo programa por meio do nome curto do DOS (algo como
UMNOME~1 TXT). Por exemplo, suponhamos que na pasta existissem os arquivos
seguintes:
UMNOME~1 TXT 16 05/08/02 5:31 um nome muito longo 1.txt UMNOME~2 TXT 16 05/08/02 5:32 um nome muito longo 2.txt UMNOME~3 TXT 16 05/08/02 6:05 um nome muito longo 3.txt
Aplicando-se a máscara TE??.TXT faria com que um nome muito longo 1.txt (que
é na verdade UMNOME~1.TXT) fosse renomeado para TENO.TXT, pois os dois caracteres
seguintes são NO (UMNOME~1). O mesmo aconteceria com um nome muito longo
2.txt e com um nome muito longo 3.txt . Isso geraria mensagens de erro do tipo da
279
mencionada acima devido à duplicidade de nomes, e o programa atribuiria um nome de
arquivo formado por números, abandonando a máscara proposta.
• * (asterisco): Significa os caracteres restantes do nome original do arquivo, até o
máximo de oito. Por exemplo, T*.TXT faz com que todos os arquivos recebam um
nome que começa com ‘T’ seguido de sete caracteres do nome original (os quais,
acrescidos de ‘T’, atingem oito caracteres), seguido de .TXT. Assim, se os arquivos
originais fossem MARIA.TXT e JOAO.TXT, os arquivos renomeados seriam
TMARIA.TXT e TJOAO.TXT. Note que esta alternativa está sujeita aos mesmos
problemas de duplicidade potencial discutidos acima.
• # (cerquilha): Significa um número seqüencial. Por exemplo, T###.TXT faz com que
todos os arquivos recebam um nome que começa com ‘T’ seguido de três números,
seguido da extensão original. Assim, se os arquivos originais fossem MARIA.TXT
e JOAO.TXT, os arquivos renomeados seriam T002.TXT e T001TXT,
respectivamente (pois JOAO vem antes de MARIA, alfabeticamente).
8.18.3. Attributes
Essa opção altera os atributos de leitura e visualização de arquivos. Esses atributos
(conhecidos por proteções ou permissões) passam despercebidos pela maioria dos usuários
de Windows e DOS.
Para ativá-lo, marque a caixa Activated e selecione os arquivos. A seguir, selecione as
opções de atributo desejadas e clique Go Now.
Via de regra, o usuário não deve alterar as configurações de atributos dos arquivos, com a
possível exceção de ‘read only’, conforme explicado a seguir.
As opções de atributo disponíveis são:
• Archive: Indica um arquivo texto. O default é marcado. Não deve ser alterado.
• Read only: Somente leitura. O default é desmarcado. Quando marcada, significa que o
arquivo está protegido contra alteração (de nome ou de conteúdo). Alguns usuários
somente se dão conta dessa propriedade dos arquivos quando tentam editar arquivos-
texto provenientes de um CD-ROM, pois são informados que o arquivo somente pode
280
ser aberto para ‘leitura’. O mesmo acontece quando tentam renomear um arquivo
copiado de um CD-ROM. Para alterar tal condição no sistema operacional, basta clicar
no nome do arquivo com o botão direito do mouse, abrir o menu Propriedades e
selecionar ‘somente leitura’. Isso cria uma ‘proteção contra modificação’. O Converter
disponibiliza essa opção por conveniência e porque tem o poder de alterar várias
subpastas ao mesmo tempo, o que não é possível, diretamente, via o gerenciador de
arquivos do Windows.
• Hidden: Quando marcado, o arquivo fica oculto. O default é desmarcado. Se estiver
oculto, pode deixar de ser exibido pelo gerenciador de arquivos, caso esteja a opção
‘Show all files’ não esteja selecionada.
• System: Indica arquivos que fazem parte do sistema operacional. O default é
desmarcado. Não deve ser alterado.
8.18.4. Text Conversion
Essa opção permite que o usuário faça várias alterações no texto de um ou mais arquivos.
É muito útil para, por exemplo:
• Corrigir problemas de digitação presentes em vários arquivos.
• Padronizar a formatação de arquivos.
• Retirar códigos de HTML, por exemplo, de textos baixados da web.
Para ativá-lo, marque a caixa Activated e selecione os arquivos. A seguir, selecione as
opções de alteração e clique Go Now.
As opções existentes na tela são:
• Over-write source text: Faz com que o arquivo com as alterações seja gravado em cima
do arquivo sem as modificações. Não é recomendado, porque o usuário pode não ficar
satisfeito com as mudanças e precisar refazê-las. Com o arquivo antigo reescrito, isso
não se torna possível.
• Or (safer) copy to: Faz com que as modificações sejam gravadas em outros arquivos,
noutra pasta, que deve ser indicada na caixa logo abaixo (p.ex. c:\temp).
281
• What to convert… : Fornece duas opções de modificação: apenas uma (‘just one
change’) ou muitas (‘or more, using conversion file’):
• Just one change, so...: Na caixa à esquerda, entre com a seqüência de busca
(‘search string’) que quer modificar e na caixa à direita, com a forma modificada.
Por exemplo, se quiser alterar ‘faze-lo’ por ‘fazê-lo’, digite:
Para apagar uma seqüência, deixe a caixa à direita vazia.
• Case sensitive: distingue maiúsculas de minúsculas.
• Whole word: somente efetua a mudança se a palavra indicada for inteira. Por
exemplo, se o usuário desejar modificar ‘tá’ por ‘está’, com a opção ‘whole word’
selecionada, palavras como ‘paquetá’ não serão alteradas para ‘paqueestá’, nem
‘está’ se tornará ‘esestá’.
• Confirm each: pergunta o usuário se confirma cada alteração. É útil para casos em
que nem todas as ocorrências devem ser alteradas. No exemplo acima, com ‘tá’ é
preciso certificar-se que frases como ‘eu vou, tá?’ não se tornem ‘eu vou, está?’.
Nesses casos, é mais aconselhável marcar a opção ‘confirm each’.
• Or more, using conversion file: Essa opção é a mais poderosa do converter, pois
permite a alteração de várias seqüências ao mesmo tempo. Quando selecionada, o
usuário deve indicar, na caixa logo abaixo, um arquivo de conversão, onde estão
especificas as regras de conversão. O arquivo de conversão é apenas um arquivo texto
(formato txt) com as regras de conversão digitadas segundo um formato próprio. O
formato básico de uma regra de conversão é:
282
“seqüência de busca original” -> “seqüência de busca alterada”
Note que a regra se inicia por aspas. Tudo que não se inicia por aspas, por um til ou pela
barra para frente (/) é tido como comentário, ou seja, não é uma regra de conversão e
portanto não é executado.
O símbolo entre as duas seqüências nada mais é do que o hífen (-) seguido do sinal de
maior que (>), dando idéia de uma seta.
Por exemplo, para substituir ‘faze-lo’ por ‘fazê-lo’, a instrução deve ser:
“faze-lo” -> “fazê-lo”
Há vários símbolos especiais empregados nas regras de conversão:
• Qualquer caracter (até mil em seguida, no máximo): *
• Qualquer caracter até um limite: *(limite) . Por exemplo, se o limite for 100, a
instrução é: *(100)
• Qualquer número: #
• Qualquer caracter único, exceto espaço: ?
• Exceto um caracter específico: ~ . Por exemplo, para apagar tudo que está entre
parênteses, exceto parênteses onde está escrito ‘não apagar’, digite:
~”(não apagar)” “(*)” -> “”
Os caracteres acima são interpretados de modo especial pelo converter. Assim, se o
usuário desejar incluí-los literalmente na busca, será preciso utilizar códigos próprios para
fazer referência a eles. Os códigos são:
• Aspas duplas: {CHR(34)}
• Asterisco: {CHR(42)}
• Cerquilha (#): {CHR(35)}
• Ponto de interrogação: {CHR(63)}
283
• Til: {CHR(126)}
Além desses, há ainda códigos de final de linha, que são:
• ‘Carriage return’: {CHR(13)}
• ‘Line feed’: {CHR(10)}
• Juntos, os dois códigos acima formam o código de final de linha que se consegue
quando se tecla ‘Enter’: {CHR(13)}{CHR(10)}
• Tabulação: {CHR(9)}
• Printer form-feed: {CHR(12)}
• Apagamento de espaços e tabulações redundantes: /S . Ele serve para apagar espaços
repetidos em trechos como o seguinte:
Ele ganhou na loteria.
O qual se tornaria assim:
Ele ganhou na loteria.
Para eliminar tabulações repetidas, usa-se /S "{CHR(9)}" . Ao contrário dos demais
comandos que se iniciam pela barra, o de redutor de espaços não deve ser combinado,
devendo aparecer numa linha individual.
Há ainda caracteres de controle de fluxo de alteração, que se iniciam por uma barra (/).
Esses códigos, descritos abaixo, podem ser combinados (p.ex. /CW faz com que o programa
peça a confirmação de cada mudança e que cada mudança seja apenas feita em palavras
inteiras).
• Confirmação de cada mudança: /C . Possui o mesmo efeito de ‘confirm each change’
da opção ‘just one change’, mostrada acima.
• Busca de palavra inteira: /W
• Não-diferenciação entre maiúscula e minúscula: /I . O default é respeitar as diferenças
284
entre maiúscula e miníscula.
• Busca restrita ao início do arquivo (primeiros 30 mil caracteres): /F . Pode ser útil na
alteração de muitos arquivos longos, quando se sabe que a seqüência de busca
encontra-se no início de cada arquivo apenas, permitindo ao programa que rode mais
rápido.
Há caracteres especiais iniciados por barra que possuem funções de adição:
• Adicionar texto: /A seguido do trecho a ser inserido, entre aspas, e de START ou END. Por
exemplo:
/A "<CORPUS DE REUNIÕES>" START inserirá <CORPUS DE REUNIÕES> no começo da
primeira linha de cada texto selecionado. Por exemplo, suponha que o texto selecionado
seja assim:
Este é o começo do meu texto. Este é o meio do meu texto. Este é o final do meu texto.
Aplicando a regra acima, o resultado será:
<CORPUS DE REUNIÕES>Este é o começo do meu texto. Este é o meio do meu texto. Este é o final do meu texto.
Para que a linha adicionada apareça numa linha individual, é preciso adicionar o
código de final de linha ({CHR(13)}{CHR(10)}), mostrado acima. Assim, a instrução seria a
seguinte:
/A "<CORPUS DE REUNIÕES>{CHR(13)}{CHR(10)}" START
Já /A "<FIM DO TEXTO>" END inserirá <FIM DO TEXTO> na última linha do(s) texto(s).
Para evitar que <FIM DO TEXTO> seja acionado junto a texto existente, como no exemplo
anterior, é melhor inserir um código de final de linha antes dele (“{CHR(13)}{CHR(10)}<FIM
DO TEXTO>"). Aqueles textos que possuírem uma linha em branco no final aparecerão com
uma linha em branco a mais. Para evitar isso, pode-se acrescentar uma outra instrução para
apagar eventuais linhas duplas em branco ({CHR(13)}{CHR(10)}{CHR(13)}{CHR(10)}) junto
ao código:
/A "{CHR(13)}{CHR(10)}<FIM DO TEXTO>" END “{CHR(13)}{CHR(10)}{CHR(13)}{CHR(10)}<FIM DO TEXTO>" -> “{CHR(13)}{CHR(10)}<FIM
285
DO TEXTO>"
• Inserir título: /T "<title>*</title>" -> "trecho_a_inserir" . Por exemplo:
/T "<title>*</title>" -> "Título do texto"
incluirá o seguinte trecho no início de cada texto:
<TITLE> Título do texto </TITLE> <title></title>
Note que o programa insere, erroneamente, uma linha extra de título, sem informação
(<title></title>). Assim, para limpar essa linha equivocada, é preciso colocar mais uma
linha de comando no arquivo de alterações, de tal modo que ele fique assim:
/T "<title>*</title>" -> "Título do texto" “<title></title>” -> “”
Isso fará com que a linha errada seja apagada.
O comando /T é muito semelhante ao de adicionar texto (/A). A diferença é que /T insere o
código de título (<title></title>) automaticamente. Devido ao problema mostrado,
contudo, é mais eficiente usar /A.
8.18.5. Exemplo de arquivo de alterações
Para ilustrar um uso básico dos comandos em um caso concreto, tomemos a questão de
transformar textos que possuam etiquetas de indicação de falante no início dos turnos, no
formato <FALANTE> ., como por exemplo:
<ALDA> . Mas qual foi a data que o Ernesto pediu para o mostruário? <MÁRCIA> . Ele falou que pode ser assim, dia 25 é a feira,<I> < ALDA > . Dia 25 de quê? < MÁRCIA > . De janeiro.
Embora o WordSmith Tools possa ser instruído a ignorar essas etiquetas, em alguns casos
é preciso produzir uma versão do arquivo em que elas não existam. Lembre sempre de (1)
fazer uma cópia de segurança (backup) do seu texto antes de fazer as modificações, (2)
escolher a opção ‘or (safer) copy to’ na janela de ajustes, para evitar perder o arquivo
original.
286
Para eliminar essas etiquetas, o arquivo de alterações deverá conter apenas uma regra:
“{CHR(13)}{CHR(10)}<*> .” -> “{CHR(13)}{CHR(10)}”
Isso fará com que:
(1) O programa procure por um final de linha ({CHR(13)}{CHR(10)}) seguido do
caracter <, seguido de qualquer caracter, uma ou mais vezes, seguido do caracter >,
seguido de espaço, seguido de ponto final. É preciso declarar o código de final de
linha para indicar o início de uma nova linha. Assim, o programa não se confundirá
procurando uma seqüência de caracteres semelhante à de falante em outra posição
do texto que não seja a de início de linha.
(2) Ao encontrar tal seqüência, transforme-a em marca de final de linha
({CHR(13)}{CHR(10)}). Isso preserva a separação entre os turnos dos falantes.
Caso fosse omitida, o resultado seria um texto ‘corrido’, sem as divisões entre os
turnos.
8.19. Viewer & Aligner
Esse utilitário possui duas funções:
• Viewer: Exibir um texto.
• Aligner: Alinhar dois textos.
Para acionar cada um, os procedimentos iniciais são os seguintes:
• Viewer: Clique em File, Viewer, Open a text.
• Aligner: Clique em File, Aligner, Start.
A seguir são apresentadas informações mais detalhadas sobre cada função desse utilitário.
8.19.1. Viewer
Essa função exibe um texto na tela, conta e enumera períodos e parágrafos e exibe textos
em HTML e SGML. Se o usuário desejar apenas ler um arquivo na tela, pode optar por
abri-lo no seu editor de texto tradicional.
287
Para exibir um texto no Viewer & Aligner, abra o programa no Controller, com o menu
Utilities / Viewer & Aligner. Depois, no próprio Viewer & Aligner, clique em File /
Viewer / Open a text.
O arquivo será exibido com as unidades numeradas (períodos ou parágrafos, de acordo
com os sinais ou etiquetas definidos em Settings, Text Characteristics, Tags), conforme
ilustra a figura a seguir:
A parte superior do visualizador traz a quantidade de sentenças (ou parágrafos) e
cabeçalhos encontrados. No caso acima, são dois (2 Paragraphs and headings). Esse
número será computado com base nas definições de sentença e cabeçalho fornecidas no
menu Settings / Text. Para que o programa considere um parágrafo como um trecho que
termina no sinal de Enter, digite <Enter> no espaço reservado a ‘paragraph’; e para que o
programa entenda um período como um trecho que se encerra com um ponto final, digite
auto no espaço correspondente a ‘sentence’. O programa não distingue parágrafos vazios
de não vazios; assim, uma linha em branco, demarcada por sinais de <Enter>, será
computada como um parágrafo válido. Para evitar esses problemas, revise seus textos ou
os normalize usando o Converter (explicado acima).
Os botões do Viewer & Aligner são descritos abaixo.
Menu File:
• Start: Inicia o Aligner apenas. Para inciar o Viewer, clique em File / Viewer / Open a
text.
• Save: Salva o texto com o nome atual.
• Save as ...: Permite salvar o texto com outro nome.
288
• Save as text: Salva o texto com numeração de período ou de parágrafo, de acordo com
a visualização exibida no momento.
• Copy: Copia um trecho da tela de exibição para a área de transferência (‘clipboard’) do
Windows.
• Exit: Sai do utilitário.
• No-check Exit: Sai do utilitário sem perguntar se o arquivo precisa ser salvo antes.
Menu Edit:
• Trim Extra Spaces: Remove espaços em branco redundantes. Por exemplo, a frase a
seguir possui espaços redundantes: a primeira palavra
Já a seguinte não os possui: a primeira palavra
• Find lower-case lines: Identifica o próximo período ou parágrafo que não se inicia por
letra maiúscula. Isso serve para indicar frases ou parágrafos quebrados, que precisam
ser reparados antes do alinhamento. Por exemplo: Este é uma período que se inicia por letra maiúscula
mas este não.
Nesse caso, ‘mas este não’ aparece como outro período porque está separado do
restante do texto por uma marca de final de linha (Enter). Devido ao fato de esta marca
poder passar despercebida, já que é invisível, é necessário uma ferramenta para indicar
os trechos que estão indevidamente separados por ela.
• Find short lines: Encontra trechos com menos de 30 caracteres. A função desse
comando é também de identificar trechos mal-formatados. Nesse caso, os trechos
curtos demais podem indicar pedaços de períodos ou de parágrafos que se
desprenderam do bloco principal por erro de formatação.
• Insert tags: Insere etiquetas de demarcação de período (<s>) e de parágrafo (<p>), com
base na formatação do arquivo. Para remover as etiquetas, basta clicar mais uma vez
nesse item. A figura abaixo ilustra a tela do Viewer & Aligner com um texto onde
foram inseridas essas etiquetas:
289
Menu View.
• Mode. Clicando nele, alterna-se entre ‘sentence’ e ‘paragraph’. ‘Sentence’ exibe o
texto com as sentenças numeradas, enquanto ‘paragraph’ o faz com os parágrafos. O
Viewer usa as etiquetas especificadas em Settings / Text Characteristics / Text,
‘sentence’ ou ‘paragraph’ para entender onde começam e terminam períodos e
parágrafos.
• Display. Alterna entre ‘normal’ e ‘accents, etc. as codes’. O primeiro mostra o texto de
modo legível (como exibido na figura anterior). ‘Accents, etc. as codes’ exibe o texto
com códigos no lugar dos caracteres acentuados.
• Ignored tags. Alterna entre ‘cut’ e ‘visible’. No primeiro caso, remove as etiquetas
indicadas como sendo ‘para ignorar’ em Settings / Text Characteristics / Tags. No
segundo caso, deixa essas etiquetas visíveis no texto. Serve para mostrar o efeito da
exclusão de etiquetas do texto.
• Format: Alterna entre ‘ASCII’, ‘HTML’ e ‘SGML’. Exibe o texto de acordo com a
opção selecionada, interpretando os códigos de formatação existentes em cada caso.
Caso a formatação escolhida não seja a correta, o texto pode ser exibido como se
estivesse em branco.
• Header: Serve para mostrar (‘visible’) or retirar (‘cut’) o cabeçalho do texto, de acordo
com as etiquetas de delimitação apontadas em Text Characteristics / Text / heading,
start – end.
Menu Settings: Possui botões para ajustes das propriedades dos textos, semelhantes às
290
demais ferramentas.
Menu Window: Organiza as janelas do programa.
Menu Help: Fornece acesso à ajuda.
8.19.2. Aligner
Essa função permite o alinhamento de dois textos no nível do período ou do parágrafo.
Alinhamento significa fazer uma correspondência entre dois textos de tal modo que cada
unidade alinhada corresponda à outra, seja em termos de ser original ou tradução da outra,
ou de ser tematicamente análoga, ou qualquer outro critério de interesse do pesquisador.
Para iniciar o Aligner:
(1) Clique em File, Aligner, Start.
(2) Aparecerá uma janela ‘Getting Started’. Lá, clique em ‘Source text’.
(3) Selecione um texto (normalmente, o texto fonte – que pode ser o original, numa
situação de tradução) e clique em OK. O texto aparecerá na tela.
(4) Volte à janela ‘Getting Started’, clique em ‘Translation’, selecione o texto e clique
em OK. Esse texto também aparecerá na tela.
(5) Volte mais uma vez a ‘Getting Started’ e clique em ‘View Dual Text’. Se aparecer
uma janela dizendo ‘No more sentences not beginning with a capital letter found’,
clique em OK.
(6) O texto alinhado aparecerá na tela, conforme ilustra a figura abaixo. Os períodos do
texto 1 aparecerão intercalados aos do texto 2. Os períodos do texto 1 aparecerão
em vermelho, precedidos por uma etiqueta do tipo <! -- L1, S xx-->, onde xx
significa o número do período. Já os períodos do texto 2 surgirão na cor azul e
serão iniciados pela etiqueta <! – L2, S xx-->. L1 significa ‘language 1’ e L2,
‘language 2’.
291
Obviamente, raramente os textos traduzidos possuem essa relação direta com o texto
original. Por isso, o resultado inicial do alinhamento precisa ser melhorado, de tal modo
que alguns períodos precisem ser agrupados para mostrar a equivalência entre os textos.
Na tela abaixo, aparece um exemplo do alinhamento inicial de dois textos que possuem
números diferentes de períodos (dois no original em inglês e três na tradução em
português):
Para melhorar esse alinhamento, é preciso juntar os períodos 4 e 6, do texto em português,
num período apenas. Dessa forma, ele seria automaticamente alinhado com o período 3 do
texto em inglês. Para fazer isso, os passos são os seguintes:
292
(1) Clique no primeiro período que será unido (no caso do exemplo, o 4).
(2) Clique no botão ‘Mark’, da barra de tarefa. O período permanecerá selecionado (na
cor azul).
(3) Clique no segundo período que será unido (no caso do exemplo, o 6).
(4) Clique novamente no botão ‘Mark’, da barra de tarefa. Esse período também
permanecerá selecionado. Note que a ordem de seleção dos períodos é importante.
Caso fosse escolhido e marcado o período 6 antes do 4, o programa emitiria uma
mensagem de erro dizendo ‘can only join to the one above’. Caso erre na seleção
do período, clique novamente em ‘Mark’ para desmarcar, selecione o período
correto e clique em ‘Mark’, desta vez para marcar.
(5) Clique em ‘Join’. Os dois períodos serão unidos, conforme mostra a tela abaixo:
(6) Caso precise desmanchar a união, clique no botão ‘Un-join’, da barra de
ferramentas. Depois, aparecerá uma tela pedindo que seja indicada a posição onde
será feita a separação do período. No nosso caso, para retornar o texto em
português ao seu formato inicial, é preciso selecionar a palavra ‘outro’:
293
(7) Clique em OK para efetuar o desmembramento. O texto retornará ao formato
inicial.
(8) Para salvar o texto alinhado, clique em File, Save, ou no botão de Salvar da barra
de ferramentas. A seguir, aparecerá uma tela para digitação do nome do arquivo e
para escolha da pasta. Lembre-se de não alterar a terminação do arquivo, que é
.vwr . Clique em OK, e aparecerá uma janela indicando que a gravação funcionou.
(9) Para abrir um texto já alinhado, clique em File, Aligner, Open Saved Dual Text.
8.19.2.1.Barra de ferramentas
Os botões da barra de ferramentas do Viewer / Aligner são os seguintes:
• Start: Inicia o Aligner.
• Save: Grava o arquivo.
• Save as: Grava o arquivo com outro nome.
• .txt: Salva o texto no formato ASCII (.txt).
• Print Preview: Permite visualizar a impressão.
• Copy: Copia conteúdo selecionado para a área de transferência (‘clipboard’) do
Windows.
294
• Help: Inicia a ajuda do programa.
• Advice: Tenta trazer à tela tópicos de ajuda mais pertinentes à tarefa em curso.
• Grow: Aumenta a altura de cada linha do texto, para permitir melhor visualização de
linhas com muito texto.
• Shrink: Diminui a altura de cada linha do texto.
• Auto-size: Ajusta automaticamente a altura da linha à quantidade de texto.
• Layout: Permite mudar a cor da linha e a aparência da fonte (negrito, etc.). Não
funciona em algumas versões.
• Mark/Unmark: Seleciona texto para junção durante alinhamento.
• Join: Junta duas linhas (períodos ou parágrafos) durante alinhamento.
• Unjoin: desfaz junção de linhas.
• Zap: Quando o usuário seleciona linhas e pressiona a tecla ‘delete’, essas linhas
permancem na tela. Para eliminá-las, é preciso clicar o botão ‘Zap’. Caso não tenha
sido teclado ‘delete’ ainda, aparece mensagem de erro dizendo ‘nothing to zap’.
• Edit: Abre uma janela de edição para alteração do texto da linha. O usuário pode
digitar na linha, incluindo ou apagando texto. Ao clicar OK, a nova versão editada
passa a integrar o texto exibido na tela. Apenas os caracteres visíveis do teclado são
permitidos. Marcas de tabulação ou de final de linha (‘Enter’) aparecerão como
códigos incompreensíveis (‘quadradinhos’). Para ver o que esses códigos significam, é
preciso clicar no menu View e selecionar Display: Accents, etc as codes. Por exemplo,
se tivesse sido inserido um final de linha, ele agora seria exibido como <13> <10>, que
são os números dos caracteres do DOS que indicam o final de linha (caracter 13
seguido de caracter 10).
• Search: lança para fazer busca no texto exibido.
• Skim: Rola automaticamente a tela (‘scroll down’) do Viewer / Aligner. O objetivo é
auxiliar o usuário na revisão do texto alinhado ou na inspeção do texto exibido, em
geral. Ao selecionar skimming, o cursor transforma-se num pequeno relógio, cujo
295
ponteiro se movimenta continuamente. Ele possui efeito apenas estético, mostrando ao
usuário a velocidade de rolagem em operação (perceptível pela velocidade de rotação
do ponteiro). Também aparece, no canto inferior direito da tela, uma pequena barra
horizontal deslizante para controlar a velocidade de rolagem da tela. Caso ela não
esteja visível, aumente a área de visão da tela. Quando o tempo de exibição da tela é
excedido, ela é rolada para baixo e outro trecho é exibido. Para aumentar ou diminuir a
duração de exibição de cada tela, deslize a barra. Para interromper o ‘skimming’, basta
clicar no botão novamente.
296
9. Referências bibliográficas
Aleixo, A. Eu não sou o Jabor, não. Revista VIP. Março 2005. Baker, M. Corpus Linguistics and translation studies: Implications and applications. In: M. Baker, G. Francis, et al (Ed.). Text and Technology: In Honour of John Sinclair. Philadelphia/Amsterdam: John Benjamins, 1993. Corpus Linguistics and translation studies: Implications and applications, p.233-250 Bakhtin, M. Estética da Criação Verbal. São Paulo: Martins Fontes. 1997 Bazerman, C. Shaping Written Knowledge: The Genre and Activity of the Experimental Article in Science. Madison, Wis.: University of Wisconsin Press. 1988. xi, 356 p. (Rhetoric of the human sciences) Berber Sardinha, T. Automatic identification of segments in written texts. (Tese de Doutoramento). AELSU/English Department, University of Liverpool, UK. , 1997. ______. Lingüística de Corpus. São Paulo: Manole. 2004 ______, Ed. A Língua Portuguesa no Computador. Campinas / São Paulo: Mercado de Letras / FAPESPed. 2005. ______. Metaphor probabilities in corpora. In: M. S. Zanotto, L. Cameron, et al (Ed.). Confronting Metaphor in Use: An Applied Linguistic Approach. Amsterdam/Atlanta, GA: Benjamins, no prelo. Metaphor probabilities in corpora Bhatia, V. K. Analysing Genre: Language Use in Professional Settings. London: Longman. 1993 Biber, D. Variation across Speech and Writing. Cambridge: Cambridge University Press. 1988 Biber, D. e S. Conrad. Lexical bundles in conversation and academic prose. In: H. Hasselgard e S. Oksefjell (Ed.). Out of Corpora - Studies in Honour of Stig Johansson. Amsterdam/Atlanta,GA: Rodopi, 1999. Lexical bundles in conversation and academic prose, p.181-190 Biber, D. e E. Finegan. Drift and the Evolution of English Style: A History of Three Genres Language, v.65, n.3, p.487-517. 1989. Bronckart, J. P. Le Fonctionnement des Discours - Un Modèle Psychologique et un Méthode D'Analyse. Neuchatel, Paris: Delachaux & Niestlé. 1985 Celani, M. A. A., A. F. Deyes, et al. ESP in Brazil - 25 Years of Evolution and Reflection. São Paulo / Campinas: EDUC, Mercado de Letras. 2005 Coulthard, M. On the use of corpora in the analysis of forensic texts. Forensic Linguistics, v.1, n.1, p.27-44. 1994.
297
Deignan, A. Metaphor and Corpus Linguistics. Amsterdam/Philadelphia: John Benjamins. 2005 Eggins, S. An introduction to Systemic Functional Linguistics. London: Pinter. 1994 Fairclough, N. Language and Power. London and New York: Longman. 1989 French, P., J. Olsson, et al. Textual Evidence - BBC Radio 4 2005. Halliday, M. A. K. e R. Hasan. Language, Context, and Text: Aspects of Language in a Social-Semiotic Perspective. Oxford: Oxford University Press. 1989 Halliday, M. A. K. e C. M. I. M. Matthiessen. Construing Experience through Meaning: A Language-based Approach to Cognition. London ; New York: Continuum. 2000. (Open linguistics series) Kilgariff, A. Comparing word frequencies across corpora: Why chi-square doesn't work, and an improved LOB-Brown comparison. ITRI, University of Brighton, UK. Dispon°vel no site http://www.itri.bton.ac.uk/~Adam.Kilgarriff. Lakoff, G. e M. Johnson. Metaphors We Live By. Chicago: University of Chicago Press. 1980 Martin, J. R. English Text. Philadelphia/Amsterdam: John Benjamins. 1992 Mcmenamin, G. R. Forensic Linguistics - Advances in Forensic Stylistics. Boca Raton, Fla.: CRC Press. 2002. Meurer, J. L., A. Bonini, et al., Eds. Gêneros - Teorias, Métodos, Debates. São Paulo: Parábolaed. 2005. Olson, A. Authoring a Code of Ethics - Observation on Process and Organization 2006. Scott, M. e C. Tribble. Textual Patterns - Key Words and Corpus Analysis in Language Education. Amsterdam/Philadelphia: John Benjamins. 2006 Sinclair, J. Corpus, Concordance, Collocation. Oxford: Oxford University Press. 1991 Svartvik, J. The Evans Statements - A Case for Forensic Linguistics. Goteborg: Goteborg University. 1968 Swales, J. M. Genre Analysis - English in Academic and Research Settings. Cambridge: Cambridge University Press. 1990 ______. Other Floors, Other Voices - A Textography of a Small University Building. Mawmah, NJ: Lawrence Earlbaum. 1998 Thompson, G. e S. Hunston. System and corpus: Two traditions with a common ground. In: G. Thompson e S. Hunston (Ed.). System and Corpus. London: Equinox, 2006. System and corpus: Two traditions with a common ground, p.1-14
298
299
10.Outras fontes de referência
O número de pesquisadores que se valem do WordSmith Tools como ferramenta de análise
aumenta constantemente. Não há um registro centralizado dessa informação, mas há
websites que trazem registros dessa bibliografia, com ou sem acesso aos trabalhos online.
• http://www.pucsp.br/pos/lael: o ponteiro ‘Teses e dissertações’ leva a uma listagem das
pesquisas defendidas pelos alunos do Programa de Estudos Pós-Graduados em
Lingüística Aplicada e Estudos da Linguagem da PUC-SP, muitos dos quais
empregaram WordSmith Tools para análise dos dados, todos com acesso online aos
trabalhos.
• http://www.lexically.net: Seguindo o ponteiro referente a Publications e depois a ‘other
authors’, chega-se a uma listagem crescente de artigos, capítulos, livros e dissertações
que utilizaram WordSmith Tools. Não há ponteiros para fazer download dos trabalhos
elencados.
• http://www2.lael.pucsp.br/direct: Esse website inclui acesso online aos DIRECT
Papers, muitos dos quais referem-se a pesquisa realizada com WordSmith Tools. Há
ainda trabalhos sobre o uso de WordSmith Tools, tanto de divulgação para iniciantes
quanto de aprofundamento em relação a questões relativas à extração de palavras-
chave com KeyWords.