criando corpora pessoais corpógrafo – presente e futuro
DESCRIPTION
Criando corpora pessoais Corpógrafo – presente e futuro. Belinda Maia. PRESENTE. Corpógrafo. Um conjunto de ferramentas que permitem: Criar corpora Analisar corpora Extrair e catalogar itens linguísticos Armazenar o material estudado Exportar os resultados. Corpógrafo. Versão online: - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/1.jpg)
Criando corpora pessoais Corpógrafo – presente e
futuroBelinda Maia
![Page 2: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/2.jpg)
PRESENTE
![Page 3: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/3.jpg)
Corpógrafo
Um conjunto de ferramentas que permitem:• Criar corpora
• Analisar corpora
• Extrair e catalogar itens linguísticos
• Armazenar o material estudado
• Exportar os resultados
![Page 4: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/4.jpg)
Corpógrafo
Versão online:• Tem todas as funções
• Cada pessoa ou grupo trabalha num espaço próprio
• O trabalho de cada espaço é privado
Versão descarregável• Tem de pedir licenças para certas funções
• Não compatível com Windows
![Page 5: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/5.jpg)
Criar corpora
Colecção de textos Limpeza de formatação –
e.g. .doc, .pdf, .ps, .html Fraseamento do texto Dicionário Registo de metadata
• Referências bibliográficas, fontes, etc
• Classificação - ‘medium’, género, domínio
• Língua
![Page 6: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/6.jpg)
Criar corpora
Organização – e reorganização - de textos em corpora
Registo de metadata Relacionar corpora Alinhamento de textos paralelos Criação de corpora paralelos Exportação de corpora
![Page 7: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/7.jpg)
Analisar corpora
Concordância frase – frase inteira Concordância Janela – até 15 átomos de
cada lado Concordância KWIC – até 15 átomos ou
100 caráteres N-grams – até 15 – ordem alfabética /
frequência
![Page 8: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/8.jpg)
Concordâncias
Pode ver• Metadata do texto fonte
• Estatísticas do átomo / frase no corpus
• Outra forma de concordância
Em concordância janela – pode reorganizar por colunas à esquerda ou direita
![Page 9: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/9.jpg)
Tipos de pesquisa
Por expressões regulares MySQL Por PoS NooJ – em Francês, Inglês ou
Português• Utiliza dicionários etiquetados
Por sequências de expressões regulares ou gramáticas NooJ
![Page 10: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/10.jpg)
Centro de conhecimento
Bases de dados terminológicas• Objectivo original – extracção de terminologia
Bases de dados fraseológicas• Objectivo mais recente – permitir extracção e
classificação de• Itens do léxico geral
• Expressões multi-palavras
![Page 11: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/11.jpg)
Bases de dados terminólogicas
BDs - multilingual Ferramentas:
• n-gram com filtros para extracção de ‘candidatos a termos’
• Possibilidade de pesquisar definições e relações semânticas
• Escolha de termos > traz metadata do corpus Dados terminológicos – registo de informação Material multimedia
![Page 12: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/12.jpg)
Informação em BD
Geração de estatísticas dos termos• Frequência
• Co-ocurrência em textos
Ferramenta para ‘bootstrapping’ textos a partir de termos escolhidos
Concordância de corpora comparáveis Criação de relações semânticas pelo
pesquisador
![Page 13: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/13.jpg)
BDs Fraseológicas
Algumas funções iguais ou semelhantes às BDs terminológicas
MAS Pesquisa com gramáticas NooJ – resultados >
BD Relações discursivos (Rhetorical Structure
Theory) Possibilidade de criar classificações do
investigador
![Page 14: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/14.jpg)
Exportação de dados
Exportação de corpora Exportação de BDs
![Page 15: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/15.jpg)
FUTURO
![Page 16: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/16.jpg)
Funcionamento
Acelerar processamento Tornar possível manuseamento de maior
quantidade de dados Permitir mais interacção entre áreas
privadas quando desejado Criar possibilidade de projectos em
grupo mais sofisticados
![Page 17: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/17.jpg)
Textos e corpora
Ferramenta para ‘bootstrapping’ de textos na Net na área de ‘uploading’ textos
Criar possibilidades de aceitar mais tipos de ficheiros - .docx, ppt, pptx, etc
Criar possibilidade de utilizar Corpografo com línguas como polaco, russo, grego, e até árabe e chinês etc
Melhorar sistema de limpeza de textos
![Page 18: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/18.jpg)
Listas do léxico
Actualmente podemos criar um ‘dicionário’ de cada texto ou corpus
Criar• ‘standard wordlists’ para comparação
• + sistema estatística relacionado
• Etiquetagem PoS automática + ferramentas de correcção
![Page 19: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/19.jpg)
Pesquisa de corpora
My SQL - aumentar possibilidades com mais exemplos e tutorial próprio – para linguístas
Possibilidades de utilizar vários sistemas (semi-)automáticos de anotação
Integração de uma ferramenta que permite ao utilizador criar a sua própria anotação
![Page 20: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/20.jpg)
Outras Ideias
Aumentar possibilidades de criar relações• Sintácticos
• Semânticos Criar possibilidades de visualizar as
relações estabelecidos Usar métodos estatísticos para criar ‘word
clouds’ para futuro estudo e análise por linguístas > melhores ferramentas para data mining
![Page 21: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/21.jpg)
Aproveitar
Wordnet – original e em PT Framenet – original e em PT Outros maneiras ‘linguísticas’ de analisar
a linguagem …… Sistemas informáticos > word clouds
![Page 22: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/22.jpg)
Por exemplo
http://news.bbc.co.uk/2/hi/americas/7813432.stm
What words did George Bush use most during this eight-year presidency?
![Page 23: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/23.jpg)
![Page 24: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/24.jpg)
Wortschatz – Univ. Leipzig
http://corpora.informatik.uni-leipzig.de/?dict=uk• Computational
• Linguistics
• Artificial
• Intelligence
![Page 25: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/25.jpg)
![Page 26: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/26.jpg)
![Page 27: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/27.jpg)
![Page 28: Criando corpora pessoais Corpógrafo – presente e futuro](https://reader030.vdocuments.pub/reader030/viewer/2022033106/56814887550346895db59ab8/html5/thumbnails/28.jpg)