possibilidades de sintaxe para escience: a utilização de

14
Possibilidades de sintaxe para eScience: a utilização de uma ferramenta de mineração de textos Jose Luiz Goldfarb i & Odécio Souza ii Sumário Resumo .............................................................................................................. 2 Minerar dados .................................................................................................... 4 Uma visão de Mapa Conceitual ......................................................................... 4 SOBEK .............................................................................................................. 5 Stop Words & Thesaurus. Parametrização do SOBEK ................................. 6 A Biblioteca Digital do CESIMA ...................................................................... 6 Projeto Retrieve.............................................................................................. 7 Pesquisa Padrão.............................................................................................. 8 Pesquisa Conceitual ....................................................................................... 9 Questão M-A-N-G-A ................................................................................... 10 Anacronismo & Contexto ............................................................................ 10 Considerações finais ........................................................................................ 10 Referências ...................................................................................................... 12 Nota.................................................................................................................. 13

Upload: others

Post on 02-Jan-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Possibilidades de sintaxe para eScience: a utilização de

Possibilidades de sintaxe para eScience:

a utilização de uma ferramenta de mineração de textos

Jose Luiz Goldfarbi & Odécio Souzaii

Sumário

Resumo .............................................................................................................. 2

Minerar dados .................................................................................................... 4

Uma visão de Mapa Conceitual ......................................................................... 4

SOBEK .............................................................................................................. 5

Stop Words & Thesaurus. Parametrização do SOBEK ................................. 6

A Biblioteca Digital do CESIMA ...................................................................... 6

Projeto Retrieve.............................................................................................. 7

Pesquisa Padrão.............................................................................................. 8

Pesquisa Conceitual ....................................................................................... 9

Questão M-A-N-G-A ................................................................................... 10

Anacronismo & Contexto ............................................................................ 10

Considerações finais ........................................................................................ 10

Referências ...................................................................................................... 12

Nota .................................................................................................................. 13

Page 2: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.2 de 14

Resumo

Em Digital Humanities, mapas conceituais podem ser utilizados como pontos

de partida de análises que pretendam entender mapas da ciência.

Em História da Ciência, procedimentos coerentes levam à seleção de

documentos para depois realizar uma dissecção destes.

Acreditamos ser plausível observar os resultados da utilização de um

determinado algoritmo computacional, um software, uma ferramenta de mineração de texto, o

SOBEK, como nosso documento. Os autores deste nosso documento apontam sua utilização

no suporte educacional à dinâmica de criação e aprimoramento de textos e também a obtenção

– mineração – de conceitos em outras áreas de atuação. Observe-se que conceitos é aqui

utilizado como se carregasse o mesmo significado de rótulo, termo ou tópico – label, tag,

term, topic – conforme é mais comum se encontrar em textos tidos como relativos às Digital

Humanities. Por texto, tomaremos tanto algum conjunto não estruturado de dados – como um

conjunto de manifestações a respeito de um certo evento em uma rede social –, quanto um

artigo ou livro, ou um conjunto destes, seja qual for seu tamanho, sendo estes últimos

considerados dados estruturados. Em ambos os casos, por sua diversidade e quantidade, são

alvo de um certo acervo de práticas e conhecimentos, fenômeno que tem se acentuado

modernamente, referido constantemente como Big Data1.

Pretendemos através do presente ensaio oferecer uma análise da ferramenta de

mineração de texto SOBEK e demonstrar uma proposta de interação desta com a Biblioteca

Digital em História da Ciência pertencente ao CESIMA, fornecendo ao menos alguns passos

no sentido de instrumentalizar a manipulação dos mapas citados. Ainda que hajam outras

opções, utilizaremos o SOBEK como um laboratório, especialmente no entendimento do

relacionamento deste tipo de ferramenta com as listas de conceitos conhecidas como

thesaurus.

Consideramos de alta relevância as possibilidades que se abrem com pesquisas

que transitam na interface entre novos desenvolvimentos tecnológicos e as pesquisas

tradicionais em História da Ciência, pois como veremos, uma nova versão do SOBEK,

adaptada às nossas necessidades poderá mostra-se de grande utilidade para pesquisas futuras

1 Big Data e Digital Humanities, são no contexto estudado, tomadas frequentemente como coincidentes ou pelo menos tendo áreas fortemente convergentes.

Page 3: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.3 de 14

da área.

Page 4: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.4 de 14

Minerar dados

No sentido que utilizaremos neste ensaio, minerar significa extrair de mina2.

Ao pesquisador usualmente oferece-se o trabalho de explorar minas de conhecimento em

bibliotecas materiais (objetos de interesse) ou virtuais (objetos computacionais3) com a

finalidade de extrair delas matérias primas: conhecimento. Modernamente, nossas minas

virtuais têm acumulados volumes de documentos que podem ou não conter preciosidades a

serem extraídas, mas o volume crescente desses documentos tem progressivamente tornado a

atividade do pesquisador, ao tentar separar o joio do trigo, uma quase impossibilidade. No

momento em que estamos criando este documento, para dar um exemplo, uma pesquisa no

Google resultou “Aproximadamente 1.730.000 resultados” para o termo “Digital

Humanities”4. Há de haver, na bagagem instrumental de cada pesquisador, um conjunto de

ferramentas que permitirão refinamentos sucessivos, terminando por viabilizar seu trabalho.

Uma dessas ferramentas possíveis se materializará em um programa aplicativo que tenha a

capacidade de percorrer um texto, deste extraindo seus conceitos principais, algo similar à

atividade de um leitor humano, que trabalhando um texto impresso, com um marcador de

textos em punho, vai colorindo esse texto, minerando, portanto, seus conceitos mais

significativos.

Um dos resultados possíveis da execução de um algoritmo de mineração de

textos é um Mapa Conceitual.

Uma visão de Mapa Conceitual

2 Novo Dicionário Aurélio da Língua Portuguesa, 2a. edição, 1986, s.v. Minerar. 3 Sobre objetos de interesse e objetos computacionais, observar detalhes oferecidos em Nota ao final deste ensaio. 4 URL utilizada em 30 de junho de 2016:https://www.google.com.br/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-

8#q=%E2%80%9CDigital+ Humanities%E2%80%9D. A mesma URL retornou, em 04 de julho de 2016, quarenta mil resultados a mais. Suprimidas as aspas, aproximadamente 8.140.000 resultados foram obtidos.

Page 5: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.5 de 14

1 - Mapa de Conceitos5

A figura 1 - Mapa de Conceitos, está sendo utilizada para oferecer um

exemplo de resultado do uso do nosso documento, uma ferramenta (algoritmo) de mineração

de textos. Sua observação deverá servir para uma evidenciar os conceitos mais relevantes que

expressamos no resumo do presente ensaio e como eles se relacionam. A dimensão dos

quadriláteros imita a relevância dos conceitos, enquanto as linhas, seus relacionamentos.

SOBEK

Para melhor explicar tais quadriláteros e linhas, exploremos com que

finalidades e através de quais métodos nosso documento foi criado. Segundo seus autores,

essa ferramenta:

foi idealizada como recurso de apoio aos professores no acompanhamento

de trabalhos de escrita [... onde ...] elementos para escrever um texto [seriam] : [1] a repetição

(retomadas de elementos feita por pronomes ou por palavras e expressões equivalentes ou

sinônimas), [2] a progressão (acrescentar novas informações ao que já foi dito

complementando a repetição buscando equilibrar o que já foi dito com o que se vai dizer,

garantindo a continuidade do tema), [3] a não-contradição (não devem surgir elementos que

contradigam aquilo que já foi citado) e [4] a relação (os fatos e conceitos devem estar

relacionados). Todas essas partes compõem o texto, elas surgem uma após a outra,

relacionando-se com o que já foi dito ou com o que se vai dizer e podem ajudar a avaliar o

grau de coesão dos textos.6

A medida que se vai montando um texto, pode-se submete-lo à ferramenta

para verificar-se se esses elementos vão sendo atendidos. Orientando seus alunos nesse

processo, um professor permite um entendimento interativo do resultado obtido e, portanto, a

auto avaliação dos progressos nesse processo de aprendizagem; o aluno pode comparar o que

pensa estar expressando com aquilo que vai sendo automaticamente entendido; e todos os

agentes desse processo podem tanto fazer uma avaliação dos resultados que vão sendo

obtidos, quanto facilmente comparar diversos deles. Para possibilitar tal atividade, SOBEK

“extrai automaticamente os conceitos principais de um texto e mostra graficamente seu grau

de importância [ou relevância, como temos utilizado neste ensaio] e suas inter-relações.”7

A imagem resultante da aplicação do SOBEK é denominada “grafo – diagrama

5 Extraído do Resumo deste ensaio, com uso da versão On Line da ferramenta SOBEK. http://sobek.ufrgs.br/try-sobek-online.html em 21 de

junho de 2016. 6 Klemann, “O Emprego da Ferramenta de Mineração de Textos SOBEK como Apoio à Produção Textual”, 3. 7 FAPESP, 86.

Page 6: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.6 de 14

formado por nodos (os conceitos isolados em quadros) e arestas (os traços de ligação),”8

imagem esta que neste ensaio foi denominada Mapa Conceitual, sendo resultado da aplicação

de métodos especialmente expressos em Schenker, baseados em análises estatísticas dos

textos, obtendo a frequência com que palavras e termos compostos nele aparecem, assim

como a distância entre os conceitos é também ponderada; Schenker chama a atenção sobre o

fato que “em muitas linguagens naturais, como o Inglês, mais especificidade é criada quando

mais termos são utilizados para descrever uma entidade”.9 SOBEK é capaz de estabelecer os

nodos e determinar seu grau de relevância e portanto seu tamanho em relação aos demais

nodos, além de demonstrar, traçando linhas entre eles, como se relacionam.

Stop Words & Thesaurus. Parametrização do SOBEK

Stop Words são uma coleção de termos que embora frequentes “não geram

sentido isoladamente, como artigos e preposições.”10 Palavras que aparecem em tal coleção

são desconsideradas durante as análises.

Outra coleção, frequentemente denominada thesaurus, se apresenta como “um

dicionário de sinónimos [que] é usado para identificar os conceitos que são referidos usando

palavras diferentes, de modo que eles podem ser representados em um único nó.”11 Assim, os

termos estudante, aluno e discente aparecerão sob um único valor, por exemplo estudante se

este for mais frequentemente utilizado no texto sob análise.

Manipulando a versão gráfica do SOBEK12 pode-se, através da opção de menu

Settings, optar pela quantidade de Conceitos a serem mostrados no gráfico final: SOBEK

desenhará um grafo com em média 15, 30 ou 50 conceitos. Esta opção Avarege Number of

Concepts terá como resultado uma média porque certos conceitos inicialmente selecionados

podem encontrar no Thesaurus um correspondente, diminuindo o número de nodos

desenhados no grafo final, por exemplo. Ainda em Settings, é possível selecionar Select the

minimum frequency, que permitirá determinar o mínimo de vezes que um conceito deve

aparecer para ser referenciado. Por fim, em Stop Words pode-se optar pelo conjunto Default,

Adicionar novos termos, ou Substituir tal conjunto.

A Biblioteca Digital do CESIMA

8 Ibid. 9 Schenker, “Graph-Theoretic Techniques”, 33. Nesta nossa versão para o Português mantivemos o termo entidade, ainda que se esteja

tratando daquilo que desde o início do presente ensaio temos denominado conceito. 10 FAPESP, 86. 11 Educational Text Minig: Mining with a single click. The SOBEK’s Quick Reference Guide, 2. 12 Versão 2.7 obtida do http://sobek.ufrgs.br/index.html 29 de agosto de 2016.

Page 7: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.7 de 14

O CESIMA - Centro Simão Mathias de Estudos em História da Ciência da

PUC-SP – acumulou, durante seus mais de 20 anos de existência, um acervo de cerca de

30.000 itens desde microfichas e microfilmes e livros, até documentos em variadas formas

eletrônicas (objetos de interesse). Tal acervo tem sido submetido a um processo de conversão

para objetos computacionais, quais sejam, arquivos em formato PDF já submetidos a

ferramentas capazes de reconhecimento de caracteres. O resultado desse processo pretende

fornecer um conjunto de documentos passíveis de serem armazenados em uma ferramenta de

catalogação de documentos, denominada DSpace, a cujo modelo de dados serão acrescentadas

estruturas capazes de armazenar os resultados das análises providas pelo SOBEK. A

amálgama obtida desse uso que estamos propondo do DSpace e do SOBEK deverá possibilitar

o desenvolvimento de um conjunto de algoritmos que denominamos Projeto Retrieve.

Projeto Retrieve

Presentemente em desenvolvimento, gerando sucessivos protótipos, deverá

adicionar aos dados já existentes no DSpace os resultados das análises providas pelo SOBEK,

então executadas de forma absolutamente automática, a partir de uma versão deste que ao

invés de prover um grafo, fornece os valores numéricos que permitiriam sua criação.

Torna-se possível o armazenamento de cada análise e facilita-se a

possibilidade de comparação de textos por coincidência ou não de seus mais relevantes

conceitos, reiteramos, em nossos protótipos e seus resultados, expressos por números.

Tomemos por exemplo dois textos hipotéticos, sendo que do primeiro se extrairia como

conceito mais relevante LUZ diretamente ligado a outro, PARTÍCULA, e do segundo

igualmente LUZ apareceria como mais relevante, porem ligado a ONDA. Um pesquisador

interessado em estudar aspectos ligados à luz facilmente perceberia qual texto escolher,

dependendo do estágio ou interesse de sua pesquisa. Estimamos que em uma coleção de obras

dedicadas à Ciência que modernamente é nomeada Física, da análise de diversos títulos

emergirão conceitos como deste exemplo.

Uma característica a ser desenvolvida, a qual estimamos possa se basear no

uso de thesaurus específicos, será possibilitar a consideração das mudanças de significado

através do tempo, caminhando no sentido de minimizar os conhecidos problemas de

anacronismo.

Page 8: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.8 de 14

SOBEK é considerado então nossa primeira autoridade13. Em seus estágios

mais avançados, nosso protótipo deverá oferecer a possibilidade de refinamento das análises

por autoridades diversas. Aqui o objetivo é permitir a criação de um depósito de dados que

contenha o resultado de sucessivas análises tanto por parte de outros algoritmos quanto de

pesquisadores. Dado que tais pesquisadores podem possuir diferentes níveis de expertise, que

diversas leituras de um mesmo texto possam revelar aspectos diversos em momentos

diferentes ou focos diferentes de análise, ou diferentes intenções de pesquisa; e dependendo

da intenção de quem procura localizar um documento pretendemos, portanto, oferecer quais

seriam os resultados da análise ao longo do tempo. Esta característica permitiria, inclusive

atividades de teste e aprimoramento de nossas autoridades algorítmicas. Estimamos que

certos documentos jamais sejam analisados por outros que não algoritmos, mas ao mesmo

tempo, que outros documentos, mais comumente acessados possam contar com diversas

análises o que ao estudioso poderá fornecer dados significativos, especialmente se

considerarmos possíveis flutuações nas classificações providas por mapas da ciência ao longo

do tempo, mudanças de significado de termos e expressões, constantemente referenciadas

como anacronismo, ou mesmo pontos de vista diversos de diferentes pesquisadores, ou seja,

considerando que estamos criando uma base de dados que procurará acumular o resultado de

análises a partir de ferramentas eletrônicas e de análises a partir de estudiosos, observar como

isso acontece, que resultados dá, portanto gerando uma base de conhecimento que

pretendemos ser útil no sentido de permitir aos cientistas da Computação uma estreita

interação com cientistas das Humanidades, objetivo que acreditamos ser convergente às

pretensões do eScience.

Como resultado adicional, estimamos a possibilidade de oferecer,

especialmente aos pesquisadores que se iniciam em uma nova região do mapa do

conhecimento, que a partir de um certo texto, ou melhor de seus conceitos mais relevantes,

sugerir outras leituras com as mesmas características, ou ainda submeter um texto aos

protótipos, obter seus conceitos mais relevantes e executar uma pesquisa contra o acervo do

CESIMA, obtendo assim sugestões de textos adicionais a estudar.

Pesquisa Padrão

13 Observe-se que Autoridade se utiliza aqui em um sentido específico: influência, prestígio, crédito; indivíduo

de competência indiscutível em determinado assunto. Novo Dicionário Aurélio da Língua Portuguesa, 2a.

edição, 1986, s.v. Autoridade.

Page 9: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.9 de 14

Característica nativa do DSpace, encerra a possibilidade de oferecer a um

algoritmo um termo ou conjunto de termos, requisitando então uma relação de resultados, que

podem apontar para acervos físicos (objetos de interesse) ou virtuais (objetos

computacionais). A maioria, se não todas as tentativas trarão resultados que apontarão, além

de provavelmente uma quantidade excessiva (vide nota sobre nossa pergunta “Digital

Humanities”, com e sem aspas, ao Google), para resultados pouco apropriados (observe-se

também a “Questão M-A-N-G-A” explorada adiante). Observe-se que é possível que as

questões oferecidas neste âmbito tenham seu resultado afetado por hábitos de pesquisa

específicos do usuário, ligados ou não ao equipamento utilizado, ou ainda a interesses

comerciais.

Pesquisa Conceitual

Obtivemos dos autores do nosso documento uma valiosa colaboração no

sentido da criação de uma versão do SOBEK que, ao invés de gerar grafos, permite acesso aos

valores numéricos que representam seus elementos. O estágio atual do nosso protótipo,

armazena esses valores numéricos em um conjunto suplementar de estruturas de dados que

foram adicionadas à estrutura nativa do DSpace.

Desse modo, armazenados os valores que traduzem a relevância e a

correlação entre conceitos de um texto, e oferecendo estes dados a um mecanismo específico

de Pesquisa, pretendemos aproximar-nos das necessidades do pesquisador.

Page 10: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.10 de 14

Questão M-A-N-G-A

Os protótipos que estão sendo construídos pretendem manipular questões

como a seguinte:

Sejam 5 letras escritas em Português, considerando a possibilidade de eventual supressão

de acentos.

A qual objeto de interesse o autor da oração se referia?

Fosse este um objeto computacional é possível garantir uma resposta coerente?

o Fui à uma feira:

Comi duas mangas.

Vesti duas mangas.

Li dois mangas.

Os conceitos feira, comi, vesti, li, provavelmente de uma forma imperceptível,

automática, darão ao leitor humano significado imediato às orações, permitindo que na

primeira ele se veja em uma rua e nas duas outras em um pavilhão de exposições, degustando

naquela uma fruta, apreciando na segunda um componente de um vestuário e na última um

artefato artístico oriundo da cultura oriental.

Anacronismo & Contexto

Potencialmente a questão M-A-N-G-A se resolve investigando-se o contexto

onde foi expressa. Tal empreitada deverá ser exigida também se o termo movimento, para dar

um outro exemplo, aparecer em um texto. Dependendo de quem e quando o expressa, pode

ser o resultado de uma força aplicada ao corpo, ou uma característica ligada à movimentação

do éter, contexto e anacronismo serão, portanto, alvo de atenção, potencialmente registro de

atributos, conforme nosso objeto computacional estiver sendo desenvolvido.

Considerações finais

Acreditando ser de alta relevância as possibilidades que se abrem com

pesquisas que transitam na interface entre novos desenvolvimentos tecnológicos e as

pesquisas tradicionais em História da Ciência e para tanto apresentamos um possível uso

desse objeto computacional. Sendo claro o direcionamento de Digital Humanities como uma

iniciativa interdisciplinar, oferecemos a possibilidade de criação de uma ferramenta a partir de

um trabalho de interação constante entre historiadores da ciência e cientistas da computação,

Page 11: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.11 de 14

esclarecendo que somente os primeiros passos dessa empreitada foram dados.

Page 12: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.12 de 14

Referências

Azevedo, B. T., Reategui, E. & Behar, P. A. “Analysis of the Relevance of Posts in

Asynchronous Discussions.” Interdisciplinary Journal of E-Learning and Learning

Objects, 10, 106-120, 2014. http://www.ijello.org/Volume10/IJELLOv10p107-

21Azevedo0899.pdf (acessado em 21 de abril de 2016).

Chen, Peter Pin-Shan. "The Entity-Relationship Model - toward a Unified View of Data."

International Conference on Very Large Data Bases, Framingham, Mass., Sept. 22-24,

1975. http://delivery.acm.org/10.1145/330000/320440/p9-chen.pdf?ip=200.144.145.4&

id=320440&acc=ACTIVE%20SERVICE&key=344E943C9DC262BB%2E5A7B6855

A7F5F1B1%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35&CFID=585949591&

CFTOKEN=64104975&__acm__=1456329286_63339acf4b2146cf3089d42a34abcf7a#

URLTOKEN# (acessado em 24 de fevereiro de 2016).

Chen, Peter Pin-Shan. "The entity-relationship model - A basis for the enterprise view of

data”. National Computer Conference, 1977. http://dl.acm.org/citation.cfm?

id=1499421&CFID=585949591&CFTOKEN=64104975 (acessado em 24 de fevereiro de

2016)

Hegenberg, Leônidas. Lógica: o cálculo de predicados. São Paulo: Herder, 1973.

Klemann, Miriam, Eliseo Reategui, Alexandre Lorenzatti. O Emprego da Ferramenta de

Mineração de Textos SOBEK como Apoio à Produção Textual. XX Simpósio Brasileiro

de Informática na Educação (2009).

Reategui, Eliseo, Epstein, Daniel. “Automatic Extraction of Nonlinguistic Representations of

Texts to Support Writing.” American Journal of Educational Research, vol. 3, no. 12

(2015): 1592-1596. doi:10.12691/education-3-12-

16.http://pubs.sciepub.com/education/3/12/16 (acessado em 21 de abril de 2016).

______________, Klemann, M., & Finco, M. D. (2012). Using a text mining tool to support

text summarization. In Proceedings of the IEEE International Conference on Advanced

Learning Technologies (pp. 607-609). New York, NY: IEEE Press.

http://dl.acm.org/citation.cfm?id=2355969 (acessado em 22 de abril de 2014).

Revista Fapesp março2015. http://revistapesquisa.fapesp.br/wp-content/uploads/2015/03/086-

087_Sobek_229.pdf?7ba38f (acessado em 20 de março de 2015).

Page 13: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.13 de 14

Schenker, A. “Graph-Theoretic Techniques for Web Content Mining.” PhD thesis, University

of South Florida, Tampa, 2003. http://scholarcommons.usf.edu/cgi/viewcontent.cgi

?article=2466&context=etd (acessado em 06 de maio de 2015).

Setzer, Valdemar. Dado, Informação, Conhecimento e Competência. https://www.ime.usp.br/

~vwsetzer/dado-info.html (acessado em 14 de abril de 2016).

Sobek Quick Reference Guide: SOBEK Version 1.1. http://sobek.ufrgs.br/index.html

(acessado em 29 de janeiro de 2016).

Nota

Objetos de interesse seriam as informações que se deseja obter de um sistema

computacional e esse objetivo se alcançaria na medida em que dados forem devidamente

armazenados, corretamente manipulados e efetivamente recuperados depois – uma definição

possível de informação seria dado útil14. Tal universo computacional, frequentemente dito

virtual, seria uma representação do mundo humano. Diversos autores utilizam o termo real

para referir tal mundo humano, designação esta que acreditamos poder levar a equívocos de

interpretação. Tal doxa, lugar comum, poderia excluir elementos significativos do universo

que se quer abranger. Utilizaremos então o conceito objetos de interesse, o qual deverá

abranger desde objetos cotidianos como talheres ou calçados, até expressões do pensamento

humano, como a filosofia de Spinoza, a mecânica de Newton, ou seu interesse em alquimia,

ou a descrição de um unicórnio, ou um desenho deste, bem como os textos ditos sagrados, ou

seja, tudo o que resulta do trabalho manual ou intelectual ou espiritual do ser humano, assim

como tudo o que este ser pode verificar existir ou o que pode imaginar - digamos tangível ou

não -; enquanto os dados que referenciam tais objetos de interesse, ao serem depositados em

um sistema computacional, serão referenciados como objetos computacionais.15

Muito embora esta questão não seja essencial no presente contexto, merecendo

de nossa parte muito esforço futuro, fizemos com que comparecesse neste ensaio, na tentativa

de compartilhar nossa crença tentando provocar debates sobre ela.

i José Luiz Goldfarb é Mestre em História e Filosofia da Ciência pela McGill University

(Canadá) e Doutor em História da Ciência pela USP. Graduado em Física pela USP. Atua principalmente nos

14 Tomaremos Dado como elemento atômico de Informação. Poder-se-ia afirmar que Informação é um conjunto coerente de Dados. Setzer,

Dado, Informação, Conhecimento e Competência, apresenta uma correlação entre dado e informação que tende a ilustrar apropriadamente o sentido dessa correlação que ora utilizamos.

15 Chen, "The entity-relationship model - A basis for the enterprise view of data”, 77, utiliza a ideia objetos de interesse como um

subconjunto dos objetos pertencentes ao mundo real. Outra menção que pode convergir para essa ideia é encontrada em Hegenberg, Lógica, 6, utilizando universo de discurso.

Page 14: Possibilidades de sintaxe para eScience: a utilização de

J.L.Goldfarb & Odécio S. - SOBEK: Possibilidades eScience Pag.14 de 14

temas que envolvem a ciência no século XVII, as influências herméticas em Isaac Newton e ciência e religião,

tem presença atuante na utilização das redes sociais, para a divulgação do conhecimento científico.

http://lattes.cnpq.br/1023793876897710. [email protected]. ii Odécio Souza é Doutorando, Mestre e Pesquisador em História da Ciência pela PUC-SP,

com foco na Ciência da Computação, especialmente Bancos de Dados, atuando, desde 1990, como Professor,

Analista de Sistemas e Consultor em todos os tipos de Instituições: Públicas e Privadas, de Pequeno, Médio e

Grande Porte, tendo sido um dos primeiros 500 OCPs do mundo; PMP; especialista em educação, disciplinas de

informática para o 2º grau; MBA em Gestão de Projetos. http://lattes.cnpq.br/4189566610252580.

[email protected].