enfoque semántico para el descubrimiento de recursos ... · protocolo para cosecha de metadatos de...
TRANSCRIPT
ISSN 2007-9737
Enfoque semacircntico para el descubrimiento de recursos sensible al contexto sobre contenidos acadeacutemicos estructurados con OAI-PMH
Arianna Becerril Garciacutea1 Rafael Lozano Espinosa2 Joseacute Ma^iacuten Molina Espinosa2
1 Universidad Autoacutenoma del Estado de MeacutexicoMeacutexico
2 Tecnoloacutegico de Monterrey Ciudad de MeacutexicoMeacutexico
abecerrilguaemexmx ralozano josemolinaitesmmx
the Open Archives Initiative - the Protocol for Metadata Harvesting (OAI-PMH) and the Dublin Core metadata for displaying information Thus it is relevant to develop technologies in order to improve the discovering of resources taking into account the user information needs and the user context This paper describes an approach which considers structured information resources with OAI-PMH an ontological representation and user context as inputs to a framework for building information retrieval applications
Keywords Semantic web structured resources context-awareness ontologies OAI-PMH redalyc
1 Introduccioacuten
La llamada sociedad del conocimiento considera la apropiacioacuten criacutetica y selectiva de la informacioacuten para el desarrollo del ser humano La World Wide Web (WWW) por su naturaleza de reunioacuten de informacioacuten vinculada se ha conve^ido en la principal fuente de informacioacuten y desde su introduccioacuten en 199ه ha evolucionado para enriquecer la forma en que se organiza y se expone a los usuarios que va desde un panorama de texto e hipe^exto en sitios web planos hasta estaacutendares de estructuracioacuten de metadatos e interoperabilidad de la llamada Web 30
Esta masa de informacioacuten que constituye la Web en ocasiones se siente como ldquode una milla de ancho pero con una pulgada de profundidadrdquo ^Coacutemo poder construir una experiencia Web maacutes integrada consistente y profunda [1] Es aquiacute donde se situacutea la semacircntica como el proceso de comunicar la informacioacuten con suficiente
Resumen Esencial a la nocioacuten de Web es la idea de una comunidad abierta cualquiera puede contribuir sus ideas al todo Esta ape^ura su dimensioacuten y dinamismo imponen retos para el desarrollo de aplicaciones de descubrimiento de recursos para el quehacer educativoo de investigacioacuten Sin embargo se han dado muchos esfuerzos para organizar y estructurar la masa de datos Los repositorios acadeacutemicos han adoptado el Protocolo para Cosecha de Metadatos de la Iniciativa de Archivos Abie^os (OAI-PMH por sus siglas en ingleacutes) y los metadatos Dublin Core para la exposicioacuten de su informacioacuten Es asiacute que resulta relevante el desarrollo de tecnologiacuteas que abonen en eldescubrimiento de recursos de intereacutes tomando en cuenta las necesidades de informacioacuten y contexto del usuario El presente documento describe un enfoque que considera los recursos de informacioacutenestructurados con OAI-PMH una representacioacuten ontoloacutegica y el contexto del usuario como insumos de un marco de trabajo para la construccioacuten deaplicaciones de recuperacioacuten de informacioacuten
Palabras clave Web semacircntica recursos estructurados sensibilidad al contexto ontologiacuteas OAI-PMH redalyc
Semantic Approach to Context-Aware Resource Discovery over Scholarly Content Structured with OAI-PMH
Abstract Essential to the notion of the Web is the idea of an open community anyone can contribute their ideas to the whole This openness the size and dynamism of the community impose challenges on the development of resource discovery applications for educational or research activities On the other hand there have been many efforts to organize and structure the mass of data Scholarly repositories have adopted
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martin Molina Espinosa
de software y acorde a los resultados obtenidos y problemas encontrados surge el enfoque mostrado en el presente trabajo La implementacioacuten resultados alcanzados validacioacuten y retos enfrentados con este nuevo acercamiento son documentados a continuacioacuten
2 Conceptos fundamentales
21 OAI-PMH
La variedad de recursos de informacioacuten en la Web de utilidad para un alumno acadeacutemico profesor o cientiacutefco es muy amplia abarca libros a^iacuteculos de revistas cientiacuteficas informes actas de congreso tesis pre-prints archivos de datos entre otros Todos ellos disponibles a traveacutes de po^ales especializados repositorios y bases de datos que usan mecanismos de descripcioacuten y exposicioacuten de sus datos
Para que este tipo de plataformas tengan la posibilidad de intercambiar informacioacuten tienen que contar con reglas de comunicacioacuten y estaacutendares de estructuracioacuten de datos El protocolo de interoperabilidad OA-PMH es uno de los maacutes utilizados para este fin
Seguacuten el Registro de Repositorios de Acceso Abie^o [5] (ROAR por sus siglas en ingleacutes) existen poco maacutes de 4ههه repositorios en el mundo que implementan el protocolo OA-PMH Para tener una mejor idea de la cantidad de archivos de contenido intelectual disponibles en Acceso Abie^o se puede acceder al proveedor de servicio OAster [6] que cosecha menos de la mitad de los repositorios registrados en ROAR y cuenta con maacutes de 3ه millones de registros disponibles a traveacutes de OA-PMH
El OA-PMH surge con la niciativa de Archivos Abie^os liberada en 1999 de lanecesidad de conve^ir los archivos eninteroperables y construir servicios de recuperacioacuten de informacioacuten de diversosrepositorios Su naturaleza radica en la definicioacuten de una inte^az a traveacutes de la cual un repositorio expone puacuteblicamente en la web los metadatos de los objetos digitales que almacena
El protocolo Z3950 [7] ya existiacutea como un estaacutendar que permitiacutea la buacutesqueda federada a varios servidores de manera paralela Sin
significado Asiacute es posible construir aplicaciones inteligentes que apo^en un mayor conocimiento identificando en mayor profundidad los contenidos
El aacutembito acadeacutemico no ha estado exento del impacto del crecimiento de la WWW Encontrar informacioacuten relevante para el aprendizaje la ensefianza o la investigacioacuten en el volumen de recursos y publicaciones existentes se estaacute convivendo en un reto impo^ante para los estudiantes y cientiacuteficos Aunado a ello compa^ir recursos metadatos de los recursos y datos a traveacutes de la Web es un principio central en el contexto acadeacutemico y de investigacioacuten La colaboracioacuten cientiacutefica por mucho tiempo ha luchado por reusar y compa^ir maacutes ampliamente el conocimiento y los datos [2]
La educacioacuten por su pa^e ha sufrido importantes cambios propiciados por el desarrollo de las tecnologiacuteas que han modificado las formas de acceso y difusioacuten de la informacioacuten y los modos de comunicacioacuten entre los individuos entre los individuos y las maacutequinas y entre las propias maacutequinas [3]
Los po^ales plataformas y bases de datos de recursos acadeacutemicos disponibles en la Web conforman una gran biblioteca dinaacutemica y creciente con muacuteltiples y diversos puntos de consulta que imponen retos importantes en las tareas de buacutesqueda y recuperacioacuten de informacioacuten relevante para un estudiante docente o investigador
En este sentido resulta relevante el desarrollo de tecnologiacuteas que abonen en el descubrimiento de recursos de intereacutes tomando en cuenta las necesidades de informacioacuten y caracteriacutesticas del usuario
En el presente documento se describen los resultados de la aplicacioacuten de un modelo que considera como insumos de un marco de trabajo de recuperacioacuten de informacioacuten recursosestructurados con el Protocolo para Cosecha de Metadatos de la niciativa de Archivos Abie^os (OAI-PMH) una representacioacuten ontoloacutegica y el contexto del usuario
En un trabajo previo [4] se formularon las generalidades de un modelo preliminar que no habiacutea sido implementado es decir que se encontraba en la fase de disefio Posteriormente con base en eacutel se desarrollaron los componentes
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Enfoque semacircntico para el descubrimiento de recursos sensible al contexto sobre contenidos acadeacutemicos estructurados 129
- ListMetadataFormats regresa los formatos de metadatos disponibles en el repositorio
- ListSets recupera la estructura de conjuntos de un repositorio
Las respuestas son serializadas en XML con los metadatos de Dublin Core (descritos posteriormente) El proceso de enviacuteo - recepcioacuten de peticiones y respuestas se controla a traveacutes del denominado proceso de cosecha de metadatos Siendo un cosechador el programa que enviacutea peticiones a un proveedor de datos y recibe como respuesta archivos XML con metadatos Dublin Core
22 Dublin Core
La Iniciativa de Metadatos Dublin Core (DC) auspicia el desarrollo de estaacutendares de interoperabilidad a diferentes niveles entre los que se encuentra un conjunto de metadatos para descripciones simples y geneacutericas popularizado por ser parte de las especificaciones del protocolo OAI-PMH
El llamado Dublin Core no calificado es el que originalmente se utiliza para describir recursos con OAI-PMH y contempla los siguientes 15 metadatos [10]
- dctitle- dccreator- dcsubject- dcdescription- dcpublisher- dccontributor- dcdate- dctype- dcformat- dcidentifier- dcsource- dclanguage- dcrelation- dccoverage- dcrights
2-3- Sensibilidad al contexto
La caracteriacutestica de sensibilidad al contexto del usuario en servicios de recuperacioacuten de informacioacuten se refiere a la capacidad de percibir
embargo se habiacutea presentado mucha dificultad para crear servicios de buacutesqueda federada de alta calidad a traveacutes de un gran nuacutemero de servidores autoacutenomos por razones como diferentes interpretaciones de las consultas problemas de escalabilidad dependencia de la disponibilidad de los servidores al momento de la consulta y rendimiento sujeto a la velocidad de respuesta del servidor maacutes lento [8]
Es asiacute que el OAI-PMH se consolida como un estaacutendar de la comunidad de archivos abie^os como resultado de las ventajas que ofrece en comparacioacuten con el Z3950
Este protocolo es un mecanismo de baja barrera para la interoperabilidad de repositorios [9] Define una inte^az que un servidor conectado a la red puede emplear para hacer disponible a aplicaciones externas los metadatos que describen objetos almacenados en ese servidor [8]
En el protocolo se especifican dos tipos de pa^icipantes los proveedores de datos y los proveedores de servicio los primeros encargados de exponer puacuteblicamente los metadatos de su contenido y los segundos a cargo de cosechar metadatos de los proveedores de datos para ofrecer interfaces de integracioacuten y buacutesqueda para el usuario final
Hace uso de peticiones y respuestas HTTP para comunicarse entre un cosechador y un repositorio usando meacutetodos GET o POST Para la conformacioacuten de estas peticiones existe una URL base uacutenica que especifica el servidor y el pue^o y opcionalmente la ruta
Dichas peticiones mejor conocidas como verbos son seis y se concatenan a la URL base Los verbos se describen enseguida [10]
- GetRecord regresa los metadatos de un registro individual
- Identify devuelve la informacioacuten acerca del repositorio
- ListRecords es usado para cosechar los registros de un repositorio argumentos adicionales permiten la cosecha selectiva basada en conjuntos o temporalidad
- ListIdentifiers es una forma abreviada de ListRecords que trae uacutenicamente las cabeceras de los registros
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
130 Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martin Molina Espinosa
todos los aspectos de a publicacioacuten y referencia semaacutentca [18]
Por su pa^e la Ontologiacutea Bibliograacutefica BIBO provee los conceptos y propiedades principales para describir citaciones y referenciasbibliograacuteficas [19]
En cuanto a Dublin Core se refiere la DCMI tambieacuten ha elaborado una ontologiacutea para describir el conjunto de teacuterminos para identificar objetos digitales [20]
Por otro lado se encuentra tambieacuten FOAF un proyecto devoto de vincular personas e informacioacuten usando la Web [21] El espacio de nombres FOAF httpxmlnscomfoaf01 esusado para representar datos acerca de personas tales como nombres fechas de nacimiento y especialmente a la gente con la que serelacionan Es pa^icularmente uacutetil pararepresentar datos de redes sociales
25 Marco de trabajo Jena
Jena proyecto de coacutedigo abierto iniciado por los Laboratorios HP en el 2000 es un marco de trabajo Java para la construccioacuten de aplicaciones de la Web Semaacutentica provee bibliotecas Java para el desarrollo de coacutedigo que maneje RDF RDFS RDFa OWL y SPARQL alineado con las recomendaciones de la W3C [22]
Incluye un motor de inferencia basado en reglas para desempefiar razonamiento basado en ontologias OWL y RDFS y una variedad de estrategias de almacenamiento para tripletas RDF en memoria o en disco
La API ontoloacutegica de Jena provee una interfaz de programacioacuten consistente para el desarrollo de aplicaciones ontoloacutegicas independiente del lenguaje Fue seleccionado para la implementacioacuten de este enfoque dada su solidez y robustez para el desarrollo de aplicaciones de la Web Semaacutentica
3 Descrpcoacuten de )a propuesta
El alcance del enfoque propuesto se restringe al uso de recursos estructurados bajo el protocolo OAI-PMH es decir los datos estructurados en otros formatos o bajo otros protocolos no son considerados en este modelo
informacioacuten de su ambiente para otorgar resultados personalizados Con ello es posible inferir situaciones no explicitadas y asiacute manifestar un compo^amiento inteligente
Especiacuteficamente para el aacutembito educativo muchas plataformas no toman en cuenta las diferentes necesidades del alumno y proveen la misma recuperacioacuten de informacioacuten a todos los usuarios Entonces resulta pe^inente como se menciona en [11] el uso de un modelo de estudiante para permitir la personalizacioacuten efectiva de ambientes de aprendizaje
24 Ontologias
Una ontologiacutea es una especificacioacuten expliacutecita de una conceptualizacioacuten [12]
Se considera conceptualizacioacuten al modelado abstracto de alguacuten fenoacutemeno del mundo identificando sus conceptos relevantes Es expliacutecita dado que el tipo de conceptos usados y sus restricciones son definidos explicitamente Es formal por el hecho de que debe ser legible para maacutequinas y es compa^ida ya que captura el conocimiento consensuado es decir no es privativo de un individuo sino aceptado por un grupo [12 13]
Las ontologias habilitan a una computadora para entender la informacioacuten por siacute misma [14]
Para la ciencia y la educacioacuten un insumo fundamental es la bibliografiacutea asiacute es que la representacioacuten ontoloacutegica de referencias bibliograacuteficas ha sido objeto de diversos desarrollos Entre ellos se encuentra FaBiO una ontologiacutea para registrar y publicar registros bibliograacuteficos en la Web Semaacutentica [15] CiTO una ontologiacutea para citaciones bibliograacuteficas [16] y BIRO la ontologiacutea de referencias bibliograacuteficas [17]
Estas y cinco ontologiacuteas maacutes PRO la ontologiacutea de roles de publicacioacuten PSO la ontologiacutea de estado de la publicacioacuten PWO la ontologiacutea del flujo de trabajo de publicacioacuten C4O la ontologiacutea de caracterizacioacuten del contexto y conteo de citacioacuten y DoCo la ontologiacutea de componentes del documento conforman el conjunto SPAR (Semantic Publishing and Referencing Ontologies) compuesto de moacutedulos para crear metadatos RDF comprehensivos para
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
131
Cosampcha de metadatas OAI-PMH
Transtormacioacuten tie XML a RDF
ل
Vtelidacioacuten de ΒΡΕ
Almacampnannientode tri pi etas
Process nil ientiO en tiempo real
Motor de recuperacioacuten de informacioacuten
Tripetas resultantes
ConsultaCuumlnteKliOdampl usuario
Interfaz de usuario
Fig 1 Diagrama de flujo del proceso
corresponde a la consulta asiacute como la informacioacuten contextual del usuario
Dicha informacioacuten ingresa al motor de recuperacioacuten donde circula por un razonador basado en reglas que procesa la consulta sobre una base de datos de tripletas haciendo uso del API de ontologiacuteas de Jena
El proceso de consulta es en tiempo real sobre datos colectados previamente en un procesamiento por lotes dando como resultado
La pa^e central constituye un motor de recuperacioacuten de informacioacuten sobre ese conjunto de datos
31 Metodologiacutea
En la figura 1 se puede observar el diagrama de flujo del proceso llevado para la implementacioacuten de la propuesta
Se aprecia que la informacioacuten requerida de entrada desde una interfaz de usuario
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
132
proceso de cosecha con el resto dela implementacioacuten
Esta aplicacioacuten se encarga de leer los metadatos de los archivos XML obtenidos de la cosecha OAI-PMH utilizando el API SaxBuilder que permite recuperar los registros convi^ieacutendolos en objetos Enseguida se muestra un ejemplo de registro contenido en un XML deentrada
ltrecordgtlt ltheader
egtfdent10504408ltyco^gedaergtoafdentgtltdatestampgt2007-08-15ltdatestampgt
ltsetSpecgt1405-1435ltsetSpecgtltheadergt
ltmetadatagt dcdc ltoa
xmاnsoaسdc=httpwwwopena٢chveso٢gOAاoa20dc
11xmlnsdc=httppurlorgdcelementsh^ pwwww3org2001XMLSchema xmlnsxs=-
instancevesorgOAI on=h^ pwwwopenarchschemaLocatxs
dc 20oadcxsdgt^vesorgOAI20oah^pwwwopenarch
tirltdctitlegtltdctitlegtLa emergencia del sentido a pa ltdccreatorgtEdgar Morin ltdccreatorgt
ologiacutealtdcsubjectgtltdcsubjectgtSoc doltdcsubjectgtltdcsubjectgtEl no-sent
do del mundoltdcsubjectgtltdcsubjectgtsent dadltdcsubjectgtltdcsubjectgtcomplej
ongtptltdcdescr En este texto se reflexiona sobre el problema del
ongtpt lt dcdescrshergtUniversidad Autoacutenoma del ltdcpubl
shergtltdcpubl ltdcdategt2007ltdcdategt
coltdctypegtentiacutefltdctypegtA^iacuteculo c onpdfltdcformatgtcatltdcformatgtappl
ergtfdentltdc10504408=httpwwwredalycorgarticulooaid
ergtfdentdcgtongtltdcrelat
105=dstaoahttpwwwredalycorarevongtdcrelatgt
ghtsgtaltdcrghtsgtConvergencltdcr a Revista de CienciasltdcsourcegtConvergenc
Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdclanguagegtesltdclanguagegt
ltoai dcdcgtltmetadatagt
lt ltrecord
un conjunto de inferencias correspondientes a recursos de informacioacuten
Los pasos seguidos y componentes de software desarrollados se detallan en los apagados siguientes
32 Cosecha de metadatos OAI-PMH
Se desarrolloacute una aplicacioacuten Java que realiza peticiones HTTP a los proveedores de datos haciendo uso del verbo ListRecords del OAI- PMH Con ello se obtienen archivos en formato XML con los datos descritos en el conjunto simple de metadatos de Dublin Core Dentro de estos archivos XML se encuentran registros (ltrecordgt) El nuacutemero de registros por archivo depende de la confguracioacuten de cada repositorio cosechado y estos pueden variar desde 1 hasta n
33 Transform acioacuten a RDF
Muchas instituciones dan acceso a sus repositorios de metadatos a traveacutes de OAI-PMH pero no hacen que sus recursos sean accesibles a traveacutes de URIs desreferenciables cosa que provoca restricciones de significado y hace que quede restringido el acceso a los metadatos [23] Por esta razoacuten es necesario hacer uso de un conve^idor a RDF con la intencioacuten de transformar los metadatos contenidos en un repositorio OAI- PMH a RDF
Se han desarrollado diversos proyectos que permiten explotar datos estructurados y dotarlos de caracteriacutesticas propias de aplicaciones semaacutenticas como lo es OAI2LOD Server un desarrollo para exponer metadatos OAI-PMH como Linked Data [24] Dentro de este tipo de proyectos wrapper tambieacuten se puede encontrar D2R [25]
Para este trabajo se proboacute un desarrollo enmarcado en los llamados RDFizers software de conversioacuten a RDF llamado OAI2RDF como un componente en la arquitectura [26] Laherramienta realiza esta tarea con una transformacioacuten loacutegica que se hace a traveacutes de hojas XSLT que se invocan una vez que los datos han sido entregados
Sin embargo se optoacute por desarrollar una aplicacioacuten de software para realizar esta tarea dado que esto permitia una mejor integracioacuten del
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
133
34 Modelo Ontoloacutegico y va ldacoacuten
El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH
El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres
La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados
De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)
Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]
La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este
Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML
Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma
ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt
Un ejemplo de salida es el que se muestra a continuacioacuten
ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt
ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-
sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person
foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
134
Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend
coautor
I G rado ]
Fig 3 Relaciones de autoriacutea y coautoriacutea
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
135
A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t
euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s
C o llec tion ٠ middotConcept
euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource
copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠
F requency ٠ euro Im a g e O b je c t = Im a g e
Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠
Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠
A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠
O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person
P hys ica l R esource1٠P o licy ٠ P ro je c t ٠
P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠
S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠
Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute
De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF
35 Alm acenam iento
El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF
36 M otor de recuperacioacuten de informacioacuten
El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6
procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis
Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada
Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]
La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades
Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
136
Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource
Motor de recuperacioacuten de informacioacute
Razonador
API de inferencia Jena
RDFSRuleReasoner
Motor de reglas Jena
Modelo de Ontologia
de Jena ه0وهاوع^ API ا
Ontologia DC FOAF
API de almacenamiento Jena
T D B
Fig 6 Arquitectura
Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas
La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil
El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica
El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
137
Tabla 1 Resultados del proceso de cosecha OAI-PMH
Redalycorg RUDAR
Archivos XML 17328 121Registros DC 346557 12011
a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento
b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final
4 Resultados
Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]
A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea
1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La
del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta
Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes
Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases
- Student representa cualquier estudiante- StudentCourseInformation comprende
informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros
- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso
- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante
37 Procesam iento de la informacioacuten
371 Procesam iento en tiem po real
El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad
372 Procesam iento por lotes
La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa
Fig 7 Grafo de relacioacuten entre las instancias de ejemplo
4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338
5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno
ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt
cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)
2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos
3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martin Molina Espinosa
de software y acorde a los resultados obtenidos y problemas encontrados surge el enfoque mostrado en el presente trabajo La implementacioacuten resultados alcanzados validacioacuten y retos enfrentados con este nuevo acercamiento son documentados a continuacioacuten
2 Conceptos fundamentales
21 OAI-PMH
La variedad de recursos de informacioacuten en la Web de utilidad para un alumno acadeacutemico profesor o cientiacutefco es muy amplia abarca libros a^iacuteculos de revistas cientiacuteficas informes actas de congreso tesis pre-prints archivos de datos entre otros Todos ellos disponibles a traveacutes de po^ales especializados repositorios y bases de datos que usan mecanismos de descripcioacuten y exposicioacuten de sus datos
Para que este tipo de plataformas tengan la posibilidad de intercambiar informacioacuten tienen que contar con reglas de comunicacioacuten y estaacutendares de estructuracioacuten de datos El protocolo de interoperabilidad OA-PMH es uno de los maacutes utilizados para este fin
Seguacuten el Registro de Repositorios de Acceso Abie^o [5] (ROAR por sus siglas en ingleacutes) existen poco maacutes de 4ههه repositorios en el mundo que implementan el protocolo OA-PMH Para tener una mejor idea de la cantidad de archivos de contenido intelectual disponibles en Acceso Abie^o se puede acceder al proveedor de servicio OAster [6] que cosecha menos de la mitad de los repositorios registrados en ROAR y cuenta con maacutes de 3ه millones de registros disponibles a traveacutes de OA-PMH
El OA-PMH surge con la niciativa de Archivos Abie^os liberada en 1999 de lanecesidad de conve^ir los archivos eninteroperables y construir servicios de recuperacioacuten de informacioacuten de diversosrepositorios Su naturaleza radica en la definicioacuten de una inte^az a traveacutes de la cual un repositorio expone puacuteblicamente en la web los metadatos de los objetos digitales que almacena
El protocolo Z3950 [7] ya existiacutea como un estaacutendar que permitiacutea la buacutesqueda federada a varios servidores de manera paralela Sin
significado Asiacute es posible construir aplicaciones inteligentes que apo^en un mayor conocimiento identificando en mayor profundidad los contenidos
El aacutembito acadeacutemico no ha estado exento del impacto del crecimiento de la WWW Encontrar informacioacuten relevante para el aprendizaje la ensefianza o la investigacioacuten en el volumen de recursos y publicaciones existentes se estaacute convivendo en un reto impo^ante para los estudiantes y cientiacuteficos Aunado a ello compa^ir recursos metadatos de los recursos y datos a traveacutes de la Web es un principio central en el contexto acadeacutemico y de investigacioacuten La colaboracioacuten cientiacutefica por mucho tiempo ha luchado por reusar y compa^ir maacutes ampliamente el conocimiento y los datos [2]
La educacioacuten por su pa^e ha sufrido importantes cambios propiciados por el desarrollo de las tecnologiacuteas que han modificado las formas de acceso y difusioacuten de la informacioacuten y los modos de comunicacioacuten entre los individuos entre los individuos y las maacutequinas y entre las propias maacutequinas [3]
Los po^ales plataformas y bases de datos de recursos acadeacutemicos disponibles en la Web conforman una gran biblioteca dinaacutemica y creciente con muacuteltiples y diversos puntos de consulta que imponen retos importantes en las tareas de buacutesqueda y recuperacioacuten de informacioacuten relevante para un estudiante docente o investigador
En este sentido resulta relevante el desarrollo de tecnologiacuteas que abonen en el descubrimiento de recursos de intereacutes tomando en cuenta las necesidades de informacioacuten y caracteriacutesticas del usuario
En el presente documento se describen los resultados de la aplicacioacuten de un modelo que considera como insumos de un marco de trabajo de recuperacioacuten de informacioacuten recursosestructurados con el Protocolo para Cosecha de Metadatos de la niciativa de Archivos Abie^os (OAI-PMH) una representacioacuten ontoloacutegica y el contexto del usuario
En un trabajo previo [4] se formularon las generalidades de un modelo preliminar que no habiacutea sido implementado es decir que se encontraba en la fase de disefio Posteriormente con base en eacutel se desarrollaron los componentes
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Enfoque semacircntico para el descubrimiento de recursos sensible al contexto sobre contenidos acadeacutemicos estructurados 129
- ListMetadataFormats regresa los formatos de metadatos disponibles en el repositorio
- ListSets recupera la estructura de conjuntos de un repositorio
Las respuestas son serializadas en XML con los metadatos de Dublin Core (descritos posteriormente) El proceso de enviacuteo - recepcioacuten de peticiones y respuestas se controla a traveacutes del denominado proceso de cosecha de metadatos Siendo un cosechador el programa que enviacutea peticiones a un proveedor de datos y recibe como respuesta archivos XML con metadatos Dublin Core
22 Dublin Core
La Iniciativa de Metadatos Dublin Core (DC) auspicia el desarrollo de estaacutendares de interoperabilidad a diferentes niveles entre los que se encuentra un conjunto de metadatos para descripciones simples y geneacutericas popularizado por ser parte de las especificaciones del protocolo OAI-PMH
El llamado Dublin Core no calificado es el que originalmente se utiliza para describir recursos con OAI-PMH y contempla los siguientes 15 metadatos [10]
- dctitle- dccreator- dcsubject- dcdescription- dcpublisher- dccontributor- dcdate- dctype- dcformat- dcidentifier- dcsource- dclanguage- dcrelation- dccoverage- dcrights
2-3- Sensibilidad al contexto
La caracteriacutestica de sensibilidad al contexto del usuario en servicios de recuperacioacuten de informacioacuten se refiere a la capacidad de percibir
embargo se habiacutea presentado mucha dificultad para crear servicios de buacutesqueda federada de alta calidad a traveacutes de un gran nuacutemero de servidores autoacutenomos por razones como diferentes interpretaciones de las consultas problemas de escalabilidad dependencia de la disponibilidad de los servidores al momento de la consulta y rendimiento sujeto a la velocidad de respuesta del servidor maacutes lento [8]
Es asiacute que el OAI-PMH se consolida como un estaacutendar de la comunidad de archivos abie^os como resultado de las ventajas que ofrece en comparacioacuten con el Z3950
Este protocolo es un mecanismo de baja barrera para la interoperabilidad de repositorios [9] Define una inte^az que un servidor conectado a la red puede emplear para hacer disponible a aplicaciones externas los metadatos que describen objetos almacenados en ese servidor [8]
En el protocolo se especifican dos tipos de pa^icipantes los proveedores de datos y los proveedores de servicio los primeros encargados de exponer puacuteblicamente los metadatos de su contenido y los segundos a cargo de cosechar metadatos de los proveedores de datos para ofrecer interfaces de integracioacuten y buacutesqueda para el usuario final
Hace uso de peticiones y respuestas HTTP para comunicarse entre un cosechador y un repositorio usando meacutetodos GET o POST Para la conformacioacuten de estas peticiones existe una URL base uacutenica que especifica el servidor y el pue^o y opcionalmente la ruta
Dichas peticiones mejor conocidas como verbos son seis y se concatenan a la URL base Los verbos se describen enseguida [10]
- GetRecord regresa los metadatos de un registro individual
- Identify devuelve la informacioacuten acerca del repositorio
- ListRecords es usado para cosechar los registros de un repositorio argumentos adicionales permiten la cosecha selectiva basada en conjuntos o temporalidad
- ListIdentifiers es una forma abreviada de ListRecords que trae uacutenicamente las cabeceras de los registros
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
130 Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martin Molina Espinosa
todos los aspectos de a publicacioacuten y referencia semaacutentca [18]
Por su pa^e la Ontologiacutea Bibliograacutefica BIBO provee los conceptos y propiedades principales para describir citaciones y referenciasbibliograacuteficas [19]
En cuanto a Dublin Core se refiere la DCMI tambieacuten ha elaborado una ontologiacutea para describir el conjunto de teacuterminos para identificar objetos digitales [20]
Por otro lado se encuentra tambieacuten FOAF un proyecto devoto de vincular personas e informacioacuten usando la Web [21] El espacio de nombres FOAF httpxmlnscomfoaf01 esusado para representar datos acerca de personas tales como nombres fechas de nacimiento y especialmente a la gente con la que serelacionan Es pa^icularmente uacutetil pararepresentar datos de redes sociales
25 Marco de trabajo Jena
Jena proyecto de coacutedigo abierto iniciado por los Laboratorios HP en el 2000 es un marco de trabajo Java para la construccioacuten de aplicaciones de la Web Semaacutentica provee bibliotecas Java para el desarrollo de coacutedigo que maneje RDF RDFS RDFa OWL y SPARQL alineado con las recomendaciones de la W3C [22]
Incluye un motor de inferencia basado en reglas para desempefiar razonamiento basado en ontologias OWL y RDFS y una variedad de estrategias de almacenamiento para tripletas RDF en memoria o en disco
La API ontoloacutegica de Jena provee una interfaz de programacioacuten consistente para el desarrollo de aplicaciones ontoloacutegicas independiente del lenguaje Fue seleccionado para la implementacioacuten de este enfoque dada su solidez y robustez para el desarrollo de aplicaciones de la Web Semaacutentica
3 Descrpcoacuten de )a propuesta
El alcance del enfoque propuesto se restringe al uso de recursos estructurados bajo el protocolo OAI-PMH es decir los datos estructurados en otros formatos o bajo otros protocolos no son considerados en este modelo
informacioacuten de su ambiente para otorgar resultados personalizados Con ello es posible inferir situaciones no explicitadas y asiacute manifestar un compo^amiento inteligente
Especiacuteficamente para el aacutembito educativo muchas plataformas no toman en cuenta las diferentes necesidades del alumno y proveen la misma recuperacioacuten de informacioacuten a todos los usuarios Entonces resulta pe^inente como se menciona en [11] el uso de un modelo de estudiante para permitir la personalizacioacuten efectiva de ambientes de aprendizaje
24 Ontologias
Una ontologiacutea es una especificacioacuten expliacutecita de una conceptualizacioacuten [12]
Se considera conceptualizacioacuten al modelado abstracto de alguacuten fenoacutemeno del mundo identificando sus conceptos relevantes Es expliacutecita dado que el tipo de conceptos usados y sus restricciones son definidos explicitamente Es formal por el hecho de que debe ser legible para maacutequinas y es compa^ida ya que captura el conocimiento consensuado es decir no es privativo de un individuo sino aceptado por un grupo [12 13]
Las ontologias habilitan a una computadora para entender la informacioacuten por siacute misma [14]
Para la ciencia y la educacioacuten un insumo fundamental es la bibliografiacutea asiacute es que la representacioacuten ontoloacutegica de referencias bibliograacuteficas ha sido objeto de diversos desarrollos Entre ellos se encuentra FaBiO una ontologiacutea para registrar y publicar registros bibliograacuteficos en la Web Semaacutentica [15] CiTO una ontologiacutea para citaciones bibliograacuteficas [16] y BIRO la ontologiacutea de referencias bibliograacuteficas [17]
Estas y cinco ontologiacuteas maacutes PRO la ontologiacutea de roles de publicacioacuten PSO la ontologiacutea de estado de la publicacioacuten PWO la ontologiacutea del flujo de trabajo de publicacioacuten C4O la ontologiacutea de caracterizacioacuten del contexto y conteo de citacioacuten y DoCo la ontologiacutea de componentes del documento conforman el conjunto SPAR (Semantic Publishing and Referencing Ontologies) compuesto de moacutedulos para crear metadatos RDF comprehensivos para
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
131
Cosampcha de metadatas OAI-PMH
Transtormacioacuten tie XML a RDF
ل
Vtelidacioacuten de ΒΡΕ
Almacampnannientode tri pi etas
Process nil ientiO en tiempo real
Motor de recuperacioacuten de informacioacuten
Tripetas resultantes
ConsultaCuumlnteKliOdampl usuario
Interfaz de usuario
Fig 1 Diagrama de flujo del proceso
corresponde a la consulta asiacute como la informacioacuten contextual del usuario
Dicha informacioacuten ingresa al motor de recuperacioacuten donde circula por un razonador basado en reglas que procesa la consulta sobre una base de datos de tripletas haciendo uso del API de ontologiacuteas de Jena
El proceso de consulta es en tiempo real sobre datos colectados previamente en un procesamiento por lotes dando como resultado
La pa^e central constituye un motor de recuperacioacuten de informacioacuten sobre ese conjunto de datos
31 Metodologiacutea
En la figura 1 se puede observar el diagrama de flujo del proceso llevado para la implementacioacuten de la propuesta
Se aprecia que la informacioacuten requerida de entrada desde una interfaz de usuario
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
132
proceso de cosecha con el resto dela implementacioacuten
Esta aplicacioacuten se encarga de leer los metadatos de los archivos XML obtenidos de la cosecha OAI-PMH utilizando el API SaxBuilder que permite recuperar los registros convi^ieacutendolos en objetos Enseguida se muestra un ejemplo de registro contenido en un XML deentrada
ltrecordgtlt ltheader
egtfdent10504408ltyco^gedaergtoafdentgtltdatestampgt2007-08-15ltdatestampgt
ltsetSpecgt1405-1435ltsetSpecgtltheadergt
ltmetadatagt dcdc ltoa
xmاnsoaسdc=httpwwwopena٢chveso٢gOAاoa20dc
11xmlnsdc=httppurlorgdcelementsh^ pwwww3org2001XMLSchema xmlnsxs=-
instancevesorgOAI on=h^ pwwwopenarchschemaLocatxs
dc 20oadcxsdgt^vesorgOAI20oah^pwwwopenarch
tirltdctitlegtltdctitlegtLa emergencia del sentido a pa ltdccreatorgtEdgar Morin ltdccreatorgt
ologiacutealtdcsubjectgtltdcsubjectgtSoc doltdcsubjectgtltdcsubjectgtEl no-sent
do del mundoltdcsubjectgtltdcsubjectgtsent dadltdcsubjectgtltdcsubjectgtcomplej
ongtptltdcdescr En este texto se reflexiona sobre el problema del
ongtpt lt dcdescrshergtUniversidad Autoacutenoma del ltdcpubl
shergtltdcpubl ltdcdategt2007ltdcdategt
coltdctypegtentiacutefltdctypegtA^iacuteculo c onpdfltdcformatgtcatltdcformatgtappl
ergtfdentltdc10504408=httpwwwredalycorgarticulooaid
ergtfdentdcgtongtltdcrelat
105=dstaoahttpwwwredalycorarevongtdcrelatgt
ghtsgtaltdcrghtsgtConvergencltdcr a Revista de CienciasltdcsourcegtConvergenc
Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdclanguagegtesltdclanguagegt
ltoai dcdcgtltmetadatagt
lt ltrecord
un conjunto de inferencias correspondientes a recursos de informacioacuten
Los pasos seguidos y componentes de software desarrollados se detallan en los apagados siguientes
32 Cosecha de metadatos OAI-PMH
Se desarrolloacute una aplicacioacuten Java que realiza peticiones HTTP a los proveedores de datos haciendo uso del verbo ListRecords del OAI- PMH Con ello se obtienen archivos en formato XML con los datos descritos en el conjunto simple de metadatos de Dublin Core Dentro de estos archivos XML se encuentran registros (ltrecordgt) El nuacutemero de registros por archivo depende de la confguracioacuten de cada repositorio cosechado y estos pueden variar desde 1 hasta n
33 Transform acioacuten a RDF
Muchas instituciones dan acceso a sus repositorios de metadatos a traveacutes de OAI-PMH pero no hacen que sus recursos sean accesibles a traveacutes de URIs desreferenciables cosa que provoca restricciones de significado y hace que quede restringido el acceso a los metadatos [23] Por esta razoacuten es necesario hacer uso de un conve^idor a RDF con la intencioacuten de transformar los metadatos contenidos en un repositorio OAI- PMH a RDF
Se han desarrollado diversos proyectos que permiten explotar datos estructurados y dotarlos de caracteriacutesticas propias de aplicaciones semaacutenticas como lo es OAI2LOD Server un desarrollo para exponer metadatos OAI-PMH como Linked Data [24] Dentro de este tipo de proyectos wrapper tambieacuten se puede encontrar D2R [25]
Para este trabajo se proboacute un desarrollo enmarcado en los llamados RDFizers software de conversioacuten a RDF llamado OAI2RDF como un componente en la arquitectura [26] Laherramienta realiza esta tarea con una transformacioacuten loacutegica que se hace a traveacutes de hojas XSLT que se invocan una vez que los datos han sido entregados
Sin embargo se optoacute por desarrollar una aplicacioacuten de software para realizar esta tarea dado que esto permitia una mejor integracioacuten del
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
133
34 Modelo Ontoloacutegico y va ldacoacuten
El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH
El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres
La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados
De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)
Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]
La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este
Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML
Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma
ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt
Un ejemplo de salida es el que se muestra a continuacioacuten
ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt
ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-
sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person
foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
134
Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend
coautor
I G rado ]
Fig 3 Relaciones de autoriacutea y coautoriacutea
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
135
A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t
euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s
C o llec tion ٠ middotConcept
euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource
copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠
F requency ٠ euro Im a g e O b je c t = Im a g e
Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠
Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠
A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠
O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person
P hys ica l R esource1٠P o licy ٠ P ro je c t ٠
P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠
S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠
Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute
De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF
35 Alm acenam iento
El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF
36 M otor de recuperacioacuten de informacioacuten
El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6
procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis
Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada
Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]
La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades
Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
136
Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource
Motor de recuperacioacuten de informacioacute
Razonador
API de inferencia Jena
RDFSRuleReasoner
Motor de reglas Jena
Modelo de Ontologia
de Jena ه0وهاوع^ API ا
Ontologia DC FOAF
API de almacenamiento Jena
T D B
Fig 6 Arquitectura
Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas
La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil
El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica
El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
137
Tabla 1 Resultados del proceso de cosecha OAI-PMH
Redalycorg RUDAR
Archivos XML 17328 121Registros DC 346557 12011
a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento
b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final
4 Resultados
Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]
A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea
1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La
del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta
Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes
Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases
- Student representa cualquier estudiante- StudentCourseInformation comprende
informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros
- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso
- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante
37 Procesam iento de la informacioacuten
371 Procesam iento en tiem po real
El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad
372 Procesam iento por lotes
La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa
Fig 7 Grafo de relacioacuten entre las instancias de ejemplo
4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338
5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno
ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt
cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)
2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos
3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Enfoque semacircntico para el descubrimiento de recursos sensible al contexto sobre contenidos acadeacutemicos estructurados 129
- ListMetadataFormats regresa los formatos de metadatos disponibles en el repositorio
- ListSets recupera la estructura de conjuntos de un repositorio
Las respuestas son serializadas en XML con los metadatos de Dublin Core (descritos posteriormente) El proceso de enviacuteo - recepcioacuten de peticiones y respuestas se controla a traveacutes del denominado proceso de cosecha de metadatos Siendo un cosechador el programa que enviacutea peticiones a un proveedor de datos y recibe como respuesta archivos XML con metadatos Dublin Core
22 Dublin Core
La Iniciativa de Metadatos Dublin Core (DC) auspicia el desarrollo de estaacutendares de interoperabilidad a diferentes niveles entre los que se encuentra un conjunto de metadatos para descripciones simples y geneacutericas popularizado por ser parte de las especificaciones del protocolo OAI-PMH
El llamado Dublin Core no calificado es el que originalmente se utiliza para describir recursos con OAI-PMH y contempla los siguientes 15 metadatos [10]
- dctitle- dccreator- dcsubject- dcdescription- dcpublisher- dccontributor- dcdate- dctype- dcformat- dcidentifier- dcsource- dclanguage- dcrelation- dccoverage- dcrights
2-3- Sensibilidad al contexto
La caracteriacutestica de sensibilidad al contexto del usuario en servicios de recuperacioacuten de informacioacuten se refiere a la capacidad de percibir
embargo se habiacutea presentado mucha dificultad para crear servicios de buacutesqueda federada de alta calidad a traveacutes de un gran nuacutemero de servidores autoacutenomos por razones como diferentes interpretaciones de las consultas problemas de escalabilidad dependencia de la disponibilidad de los servidores al momento de la consulta y rendimiento sujeto a la velocidad de respuesta del servidor maacutes lento [8]
Es asiacute que el OAI-PMH se consolida como un estaacutendar de la comunidad de archivos abie^os como resultado de las ventajas que ofrece en comparacioacuten con el Z3950
Este protocolo es un mecanismo de baja barrera para la interoperabilidad de repositorios [9] Define una inte^az que un servidor conectado a la red puede emplear para hacer disponible a aplicaciones externas los metadatos que describen objetos almacenados en ese servidor [8]
En el protocolo se especifican dos tipos de pa^icipantes los proveedores de datos y los proveedores de servicio los primeros encargados de exponer puacuteblicamente los metadatos de su contenido y los segundos a cargo de cosechar metadatos de los proveedores de datos para ofrecer interfaces de integracioacuten y buacutesqueda para el usuario final
Hace uso de peticiones y respuestas HTTP para comunicarse entre un cosechador y un repositorio usando meacutetodos GET o POST Para la conformacioacuten de estas peticiones existe una URL base uacutenica que especifica el servidor y el pue^o y opcionalmente la ruta
Dichas peticiones mejor conocidas como verbos son seis y se concatenan a la URL base Los verbos se describen enseguida [10]
- GetRecord regresa los metadatos de un registro individual
- Identify devuelve la informacioacuten acerca del repositorio
- ListRecords es usado para cosechar los registros de un repositorio argumentos adicionales permiten la cosecha selectiva basada en conjuntos o temporalidad
- ListIdentifiers es una forma abreviada de ListRecords que trae uacutenicamente las cabeceras de los registros
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
130 Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martin Molina Espinosa
todos los aspectos de a publicacioacuten y referencia semaacutentca [18]
Por su pa^e la Ontologiacutea Bibliograacutefica BIBO provee los conceptos y propiedades principales para describir citaciones y referenciasbibliograacuteficas [19]
En cuanto a Dublin Core se refiere la DCMI tambieacuten ha elaborado una ontologiacutea para describir el conjunto de teacuterminos para identificar objetos digitales [20]
Por otro lado se encuentra tambieacuten FOAF un proyecto devoto de vincular personas e informacioacuten usando la Web [21] El espacio de nombres FOAF httpxmlnscomfoaf01 esusado para representar datos acerca de personas tales como nombres fechas de nacimiento y especialmente a la gente con la que serelacionan Es pa^icularmente uacutetil pararepresentar datos de redes sociales
25 Marco de trabajo Jena
Jena proyecto de coacutedigo abierto iniciado por los Laboratorios HP en el 2000 es un marco de trabajo Java para la construccioacuten de aplicaciones de la Web Semaacutentica provee bibliotecas Java para el desarrollo de coacutedigo que maneje RDF RDFS RDFa OWL y SPARQL alineado con las recomendaciones de la W3C [22]
Incluye un motor de inferencia basado en reglas para desempefiar razonamiento basado en ontologias OWL y RDFS y una variedad de estrategias de almacenamiento para tripletas RDF en memoria o en disco
La API ontoloacutegica de Jena provee una interfaz de programacioacuten consistente para el desarrollo de aplicaciones ontoloacutegicas independiente del lenguaje Fue seleccionado para la implementacioacuten de este enfoque dada su solidez y robustez para el desarrollo de aplicaciones de la Web Semaacutentica
3 Descrpcoacuten de )a propuesta
El alcance del enfoque propuesto se restringe al uso de recursos estructurados bajo el protocolo OAI-PMH es decir los datos estructurados en otros formatos o bajo otros protocolos no son considerados en este modelo
informacioacuten de su ambiente para otorgar resultados personalizados Con ello es posible inferir situaciones no explicitadas y asiacute manifestar un compo^amiento inteligente
Especiacuteficamente para el aacutembito educativo muchas plataformas no toman en cuenta las diferentes necesidades del alumno y proveen la misma recuperacioacuten de informacioacuten a todos los usuarios Entonces resulta pe^inente como se menciona en [11] el uso de un modelo de estudiante para permitir la personalizacioacuten efectiva de ambientes de aprendizaje
24 Ontologias
Una ontologiacutea es una especificacioacuten expliacutecita de una conceptualizacioacuten [12]
Se considera conceptualizacioacuten al modelado abstracto de alguacuten fenoacutemeno del mundo identificando sus conceptos relevantes Es expliacutecita dado que el tipo de conceptos usados y sus restricciones son definidos explicitamente Es formal por el hecho de que debe ser legible para maacutequinas y es compa^ida ya que captura el conocimiento consensuado es decir no es privativo de un individuo sino aceptado por un grupo [12 13]
Las ontologias habilitan a una computadora para entender la informacioacuten por siacute misma [14]
Para la ciencia y la educacioacuten un insumo fundamental es la bibliografiacutea asiacute es que la representacioacuten ontoloacutegica de referencias bibliograacuteficas ha sido objeto de diversos desarrollos Entre ellos se encuentra FaBiO una ontologiacutea para registrar y publicar registros bibliograacuteficos en la Web Semaacutentica [15] CiTO una ontologiacutea para citaciones bibliograacuteficas [16] y BIRO la ontologiacutea de referencias bibliograacuteficas [17]
Estas y cinco ontologiacuteas maacutes PRO la ontologiacutea de roles de publicacioacuten PSO la ontologiacutea de estado de la publicacioacuten PWO la ontologiacutea del flujo de trabajo de publicacioacuten C4O la ontologiacutea de caracterizacioacuten del contexto y conteo de citacioacuten y DoCo la ontologiacutea de componentes del documento conforman el conjunto SPAR (Semantic Publishing and Referencing Ontologies) compuesto de moacutedulos para crear metadatos RDF comprehensivos para
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
131
Cosampcha de metadatas OAI-PMH
Transtormacioacuten tie XML a RDF
ل
Vtelidacioacuten de ΒΡΕ
Almacampnannientode tri pi etas
Process nil ientiO en tiempo real
Motor de recuperacioacuten de informacioacuten
Tripetas resultantes
ConsultaCuumlnteKliOdampl usuario
Interfaz de usuario
Fig 1 Diagrama de flujo del proceso
corresponde a la consulta asiacute como la informacioacuten contextual del usuario
Dicha informacioacuten ingresa al motor de recuperacioacuten donde circula por un razonador basado en reglas que procesa la consulta sobre una base de datos de tripletas haciendo uso del API de ontologiacuteas de Jena
El proceso de consulta es en tiempo real sobre datos colectados previamente en un procesamiento por lotes dando como resultado
La pa^e central constituye un motor de recuperacioacuten de informacioacuten sobre ese conjunto de datos
31 Metodologiacutea
En la figura 1 se puede observar el diagrama de flujo del proceso llevado para la implementacioacuten de la propuesta
Se aprecia que la informacioacuten requerida de entrada desde una interfaz de usuario
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
132
proceso de cosecha con el resto dela implementacioacuten
Esta aplicacioacuten se encarga de leer los metadatos de los archivos XML obtenidos de la cosecha OAI-PMH utilizando el API SaxBuilder que permite recuperar los registros convi^ieacutendolos en objetos Enseguida se muestra un ejemplo de registro contenido en un XML deentrada
ltrecordgtlt ltheader
egtfdent10504408ltyco^gedaergtoafdentgtltdatestampgt2007-08-15ltdatestampgt
ltsetSpecgt1405-1435ltsetSpecgtltheadergt
ltmetadatagt dcdc ltoa
xmاnsoaسdc=httpwwwopena٢chveso٢gOAاoa20dc
11xmlnsdc=httppurlorgdcelementsh^ pwwww3org2001XMLSchema xmlnsxs=-
instancevesorgOAI on=h^ pwwwopenarchschemaLocatxs
dc 20oadcxsdgt^vesorgOAI20oah^pwwwopenarch
tirltdctitlegtltdctitlegtLa emergencia del sentido a pa ltdccreatorgtEdgar Morin ltdccreatorgt
ologiacutealtdcsubjectgtltdcsubjectgtSoc doltdcsubjectgtltdcsubjectgtEl no-sent
do del mundoltdcsubjectgtltdcsubjectgtsent dadltdcsubjectgtltdcsubjectgtcomplej
ongtptltdcdescr En este texto se reflexiona sobre el problema del
ongtpt lt dcdescrshergtUniversidad Autoacutenoma del ltdcpubl
shergtltdcpubl ltdcdategt2007ltdcdategt
coltdctypegtentiacutefltdctypegtA^iacuteculo c onpdfltdcformatgtcatltdcformatgtappl
ergtfdentltdc10504408=httpwwwredalycorgarticulooaid
ergtfdentdcgtongtltdcrelat
105=dstaoahttpwwwredalycorarevongtdcrelatgt
ghtsgtaltdcrghtsgtConvergencltdcr a Revista de CienciasltdcsourcegtConvergenc
Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdclanguagegtesltdclanguagegt
ltoai dcdcgtltmetadatagt
lt ltrecord
un conjunto de inferencias correspondientes a recursos de informacioacuten
Los pasos seguidos y componentes de software desarrollados se detallan en los apagados siguientes
32 Cosecha de metadatos OAI-PMH
Se desarrolloacute una aplicacioacuten Java que realiza peticiones HTTP a los proveedores de datos haciendo uso del verbo ListRecords del OAI- PMH Con ello se obtienen archivos en formato XML con los datos descritos en el conjunto simple de metadatos de Dublin Core Dentro de estos archivos XML se encuentran registros (ltrecordgt) El nuacutemero de registros por archivo depende de la confguracioacuten de cada repositorio cosechado y estos pueden variar desde 1 hasta n
33 Transform acioacuten a RDF
Muchas instituciones dan acceso a sus repositorios de metadatos a traveacutes de OAI-PMH pero no hacen que sus recursos sean accesibles a traveacutes de URIs desreferenciables cosa que provoca restricciones de significado y hace que quede restringido el acceso a los metadatos [23] Por esta razoacuten es necesario hacer uso de un conve^idor a RDF con la intencioacuten de transformar los metadatos contenidos en un repositorio OAI- PMH a RDF
Se han desarrollado diversos proyectos que permiten explotar datos estructurados y dotarlos de caracteriacutesticas propias de aplicaciones semaacutenticas como lo es OAI2LOD Server un desarrollo para exponer metadatos OAI-PMH como Linked Data [24] Dentro de este tipo de proyectos wrapper tambieacuten se puede encontrar D2R [25]
Para este trabajo se proboacute un desarrollo enmarcado en los llamados RDFizers software de conversioacuten a RDF llamado OAI2RDF como un componente en la arquitectura [26] Laherramienta realiza esta tarea con una transformacioacuten loacutegica que se hace a traveacutes de hojas XSLT que se invocan una vez que los datos han sido entregados
Sin embargo se optoacute por desarrollar una aplicacioacuten de software para realizar esta tarea dado que esto permitia una mejor integracioacuten del
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
133
34 Modelo Ontoloacutegico y va ldacoacuten
El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH
El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres
La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados
De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)
Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]
La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este
Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML
Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma
ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt
Un ejemplo de salida es el que se muestra a continuacioacuten
ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt
ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-
sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person
foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
134
Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend
coautor
I G rado ]
Fig 3 Relaciones de autoriacutea y coautoriacutea
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
135
A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t
euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s
C o llec tion ٠ middotConcept
euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource
copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠
F requency ٠ euro Im a g e O b je c t = Im a g e
Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠
Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠
A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠
O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person
P hys ica l R esource1٠P o licy ٠ P ro je c t ٠
P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠
S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠
Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute
De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF
35 Alm acenam iento
El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF
36 M otor de recuperacioacuten de informacioacuten
El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6
procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis
Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada
Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]
La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades
Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
136
Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource
Motor de recuperacioacuten de informacioacute
Razonador
API de inferencia Jena
RDFSRuleReasoner
Motor de reglas Jena
Modelo de Ontologia
de Jena ه0وهاوع^ API ا
Ontologia DC FOAF
API de almacenamiento Jena
T D B
Fig 6 Arquitectura
Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas
La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil
El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica
El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
137
Tabla 1 Resultados del proceso de cosecha OAI-PMH
Redalycorg RUDAR
Archivos XML 17328 121Registros DC 346557 12011
a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento
b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final
4 Resultados
Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]
A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea
1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La
del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta
Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes
Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases
- Student representa cualquier estudiante- StudentCourseInformation comprende
informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros
- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso
- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante
37 Procesam iento de la informacioacuten
371 Procesam iento en tiem po real
El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad
372 Procesam iento por lotes
La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa
Fig 7 Grafo de relacioacuten entre las instancias de ejemplo
4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338
5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno
ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt
cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)
2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos
3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
130 Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martin Molina Espinosa
todos los aspectos de a publicacioacuten y referencia semaacutentca [18]
Por su pa^e la Ontologiacutea Bibliograacutefica BIBO provee los conceptos y propiedades principales para describir citaciones y referenciasbibliograacuteficas [19]
En cuanto a Dublin Core se refiere la DCMI tambieacuten ha elaborado una ontologiacutea para describir el conjunto de teacuterminos para identificar objetos digitales [20]
Por otro lado se encuentra tambieacuten FOAF un proyecto devoto de vincular personas e informacioacuten usando la Web [21] El espacio de nombres FOAF httpxmlnscomfoaf01 esusado para representar datos acerca de personas tales como nombres fechas de nacimiento y especialmente a la gente con la que serelacionan Es pa^icularmente uacutetil pararepresentar datos de redes sociales
25 Marco de trabajo Jena
Jena proyecto de coacutedigo abierto iniciado por los Laboratorios HP en el 2000 es un marco de trabajo Java para la construccioacuten de aplicaciones de la Web Semaacutentica provee bibliotecas Java para el desarrollo de coacutedigo que maneje RDF RDFS RDFa OWL y SPARQL alineado con las recomendaciones de la W3C [22]
Incluye un motor de inferencia basado en reglas para desempefiar razonamiento basado en ontologias OWL y RDFS y una variedad de estrategias de almacenamiento para tripletas RDF en memoria o en disco
La API ontoloacutegica de Jena provee una interfaz de programacioacuten consistente para el desarrollo de aplicaciones ontoloacutegicas independiente del lenguaje Fue seleccionado para la implementacioacuten de este enfoque dada su solidez y robustez para el desarrollo de aplicaciones de la Web Semaacutentica
3 Descrpcoacuten de )a propuesta
El alcance del enfoque propuesto se restringe al uso de recursos estructurados bajo el protocolo OAI-PMH es decir los datos estructurados en otros formatos o bajo otros protocolos no son considerados en este modelo
informacioacuten de su ambiente para otorgar resultados personalizados Con ello es posible inferir situaciones no explicitadas y asiacute manifestar un compo^amiento inteligente
Especiacuteficamente para el aacutembito educativo muchas plataformas no toman en cuenta las diferentes necesidades del alumno y proveen la misma recuperacioacuten de informacioacuten a todos los usuarios Entonces resulta pe^inente como se menciona en [11] el uso de un modelo de estudiante para permitir la personalizacioacuten efectiva de ambientes de aprendizaje
24 Ontologias
Una ontologiacutea es una especificacioacuten expliacutecita de una conceptualizacioacuten [12]
Se considera conceptualizacioacuten al modelado abstracto de alguacuten fenoacutemeno del mundo identificando sus conceptos relevantes Es expliacutecita dado que el tipo de conceptos usados y sus restricciones son definidos explicitamente Es formal por el hecho de que debe ser legible para maacutequinas y es compa^ida ya que captura el conocimiento consensuado es decir no es privativo de un individuo sino aceptado por un grupo [12 13]
Las ontologias habilitan a una computadora para entender la informacioacuten por siacute misma [14]
Para la ciencia y la educacioacuten un insumo fundamental es la bibliografiacutea asiacute es que la representacioacuten ontoloacutegica de referencias bibliograacuteficas ha sido objeto de diversos desarrollos Entre ellos se encuentra FaBiO una ontologiacutea para registrar y publicar registros bibliograacuteficos en la Web Semaacutentica [15] CiTO una ontologiacutea para citaciones bibliograacuteficas [16] y BIRO la ontologiacutea de referencias bibliograacuteficas [17]
Estas y cinco ontologiacuteas maacutes PRO la ontologiacutea de roles de publicacioacuten PSO la ontologiacutea de estado de la publicacioacuten PWO la ontologiacutea del flujo de trabajo de publicacioacuten C4O la ontologiacutea de caracterizacioacuten del contexto y conteo de citacioacuten y DoCo la ontologiacutea de componentes del documento conforman el conjunto SPAR (Semantic Publishing and Referencing Ontologies) compuesto de moacutedulos para crear metadatos RDF comprehensivos para
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
131
Cosampcha de metadatas OAI-PMH
Transtormacioacuten tie XML a RDF
ل
Vtelidacioacuten de ΒΡΕ
Almacampnannientode tri pi etas
Process nil ientiO en tiempo real
Motor de recuperacioacuten de informacioacuten
Tripetas resultantes
ConsultaCuumlnteKliOdampl usuario
Interfaz de usuario
Fig 1 Diagrama de flujo del proceso
corresponde a la consulta asiacute como la informacioacuten contextual del usuario
Dicha informacioacuten ingresa al motor de recuperacioacuten donde circula por un razonador basado en reglas que procesa la consulta sobre una base de datos de tripletas haciendo uso del API de ontologiacuteas de Jena
El proceso de consulta es en tiempo real sobre datos colectados previamente en un procesamiento por lotes dando como resultado
La pa^e central constituye un motor de recuperacioacuten de informacioacuten sobre ese conjunto de datos
31 Metodologiacutea
En la figura 1 se puede observar el diagrama de flujo del proceso llevado para la implementacioacuten de la propuesta
Se aprecia que la informacioacuten requerida de entrada desde una interfaz de usuario
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
132
proceso de cosecha con el resto dela implementacioacuten
Esta aplicacioacuten se encarga de leer los metadatos de los archivos XML obtenidos de la cosecha OAI-PMH utilizando el API SaxBuilder que permite recuperar los registros convi^ieacutendolos en objetos Enseguida se muestra un ejemplo de registro contenido en un XML deentrada
ltrecordgtlt ltheader
egtfdent10504408ltyco^gedaergtoafdentgtltdatestampgt2007-08-15ltdatestampgt
ltsetSpecgt1405-1435ltsetSpecgtltheadergt
ltmetadatagt dcdc ltoa
xmاnsoaسdc=httpwwwopena٢chveso٢gOAاoa20dc
11xmlnsdc=httppurlorgdcelementsh^ pwwww3org2001XMLSchema xmlnsxs=-
instancevesorgOAI on=h^ pwwwopenarchschemaLocatxs
dc 20oadcxsdgt^vesorgOAI20oah^pwwwopenarch
tirltdctitlegtltdctitlegtLa emergencia del sentido a pa ltdccreatorgtEdgar Morin ltdccreatorgt
ologiacutealtdcsubjectgtltdcsubjectgtSoc doltdcsubjectgtltdcsubjectgtEl no-sent
do del mundoltdcsubjectgtltdcsubjectgtsent dadltdcsubjectgtltdcsubjectgtcomplej
ongtptltdcdescr En este texto se reflexiona sobre el problema del
ongtpt lt dcdescrshergtUniversidad Autoacutenoma del ltdcpubl
shergtltdcpubl ltdcdategt2007ltdcdategt
coltdctypegtentiacutefltdctypegtA^iacuteculo c onpdfltdcformatgtcatltdcformatgtappl
ergtfdentltdc10504408=httpwwwredalycorgarticulooaid
ergtfdentdcgtongtltdcrelat
105=dstaoahttpwwwredalycorarevongtdcrelatgt
ghtsgtaltdcrghtsgtConvergencltdcr a Revista de CienciasltdcsourcegtConvergenc
Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdclanguagegtesltdclanguagegt
ltoai dcdcgtltmetadatagt
lt ltrecord
un conjunto de inferencias correspondientes a recursos de informacioacuten
Los pasos seguidos y componentes de software desarrollados se detallan en los apagados siguientes
32 Cosecha de metadatos OAI-PMH
Se desarrolloacute una aplicacioacuten Java que realiza peticiones HTTP a los proveedores de datos haciendo uso del verbo ListRecords del OAI- PMH Con ello se obtienen archivos en formato XML con los datos descritos en el conjunto simple de metadatos de Dublin Core Dentro de estos archivos XML se encuentran registros (ltrecordgt) El nuacutemero de registros por archivo depende de la confguracioacuten de cada repositorio cosechado y estos pueden variar desde 1 hasta n
33 Transform acioacuten a RDF
Muchas instituciones dan acceso a sus repositorios de metadatos a traveacutes de OAI-PMH pero no hacen que sus recursos sean accesibles a traveacutes de URIs desreferenciables cosa que provoca restricciones de significado y hace que quede restringido el acceso a los metadatos [23] Por esta razoacuten es necesario hacer uso de un conve^idor a RDF con la intencioacuten de transformar los metadatos contenidos en un repositorio OAI- PMH a RDF
Se han desarrollado diversos proyectos que permiten explotar datos estructurados y dotarlos de caracteriacutesticas propias de aplicaciones semaacutenticas como lo es OAI2LOD Server un desarrollo para exponer metadatos OAI-PMH como Linked Data [24] Dentro de este tipo de proyectos wrapper tambieacuten se puede encontrar D2R [25]
Para este trabajo se proboacute un desarrollo enmarcado en los llamados RDFizers software de conversioacuten a RDF llamado OAI2RDF como un componente en la arquitectura [26] Laherramienta realiza esta tarea con una transformacioacuten loacutegica que se hace a traveacutes de hojas XSLT que se invocan una vez que los datos han sido entregados
Sin embargo se optoacute por desarrollar una aplicacioacuten de software para realizar esta tarea dado que esto permitia una mejor integracioacuten del
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
133
34 Modelo Ontoloacutegico y va ldacoacuten
El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH
El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres
La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados
De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)
Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]
La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este
Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML
Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma
ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt
Un ejemplo de salida es el que se muestra a continuacioacuten
ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt
ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-
sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person
foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
134
Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend
coautor
I G rado ]
Fig 3 Relaciones de autoriacutea y coautoriacutea
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
135
A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t
euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s
C o llec tion ٠ middotConcept
euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource
copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠
F requency ٠ euro Im a g e O b je c t = Im a g e
Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠
Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠
A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠
O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person
P hys ica l R esource1٠P o licy ٠ P ro je c t ٠
P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠
S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠
Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute
De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF
35 Alm acenam iento
El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF
36 M otor de recuperacioacuten de informacioacuten
El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6
procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis
Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada
Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]
La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades
Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
136
Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource
Motor de recuperacioacuten de informacioacute
Razonador
API de inferencia Jena
RDFSRuleReasoner
Motor de reglas Jena
Modelo de Ontologia
de Jena ه0وهاوع^ API ا
Ontologia DC FOAF
API de almacenamiento Jena
T D B
Fig 6 Arquitectura
Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas
La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil
El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica
El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
137
Tabla 1 Resultados del proceso de cosecha OAI-PMH
Redalycorg RUDAR
Archivos XML 17328 121Registros DC 346557 12011
a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento
b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final
4 Resultados
Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]
A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea
1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La
del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta
Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes
Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases
- Student representa cualquier estudiante- StudentCourseInformation comprende
informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros
- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso
- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante
37 Procesam iento de la informacioacuten
371 Procesam iento en tiem po real
El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad
372 Procesam iento por lotes
La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa
Fig 7 Grafo de relacioacuten entre las instancias de ejemplo
4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338
5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno
ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt
cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)
2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos
3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
131
Cosampcha de metadatas OAI-PMH
Transtormacioacuten tie XML a RDF
ل
Vtelidacioacuten de ΒΡΕ
Almacampnannientode tri pi etas
Process nil ientiO en tiempo real
Motor de recuperacioacuten de informacioacuten
Tripetas resultantes
ConsultaCuumlnteKliOdampl usuario
Interfaz de usuario
Fig 1 Diagrama de flujo del proceso
corresponde a la consulta asiacute como la informacioacuten contextual del usuario
Dicha informacioacuten ingresa al motor de recuperacioacuten donde circula por un razonador basado en reglas que procesa la consulta sobre una base de datos de tripletas haciendo uso del API de ontologiacuteas de Jena
El proceso de consulta es en tiempo real sobre datos colectados previamente en un procesamiento por lotes dando como resultado
La pa^e central constituye un motor de recuperacioacuten de informacioacuten sobre ese conjunto de datos
31 Metodologiacutea
En la figura 1 se puede observar el diagrama de flujo del proceso llevado para la implementacioacuten de la propuesta
Se aprecia que la informacioacuten requerida de entrada desde una interfaz de usuario
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
132
proceso de cosecha con el resto dela implementacioacuten
Esta aplicacioacuten se encarga de leer los metadatos de los archivos XML obtenidos de la cosecha OAI-PMH utilizando el API SaxBuilder que permite recuperar los registros convi^ieacutendolos en objetos Enseguida se muestra un ejemplo de registro contenido en un XML deentrada
ltrecordgtlt ltheader
egtfdent10504408ltyco^gedaergtoafdentgtltdatestampgt2007-08-15ltdatestampgt
ltsetSpecgt1405-1435ltsetSpecgtltheadergt
ltmetadatagt dcdc ltoa
xmاnsoaسdc=httpwwwopena٢chveso٢gOAاoa20dc
11xmlnsdc=httppurlorgdcelementsh^ pwwww3org2001XMLSchema xmlnsxs=-
instancevesorgOAI on=h^ pwwwopenarchschemaLocatxs
dc 20oadcxsdgt^vesorgOAI20oah^pwwwopenarch
tirltdctitlegtltdctitlegtLa emergencia del sentido a pa ltdccreatorgtEdgar Morin ltdccreatorgt
ologiacutealtdcsubjectgtltdcsubjectgtSoc doltdcsubjectgtltdcsubjectgtEl no-sent
do del mundoltdcsubjectgtltdcsubjectgtsent dadltdcsubjectgtltdcsubjectgtcomplej
ongtptltdcdescr En este texto se reflexiona sobre el problema del
ongtpt lt dcdescrshergtUniversidad Autoacutenoma del ltdcpubl
shergtltdcpubl ltdcdategt2007ltdcdategt
coltdctypegtentiacutefltdctypegtA^iacuteculo c onpdfltdcformatgtcatltdcformatgtappl
ergtfdentltdc10504408=httpwwwredalycorgarticulooaid
ergtfdentdcgtongtltdcrelat
105=dstaoahttpwwwredalycorarevongtdcrelatgt
ghtsgtaltdcrghtsgtConvergencltdcr a Revista de CienciasltdcsourcegtConvergenc
Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdclanguagegtesltdclanguagegt
ltoai dcdcgtltmetadatagt
lt ltrecord
un conjunto de inferencias correspondientes a recursos de informacioacuten
Los pasos seguidos y componentes de software desarrollados se detallan en los apagados siguientes
32 Cosecha de metadatos OAI-PMH
Se desarrolloacute una aplicacioacuten Java que realiza peticiones HTTP a los proveedores de datos haciendo uso del verbo ListRecords del OAI- PMH Con ello se obtienen archivos en formato XML con los datos descritos en el conjunto simple de metadatos de Dublin Core Dentro de estos archivos XML se encuentran registros (ltrecordgt) El nuacutemero de registros por archivo depende de la confguracioacuten de cada repositorio cosechado y estos pueden variar desde 1 hasta n
33 Transform acioacuten a RDF
Muchas instituciones dan acceso a sus repositorios de metadatos a traveacutes de OAI-PMH pero no hacen que sus recursos sean accesibles a traveacutes de URIs desreferenciables cosa que provoca restricciones de significado y hace que quede restringido el acceso a los metadatos [23] Por esta razoacuten es necesario hacer uso de un conve^idor a RDF con la intencioacuten de transformar los metadatos contenidos en un repositorio OAI- PMH a RDF
Se han desarrollado diversos proyectos que permiten explotar datos estructurados y dotarlos de caracteriacutesticas propias de aplicaciones semaacutenticas como lo es OAI2LOD Server un desarrollo para exponer metadatos OAI-PMH como Linked Data [24] Dentro de este tipo de proyectos wrapper tambieacuten se puede encontrar D2R [25]
Para este trabajo se proboacute un desarrollo enmarcado en los llamados RDFizers software de conversioacuten a RDF llamado OAI2RDF como un componente en la arquitectura [26] Laherramienta realiza esta tarea con una transformacioacuten loacutegica que se hace a traveacutes de hojas XSLT que se invocan una vez que los datos han sido entregados
Sin embargo se optoacute por desarrollar una aplicacioacuten de software para realizar esta tarea dado que esto permitia una mejor integracioacuten del
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
133
34 Modelo Ontoloacutegico y va ldacoacuten
El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH
El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres
La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados
De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)
Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]
La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este
Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML
Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma
ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt
Un ejemplo de salida es el que se muestra a continuacioacuten
ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt
ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-
sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person
foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
134
Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend
coautor
I G rado ]
Fig 3 Relaciones de autoriacutea y coautoriacutea
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
135
A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t
euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s
C o llec tion ٠ middotConcept
euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource
copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠
F requency ٠ euro Im a g e O b je c t = Im a g e
Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠
Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠
A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠
O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person
P hys ica l R esource1٠P o licy ٠ P ro je c t ٠
P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠
S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠
Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute
De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF
35 Alm acenam iento
El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF
36 M otor de recuperacioacuten de informacioacuten
El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6
procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis
Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada
Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]
La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades
Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
136
Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource
Motor de recuperacioacuten de informacioacute
Razonador
API de inferencia Jena
RDFSRuleReasoner
Motor de reglas Jena
Modelo de Ontologia
de Jena ه0وهاوع^ API ا
Ontologia DC FOAF
API de almacenamiento Jena
T D B
Fig 6 Arquitectura
Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas
La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil
El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica
El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
137
Tabla 1 Resultados del proceso de cosecha OAI-PMH
Redalycorg RUDAR
Archivos XML 17328 121Registros DC 346557 12011
a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento
b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final
4 Resultados
Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]
A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea
1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La
del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta
Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes
Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases
- Student representa cualquier estudiante- StudentCourseInformation comprende
informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros
- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso
- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante
37 Procesam iento de la informacioacuten
371 Procesam iento en tiem po real
El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad
372 Procesam iento por lotes
La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa
Fig 7 Grafo de relacioacuten entre las instancias de ejemplo
4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338
5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno
ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt
cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)
2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos
3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
132
proceso de cosecha con el resto dela implementacioacuten
Esta aplicacioacuten se encarga de leer los metadatos de los archivos XML obtenidos de la cosecha OAI-PMH utilizando el API SaxBuilder que permite recuperar los registros convi^ieacutendolos en objetos Enseguida se muestra un ejemplo de registro contenido en un XML deentrada
ltrecordgtlt ltheader
egtfdent10504408ltyco^gedaergtoafdentgtltdatestampgt2007-08-15ltdatestampgt
ltsetSpecgt1405-1435ltsetSpecgtltheadergt
ltmetadatagt dcdc ltoa
xmاnsoaسdc=httpwwwopena٢chveso٢gOAاoa20dc
11xmlnsdc=httppurlorgdcelementsh^ pwwww3org2001XMLSchema xmlnsxs=-
instancevesorgOAI on=h^ pwwwopenarchschemaLocatxs
dc 20oadcxsdgt^vesorgOAI20oah^pwwwopenarch
tirltdctitlegtltdctitlegtLa emergencia del sentido a pa ltdccreatorgtEdgar Morin ltdccreatorgt
ologiacutealtdcsubjectgtltdcsubjectgtSoc doltdcsubjectgtltdcsubjectgtEl no-sent
do del mundoltdcsubjectgtltdcsubjectgtsent dadltdcsubjectgtltdcsubjectgtcomplej
ongtptltdcdescr En este texto se reflexiona sobre el problema del
ongtpt lt dcdescrshergtUniversidad Autoacutenoma del ltdcpubl
shergtltdcpubl ltdcdategt2007ltdcdategt
coltdctypegtentiacutefltdctypegtA^iacuteculo c onpdfltdcformatgtcatltdcformatgtappl
ergtfdentltdc10504408=httpwwwredalycorgarticulooaid
ergtfdentdcgtongtltdcrelat
105=dstaoahttpwwwredalycorarevongtdcrelatgt
ghtsgtaltdcrghtsgtConvergencltdcr a Revista de CienciasltdcsourcegtConvergenc
Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdclanguagegtesltdclanguagegt
ltoai dcdcgtltmetadatagt
lt ltrecord
un conjunto de inferencias correspondientes a recursos de informacioacuten
Los pasos seguidos y componentes de software desarrollados se detallan en los apagados siguientes
32 Cosecha de metadatos OAI-PMH
Se desarrolloacute una aplicacioacuten Java que realiza peticiones HTTP a los proveedores de datos haciendo uso del verbo ListRecords del OAI- PMH Con ello se obtienen archivos en formato XML con los datos descritos en el conjunto simple de metadatos de Dublin Core Dentro de estos archivos XML se encuentran registros (ltrecordgt) El nuacutemero de registros por archivo depende de la confguracioacuten de cada repositorio cosechado y estos pueden variar desde 1 hasta n
33 Transform acioacuten a RDF
Muchas instituciones dan acceso a sus repositorios de metadatos a traveacutes de OAI-PMH pero no hacen que sus recursos sean accesibles a traveacutes de URIs desreferenciables cosa que provoca restricciones de significado y hace que quede restringido el acceso a los metadatos [23] Por esta razoacuten es necesario hacer uso de un conve^idor a RDF con la intencioacuten de transformar los metadatos contenidos en un repositorio OAI- PMH a RDF
Se han desarrollado diversos proyectos que permiten explotar datos estructurados y dotarlos de caracteriacutesticas propias de aplicaciones semaacutenticas como lo es OAI2LOD Server un desarrollo para exponer metadatos OAI-PMH como Linked Data [24] Dentro de este tipo de proyectos wrapper tambieacuten se puede encontrar D2R [25]
Para este trabajo se proboacute un desarrollo enmarcado en los llamados RDFizers software de conversioacuten a RDF llamado OAI2RDF como un componente en la arquitectura [26] Laherramienta realiza esta tarea con una transformacioacuten loacutegica que se hace a traveacutes de hojas XSLT que se invocan una vez que los datos han sido entregados
Sin embargo se optoacute por desarrollar una aplicacioacuten de software para realizar esta tarea dado que esto permitia una mejor integracioacuten del
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
133
34 Modelo Ontoloacutegico y va ldacoacuten
El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH
El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres
La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados
De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)
Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]
La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este
Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML
Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma
ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt
Un ejemplo de salida es el que se muestra a continuacioacuten
ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt
ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-
sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person
foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
134
Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend
coautor
I G rado ]
Fig 3 Relaciones de autoriacutea y coautoriacutea
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
135
A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t
euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s
C o llec tion ٠ middotConcept
euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource
copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠
F requency ٠ euro Im a g e O b je c t = Im a g e
Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠
Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠
A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠
O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person
P hys ica l R esource1٠P o licy ٠ P ro je c t ٠
P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠
S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠
Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute
De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF
35 Alm acenam iento
El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF
36 M otor de recuperacioacuten de informacioacuten
El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6
procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis
Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada
Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]
La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades
Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
136
Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource
Motor de recuperacioacuten de informacioacute
Razonador
API de inferencia Jena
RDFSRuleReasoner
Motor de reglas Jena
Modelo de Ontologia
de Jena ه0وهاوع^ API ا
Ontologia DC FOAF
API de almacenamiento Jena
T D B
Fig 6 Arquitectura
Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas
La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil
El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica
El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
137
Tabla 1 Resultados del proceso de cosecha OAI-PMH
Redalycorg RUDAR
Archivos XML 17328 121Registros DC 346557 12011
a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento
b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final
4 Resultados
Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]
A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea
1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La
del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta
Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes
Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases
- Student representa cualquier estudiante- StudentCourseInformation comprende
informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros
- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso
- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante
37 Procesam iento de la informacioacuten
371 Procesam iento en tiem po real
El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad
372 Procesam iento por lotes
La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa
Fig 7 Grafo de relacioacuten entre las instancias de ejemplo
4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338
5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno
ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt
cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)
2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos
3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
133
34 Modelo Ontoloacutegico y va ldacoacuten
El componente ontoloacutegico integra dos ontologiacuteas una de ellas Dublin Core dado que los recursos que alimentan la base de conocimiento estaacuten estructurados con metadatos DC al estar bajo el estaacutendar OAI-PMH
El estaacutendar Dublin Core original incluiacutea el nivel simple y el calificado el primero compuesto de 15 elementos y el cual se utiliza para descripcioacuten de recursos con OAI-PMH bajo el espacio de nombres httppurlorgdcelements11 Sin embargo para este trabajo se utiliza el espacio de nombres httppurlorgdcterms la razoacuten radica en que a pa^ir del afio 2012 la DCMI (Dublin Core Metadata Initiative) incorpora los dos niveles en este espacio de nombres
La segunda ontologiacutea es FOAF La intencioacuten del uso de FOAF en este proyecto es explorar su adaptacioacuten para tratar la informacioacuten sobre los autores de los a^iacuteculos libros y otros recursos acadeacutemicos Aunado a esto se pueden incluso expresar sus relaciones sociales basadas en coautoriacutea para poder determinar recursos relacionados
De este modo es posible modelar las propiedades de un recurso con su autor como en la figura 2 donde por ejemplo un investigador es un autor de una publicacioacuten (dccreator) pero a la vez es una persona (foafperson) con propiedades individuales Asimismo estaacuten representadas por un lado la relacioacuten de autoriacutea entre una publicacioacuten y un investigador y la de coautoriacutea de un investigador con otro u otros con los que escribe en conjunto una publicacioacuten (figura 3)
Por otro lado es impo^ante recordar que las ontologiacuteas son desarrolladas a diferentes niveles de abstraccioacuten por personas distintas y para diversos propoacutesitos El conocimiento representado por las ontologiacuteas se dispersa debido a la existencia de muchas ontologiacuteas representando los mismos conceptos es asiacute que se vuelve difiacutecil analizar estudiar y usar el conocimiento propagado a traveacutes de muacuteltiples ontologiacuteas si se estudian individualmente [27]
La teacutecnica para combinar en una sola ontologiacutea el conocimiento representado en varias ontologiacuteas es la unioacuten o merge Con este
Posteriormente se creoacute un modelo en Jena a pa^ir de listas de los objetos recuperados y se definioacute un esquema compatible con el estaacutendar Dublin Core para generar un archivo RDFXML
Los datos del autor son enriquecidos para agregar relaciones de coautoriacutea y maacutes datos acerca del autor Estos metadatos pueden extenderse en tanto los conjuntos de datos usados como fuente contengan informacioacuten sobre los autores y son expresados con FOAF de la siguiente forma
ltdccreato rdftype=[httpxmlnscomfoaf01Person] foafname=[Nombre completo] foafgivenName=[Nombre] foafsurname=[Apelldos] foaf knows=[Persona conocda o coautor] foaftopic_interest=[7ema de intereacutes] dcdescription=[Ocupacoacuten grado etc ] ontobirthDate=[fecha de nacmento] gt
Un ejemplo de salida es el que se muestra a continuacioacuten
ltrdfDescription rdfabout= oaredalycorg10504408gtltdclanguagegtesltdclanguagegtltdc٢ightsgtConve٢gencialtdc٢ightsgt
ltdcsubjectgtsentido del mundoltdcsubjectgt ltdctermsmodified rdfresource=2007-08-15gt ltdctypegtA^iacuteculo cientiacuteficoltdctypegt ltdcsourcegtConvergencia Revista de Ciencias Sociales (Meacutexico) Num44 Vol14ltdcsourcegt ltdctitlegtLa emergencia del sentido a pa^ir del no-
sentidoltdctitlegtltdctermsisPa^Of rdf resource=set1405-1435gt ltdcformatgtapplication_pdfltdcformatgt ltdcpublishegtUniversidad Autoacutenoma del Estado de MeacutexicoltdcpublishegtltdcsubjectgtEl no-sentidoltdcsubjectgtltdcidentifierrdfresource=httpwwwredalycorgartculooad=10504408gtltdccreator rdftype=httpxmlnscomfoaf01Person
foafname=Edgar MorngtEdgar Morinltdccreatorgt ltdcrelationgth^pwwwredalycorgrevistaoaid=105lt dcrelationgtltdcdescriptiongtEn este texto se reflexiona sobre ltdcdescriptiongtltdcsubjectgtSociologiacutealtdcsubjectgtltdcdategt2007ltdcdategtltdcsubjectgtcomplejidadltdcsubjectgtltrdfDescriptiongt
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
134
Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend
coautor
I G rado ]
Fig 3 Relaciones de autoriacutea y coautoriacutea
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
135
A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t
euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s
C o llec tion ٠ middotConcept
euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource
copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠
F requency ٠ euro Im a g e O b je c t = Im a g e
Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠
Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠
A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠
O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person
P hys ica l R esource1٠P o licy ٠ P ro je c t ٠
P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠
S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠
Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute
De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF
35 Alm acenam iento
El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF
36 M otor de recuperacioacuten de informacioacuten
El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6
procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis
Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada
Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]
La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades
Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
136
Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource
Motor de recuperacioacuten de informacioacute
Razonador
API de inferencia Jena
RDFSRuleReasoner
Motor de reglas Jena
Modelo de Ontologia
de Jena ه0وهاوع^ API ا
Ontologia DC FOAF
API de almacenamiento Jena
T D B
Fig 6 Arquitectura
Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas
La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil
El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica
El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
137
Tabla 1 Resultados del proceso de cosecha OAI-PMH
Redalycorg RUDAR
Archivos XML 17328 121Registros DC 346557 12011
a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento
b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final
4 Resultados
Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]
A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea
1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La
del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta
Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes
Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases
- Student representa cualquier estudiante- StudentCourseInformation comprende
informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros
- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso
- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante
37 Procesam iento de la informacioacuten
371 Procesam iento en tiem po real
El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad
372 Procesam iento por lotes
La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa
Fig 7 Grafo de relacioacuten entre las instancias de ejemplo
4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338
5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno
ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt
cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)
2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos
3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
134
Fig 2 Modelo ontoloacutegico con Dublin Core y Friend of a Friend
coautor
I G rado ]
Fig 3 Relaciones de autoriacutea y coautoriacutea
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
135
A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t
euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s
C o llec tion ٠ middotConcept
euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource
copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠
F requency ٠ euro Im a g e O b je c t = Im a g e
Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠
Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠
A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠
O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person
P hys ica l R esource1٠P o licy ٠ P ro je c t ٠
P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠
S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠
Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute
De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF
35 Alm acenam iento
El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF
36 M otor de recuperacioacuten de informacioacuten
El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6
procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis
Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada
Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]
La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades
Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
136
Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource
Motor de recuperacioacuten de informacioacute
Razonador
API de inferencia Jena
RDFSRuleReasoner
Motor de reglas Jena
Modelo de Ontologia
de Jena ه0وهاوع^ API ا
Ontologia DC FOAF
API de almacenamiento Jena
T D B
Fig 6 Arquitectura
Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas
La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil
El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica
El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
137
Tabla 1 Resultados del proceso de cosecha OAI-PMH
Redalycorg RUDAR
Archivos XML 17328 121Registros DC 346557 12011
a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento
b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final
4 Resultados
Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]
A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea
1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La
del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta
Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes
Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases
- Student representa cualquier estudiante- StudentCourseInformation comprende
informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros
- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso
- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante
37 Procesam iento de la informacioacuten
371 Procesam iento en tiem po real
El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad
372 Procesam iento por lotes
La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa
Fig 7 Grafo de relacioacuten entre las instancias de ejemplo
4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338
5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno
ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt
cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)
2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos
3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
135
A g e n t Ξ A g e n t euroeuro A g e n t= A g e n t
euro B ib lio g ra p h ic R esource1 = C re a tiv e W o rk = D ocu m e n t9 c ia s s
C o llec tion ٠ middotConcept
euro C re a t iv e W ^ k = D o cu m e n t = B ib liog raph ic R esourcelsquo euro D o cu m e n t Ξ C re a tive W o rk Ξ B ib lio g ra p h ic R esource
copyIm a g e = Im a g e O b je c t P e rs o n a lP ro file D o c u m e n t ٠
F requency ٠ euro Im a g e O b je c t = Im a g e
Labe l P ro p e rty٠ L in g u is t ic S y s te m ٠
Loca tio n P eriod o r ^ r i s d i r t i o n ٠ Media Type o r E x te n t ٠
A c c ru a l M ethod o ٠ In s t ru c t io n ه M ethod ٠
O n lin e A c co u n t ٠ euro P erson = P erson = Person euro P erson Ξ P erson Ξ Person
P hys ica l R esource1٠P o licy ٠ P ro je c t ٠
P rovenance s ta te m e n t ٠ R igh ts S ta te m e n t ٠
S pa tia l T h in g ٠ S tandard ٠ V o cabu la ryE ncod ingS chem e ٠
Fig 4 Jerarquia de clases de la ontologia resultante de la fusioacuten como se muestra en Proteacutegeacute
De la misma forma tambieacuten se establecieron otras equivalencias entre ellas el caso de Creator (httppurlorgdctermscreator) de Dublin Core con Maker (httpxmlnscomfoaf01maker) de FOAF
35 Alm acenam iento
El modelo contempla TDB del marco de trabajo de Jena TDB es un componente para el almacenamiento y consulta RDF sopo^a el rango completo de APIs de Jena y puede ser usado como un almaceacuten de alto rendimiento para tripletas RDF
36 M otor de recuperacioacuten de informacioacuten
El motor de recuperacioacuten de informacioacuten es una aplicacioacuten desarrollada en Jena haciendo uso de sus API de ontologias razonamiento y almacenamiento La arquitectura de sus componentes se muestra en la figura 6
procedimiento se busca obtener una defnicioacuten para expresar el conocimiento obtenido de las fuentes de informacioacuten descritas que favorezca su validacioacuten y anaacutelisis
Con la ayuda de la herramienta Proteacutegeacute [28] y su funcioacuten de Refactor gt Merge Ontologies se realizoacute la fusioacuten de las dos ontologias de entrada
Esta integracioacuten automaacutetica no resuelve las inconsistencias generadas despueacutes del proceso Por ello la ontologia de salida fue sujeta a un refinamiento posterior siguiendo los pasos del algoritmo de merging propuesto en [27]
La jerarquia de clases de la ontologia resultante se muestra en la figura 4 con un total de 39 propiedades
Como parte del refinamiento se identificaron equivalencias por ejemplo con la clase BibliographicResource de DC de la cual se hizo explicita su equivalencia a Document de FOAF que a su vez ya era equivalente a CreativeWork (Figura 5)
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
136
Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource
Motor de recuperacioacuten de informacioacute
Razonador
API de inferencia Jena
RDFSRuleReasoner
Motor de reglas Jena
Modelo de Ontologia
de Jena ه0وهاوع^ API ا
Ontologia DC FOAF
API de almacenamiento Jena
T D B
Fig 6 Arquitectura
Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas
La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil
El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica
El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
137
Tabla 1 Resultados del proceso de cosecha OAI-PMH
Redalycorg RUDAR
Archivos XML 17328 121Registros DC 346557 12011
a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento
b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final
4 Resultados
Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]
A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea
1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La
del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta
Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes
Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases
- Student representa cualquier estudiante- StudentCourseInformation comprende
informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros
- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso
- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante
37 Procesam iento de la informacioacuten
371 Procesam iento en tiem po real
El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad
372 Procesam iento por lotes
La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa
Fig 7 Grafo de relacioacuten entre las instancias de ejemplo
4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338
5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno
ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt
cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)
2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos
3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
136
Fig 5 Vista OWLViz de la clase Document y su equivalencia con Bibliographic Resource
Motor de recuperacioacuten de informacioacute
Razonador
API de inferencia Jena
RDFSRuleReasoner
Motor de reglas Jena
Modelo de Ontologia
de Jena ه0وهاوع^ API ا
Ontologia DC FOAF
API de almacenamiento Jena
T D B
Fig 6 Arquitectura
Cabe destacar que la inferencia se realiza sobre las coincidencias en los valores de las tripletas Un caso por ejemplo es la temaacutetica que aborda un recurso de informacioacuten que en Dublin Core es modelado con dcsubject es asiacute que los registros que tienen el mismo valor en ese atributo tienen una asociacioacuten El modelo no contempla en este momento encontrar dichas coincidencias en diferentes idiomas
La interfaz de usuario debe proveer informacioacuten de contexto expresado en un perfil
El subsistema de inferencia estaacute disefiado para derivar un conjunto de enunciados a pa^ir de la base de datos de hechos proveniente de los procesos de cosecha y transformacioacuten de recursos OA-PMH la informacioacuten de contexto del usuario e informacioacuten ontoloacutegica
El motor de inferencia de Jena es usado para derivar enunciados RDF adicionales de la base TDB Con fines experimentales para este desarrollo se usoacute el razonador OWL incluido una implementacioacuten basada en reglas de OWLLite
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
137
Tabla 1 Resultados del proceso de cosecha OAI-PMH
Redalycorg RUDAR
Archivos XML 17328 121Registros DC 346557 12011
a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento
b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final
4 Resultados
Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]
A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea
1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La
del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta
Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes
Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases
- Student representa cualquier estudiante- StudentCourseInformation comprende
informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros
- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso
- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante
37 Procesam iento de la informacioacuten
371 Procesam iento en tiem po real
El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad
372 Procesam iento por lotes
La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa
Fig 7 Grafo de relacioacuten entre las instancias de ejemplo
4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338
5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno
ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt
cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)
2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos
3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
137
Tabla 1 Resultados del proceso de cosecha OAI-PMH
Redalycorg RUDAR
Archivos XML 17328 121Registros DC 346557 12011
a) El tiempo de cosecha de metadatos depende de los tiempos de respuesta de los repositorios individuales Asimismo el tiempo total de recoleccioacuten de metadatos estaacute sujeto al modo de operacioacuten del cosechador ya sea secuencial o paralelo para todos los repositorios que se deseen cosechar Asiacute para el primer modo seraacute la suma total de los tiempos de respuesta de todos los repositorios y para el modo paralelo dependeraacute del nuacutemero de repositorios que esteacuten siendo cosechados de manera simultaacutenea y el tiempo de respuesta maacutes lento de cada hilo de procesamiento
b) La disponibilidad de los repositorios en el momento de los procesos de recoleccioacuten de metadatos puede impedir que un repositorio sea localizado Asiacute en un procesamiento por lotes es posible realizar intentos de reconexioacuten con el repositorio sin impactar el tiempo final
4 Resultados
Con fines experimentales y de validacioacuten del modelo propuesto fueron elegidos dos repositorios que implementan OAI-PMH Cabe resaltar que la uacutenica condicioacuten para que un repositorio sea compatible con este modelo es que implementen dicho protocolo Los repositorios usados fueron Redalycorg el po^al de la Red de Revistas Cientiacuteficas de Ameacuterica Latina el Caribe Espafia y Po^ugal [30] y el repositorio institucional de la Universidad Roskilde llamado RUDAR (Roskilde University Digital Archive) de Dinamarca [31]
A continuacioacuten se describen los resultados obtenidos de seguir la metodologiacutea
1 El proceso de cosecha de metadatos OAI- PMH recolectoacute de Redalycorg 17328 archivos XML conteniendo cada uno de ellos un maacuteximo de 20 registros que hicieron un total de 346557 a^iacuteculos cientiacutefcos La
del sujeto que lanza la consulta y que constituye un conjunto de caracteriacutesticas para representar circunstancias personales profesionales sociales o de espacio-tiempo como fecha y lugar en que se emite la consulta
Dado que la informacioacuten tratada en este trabajo es de co^e acadeacutemico - cientiacutefico es pe^inente aplicar el modelo para estudiantes
Para este fin se retomoacute el modelo de representacioacuten de estudiantes basado en ontologiacuteas para sistemas de tutoriacutea inteligente de aprendizaje a distancia propuesto en [29] Dicho modelo permite representar a un estudiante con cuatro clases
- Student representa cualquier estudiante- StudentCourseInformation comprende
informacioacuten relevante al proceso educativo como moacutedulos del programa que cursa escuela tareas exaacutemenes entre otros
- StudentCurrentActivity se refiere al detalle de la actividad acadeacutemica del afio en curso
- StudentPersonalInformation es la informacioacuten estaacutetica y permanente del estudiante
37 Procesam iento de la informacioacuten
371 Procesam iento en tiem po real
El proceso de consulta basada en un conjunto de paraacutemetros que ingresan a un motor de inferencia para devolver un resultado se realiza en tiempo real y comienza una vez que se recibe la informacioacuten de entrada y concluye con el enviacuteo de resultados de salida Es asiacute como este motor de recuperacioacuten de informacioacuten utiliza los datos recolectados por el programa de cosecha que han sido transformados enriquecidos y almacenados de manera centralizada con anterioridad
372 Procesam iento por lotes
La naturaleza del funcionamiento del protocolo OAI-PMH obliga a recolectar los datos de los repositorios en procesos por lotes y en segundo plano por las siguientes razones
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa
Fig 7 Grafo de relacioacuten entre las instancias de ejemplo
4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338
5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno
ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt
cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)
2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos
3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
Arianna Becerril Garciacutea Rafael Lozano Espinosa Joseacute Martin Molina Espinosa
Fig 7 Grafo de relacioacuten entre las instancias de ejemplo
4 Posteriormente la informacioacuten pasoacute al almaceacuten en forma de tripletas las cuales ascendieron a un total de 7147338
5 Para ejemplificar la consulta se usoacute como entrada el perfil del siguiente alumno
ltrdfDescription rdfabout= itesmA01210238gt ltstudentnamerdftype=httpxmlnscomfoaf01Person gtRafael R Goacutemezltstudentnamegt
cosecha con RUDAR recuperoacute 121 archivos con un maacuteximo de 1هه registros cada uno haciendo un total de 1211ه recursos entre artiacuteculos tesis y maacutes documentos (Tabla 1)
2 Los archivos XML fueron transformados a RDFXML resultando en total 17449 archivos
3 Esos archivos resultantes fueron sujetos a la validacioacuten utilizando la ontologiacutea combinada
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
139
- La tess de ldquoUski Juha Janne Olavirdquo es relevante para el estudiante ya que trata sobre una temaacutetica relacionada con una autora de un artiacuteculo que es relevante para el estudiante
Asiacute es posible descubrir recursos relevantes para un usuario tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asiacute como las relaciones obtenidas entre los recursos de informacioacuten
5 Trabajos relacionados
Respecto a proyectos cuyo objetivo gira en torno a la recuperacioacuten y descubrimiento de informacioacuten se encuentra Sindice el iacutendice de la Web Semaacutentica [32] es un proyecto patrocinado por el Digital Enterprise Research Institute (DERI) que provee un motor de buacutesqueda semaacutentico de recursos marcados con RDF microformatos microdatos RDFa entre otros indexados de la Web para exponerlos a traveacutes de una API para desarrolladores
Freebase una coleccioacuten abie^a de datos estructurados y plataforma para accederlos y manipularlos a traveacutes de una API que ha notificado su adicioacuten al proyecto Wikidata [33]
Por otro lado hay trabajos en el campo del descubrimiento de recursos y recomendacioacuten como [34] o para ambientes de aprendizaje personales como [35] y sobre la informacioacuten de Linked Data
Todos estos proyectos si bien se enmarcan en la liacutenea de motores semaacutenticos no estaacuten especializados para recursos estructurados con OAI-PMH de ahiacute la diferencia con el modelo aquiacute presentado
6 Conclusiones y trabajo futuro
El descubrimiento de recursos de informacioacuten es un problema derivado del acelerado crecimiento de la Web que dificulta cada vez maacutes la localizacioacuten de informacioacuten para un usuario en lo correspondiente al aacutembito educativo y de investigacioacuten es un reto impo^ante para los estudiantes y cientiacuteficos
ltstudentcourseModulegtSociologiacutealtstudentcourseModulegtltstudentlanguagegtesltstudentlanguajegt
ltstudentdemographicDatagtbrltstudentdemographic
ltrdfDescriptiongt
El objetivo es recuperar recursos acadeacutemicos relevantes para el curso de ldquoSociologiardquo
Un recurso recuperado entre otros fue el correspondiente a un a^iacuteculo cientiacutefico titulado ldquoHacia una ontologiacutea social del aprendizajerdquo escrito por ldquoJean Laverdquo y ldquoMa^in Packerrdquo publicado en espafiol en la revista ldquoRevista de Estudios Socialesrdquo editada en la ldquoUniversidad de Los Andesldquo de Colombia en ldquo2011rdquo y cuya temaacutetica es ldquoSociologiardquo El resultado fue recuperado dada la coincidencia exacta con la temaacutetica (dcsubject) del a^iacuteculo que es ldquoSociologiacuteardquo
Otro recurso resultante corresponde a una tesis titulada ldquoEducation for Active Non-violencerdquo de la autoriacutea de ldquoUski Juha Janne Olavirdquo publicado el ldquo2008-01-17rdquo y que trata de diversos temas es decir cuenta con varios dcsubject uno de ellos tiene como valor el texto ldquoLaverdquo que coincide con el atributo foafsurname de la autora del a^iacuteculo encontrado previamente Es decir esta tesis tiene como temaacutetica cuestiones relacionadas con la autora ٧ aunque no contiene explicitamente la temaacutetica de ldquoSociologiardquo fue recuperada dada la relacioacuten derivada
Las relaciones entre los recursos se muestran en el grafo de la figura 7 por motivos de visualizacioacuten no se incluyeron todos los datos de cada recurso en el grafo
En resumen los hechos obtenidos de los metadatos OAI-PMH cosechados son entre otros
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo tiene una temaacutetica de ldquoSociologiardquo asiacute que es relevante para el estudiante
- El a^iacuteculo ldquoHacia una ontologiacutea social del aprendizajerdquo fue escrito en coautoriacutea por ldquoJean Laverdquo y ldquoMartin Packerrdquo
- ldquoLaverdquo es un tema (dcsubject) de la tesis de ldquoUski Juha Janne Olavirdquo
Hecho derivado
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
1 0 م Arianna Becerril Garciacutea Rafael Lozano Espinosa ]oseacute Martiacuten Molina Espinosa
CNI and SPARC Association of Research Libraries Washington DC
8 ANSINISO (2003) Information Retrieval (Z3950) Application Service Definition and Protocol Specification Estados Unidos Niso Press
9 Lagoze C amp Van de Sompel H (2001) TheOpen Archives Initiative Building a low-barrier interoperability framework ACM JCDL01 Roanoke VA
10 Lagoze C amp Van de Sompel H (2015) TheOpen Archives Initiative Protocol for Metadata Harvesting Protocol Version 20
11 Ma^iacutenez-Villasefior M Gonzaacutelez-Mendoza M amp Danvila Del Valle I (2014) Enrichment of Learner Profile with Ubiquitous User Model Interoperability Computacioacuten y Sistemas Vol 18 No 2 pp 359-374 DOI 1013053CyS-18-2- 2014-037
12 Gruber T (1995) Toward principles for the design of ontologies used for knowledge sharing International Journal of Human and Computer Sciences Vol 43 No 5-6 pp 907-928
13 Studer R Benjamins R amp Fensel D (1998)Knowledge Engineering Principles and methods Data and Knowledge Engineering Vol 25 No 1-2 pp 161-197
14 Abburu S (2012) A Survey on Ontology Reasoners and Comparison International Journal of Computer Applications Vol 57 No 17 pp 33shy39
15 Peroni S amp Shotton D (2012) FaBiO and CiTO Ontologies for describing bibliographic resources and citations Web Semantics Science Services and Agents on the World Wide Web Vol 17 pp 33-43 DOI 101016jwebsem201208001
16 Shotton D (2010) CiTO the Citation Typing Ontology Journal of Biomedical Semantics Vol 1 pp 1-18 DOI 1011862041-1480-1-S1-S6
17 SPAR (2009) Recuperado el 12 de Diciembre de 2014 de Semantic Publishing and Referencing Ontologies h^psempublishingsourceforgenet
18 Shotton D amp Peroni S (2013) Recuperado el14 de septiembre de 2014 de BiRO the Bibliographic Reference Ontologyhttpwwwessepuntatotlodehttppurlorgspar biro
19 Giasson F amp DArcus B (2009) BibliographicOntology Specification Recuperado el 2014 de httpbibliontologycom
20 DCMI (2012) Recuperado el 2 de abril de 2014 de DCMI Metadata Terms httpdublincoreorg documents20120614dcmi-terms
El enfoque presentado propone una metodologia y un motor de recuperacioacuten de informacioacuten basado en ontologias tomando en consideracioacuten la informacioacuten de contexto a traveacutes de un perfil de usuario asi como las relaciones obtenidas entre los recursos de informacioacuten Tal acercamiento permite descubrir recursos de intereacutes personalizados a traveacutes de inferencia
Este modelo podria extenderse paraaprovechar las fuentes de informacioacuten de Linked Data como insumo ademaacutes de contenidos OAI- PMH sin embargo habria que plantear mecanismos de filtrado y seleccioacuten deinformacioacuten acadeacutemica o cientifica
Adicionalmente la propuesta puede ser enriquecida con el uso de vocabularioscontrolados como en [36] yo el uso de ontologias multilinguumles como la desarrollada en [37] para recuperar informacioacuten en diversos idiomas ٧ es posible probar otros motores de inferencia como Pellet Racer o FaCT para un completorazonamiento OWL DL
Referencias
1 Allemang D amp Hendler J (2011) Semantic Web for the Working Ontologist 2 ed USA Morgan Kaufmann
2 Kessler C dAquin M amp Dietze S (2013)I inked Data for Science and Education Semantic Web Journal Vol 4 No 1 pp 1-2
3 Cantillo Valero C Roura Redondo M amp Saacutenchez Palaciacuten A (2012) Tendencias actuales en el uso de dispositivos moacuteviles en educacioacuten La Educacioacuten Digital No 147
4 Becerril Garciacutea A Lozano Espinosa R amp Molina Espinosa j (2014) Modelo para consultas semaacutenticas sensibles al contexto sobre recursos educativos estructurados con OAI-PMH Encuentro Nacional de Ciencias de la Computacioacuten (ENC) Oaxaca Meacutexico Nova Universitas
5 University of Southampton (2014) Recuperado el 7 de julio de 2014 de Registry of Open Access Repositories h^proareprntsorg
6 OCLC (2014) Recuperado el 30 de 07 de 2014 de The OAIster database h^pwwwoclcorg oaisterenhtml
7 Clifford A L (2001) Metadata harvesting and the Open Archives Initiative ARL A bimonthly report of Research Library Issues and Actions from ARL
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-12مdoi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
141
Communications of the ACM Vol 57 No 1ه pp78-85
34 Foulonneau M amp Grouegraves V (2012) Common vs Expert knowledge making the Semantic Web an educational model Linked Learning
35 Jeremic Z Jovanovic J amp Gasevic D (2011)Personal Learning Environments on the Social Semantic Web Semantic Web Journal pp 1-3ه
36 Bakaev M amp Avdeenko T (2013) Indexing and Comparison of Multi-Dimensional Entities in a Recommender System based on Ontological Approach Computacioacuten y Sistemas Vol 17 No 1 pp 5-13
37 Abusalah M Tait j amp Oakes M (2009) Cross Language Information Retrieval using Multilingual Ontology as Translation and Query Expansion Base Polibits Vol 4ه pp 13-16
Arianna Becerril Garciacutea forma pa^e del equipo fundador de la Red de Revistas Cientiacuteficas de Ameacuterica Latina y el Caribe Espafia y Po^ugal (Redalycorg) donde se desempefia como Directora de Tecnologiacutea e nnovacioacuten Es candidata a Doctora en Ciencias de la Computacioacuten por el Tecnoloacutegico de Monterrey en Meacutexico Maestra en Ciencias de la Computacioacuten por la misma institucioacuten e Ingeniera en Computacioacuten por la Universidad Autoacutenoma del Estado de Meacutexico (UAEM) Es profesora- investigadora de tiempo completo de la Universidad Autoacutenoma del Estado de Meacutexico Trata temas como ingenieriacutea del conocimiento recuperacioacuten de informacioacuten en sistemas inteligentes web semaacutentica repositorios digitales bibliometriacutea y acceso abie^o a la ciencia Es tambieacuten miembro del Consejo Asesor Internacional del Directory of Open Access Journals DOAJ y cofundadora de la Red Mexicana de Repositorios nstitucionales Remeri Cuenta con varios artiacuteculos en revistas cientiacuteficas 3 libros publicados y ha pa^icipado en maacutes de 4ه congresos nacionales e internacionales
Rafael Lهzanه Espinosa es ngeniero en Electroacutenica y Comunicaciones por la Universidad de las Ameacutericas Cursoacute una Maestriacutea en Computacioacuten en Sistemas de Informacioacuten por la Universidad de las Ameacutericas Cuenta ademaacutes con un Doctorado en informaacutetica por la Universidad de Grenoble Francia Es Profesor
21 Brickley D amp Miller L (2014) FOAF Vocabulary Specification 99ه Obtenido de h^pxmlnscomfoafspec
22 Apache Software Foundation (2010)Recuperado el 2 de Febrero de 2 1 4 ه de Apache Jena httpjenaapacheorgabout^enaabouthtml
23 OMediaDis (2009) Recuperado el 2 de agosto de2 1 4 ه de Informe Modelos de Metadatos para Contenidos Multimedia httpomediadisudlcathtmldeliverables215-Modelos Metadatos Contenidos Multimedia
24 Haslhofer B amp Schandl B (2008) The OAI2LOD Server Exposing OAI-PMH Metadata as Linked Data International Workshop on Linked Data on the Web (LDOW2D8) co-located with WWW 2 8 هه Beijing China
25 Bizer C amp Cyganiak R (2006) D2R Server - Publishing Relational Databases on the Semantic Web Obtenido de h ^p ^ w i^^ in fo rm a tik u n i- mannheimdebizerpubBizer-Cyganiak-D2R- Server-ISWC2D6pdf
26 Mazzocchi S (2006) Recuperado el 5 de enercde 2 1 4 ه de OAI2RDF hlaquopsimilemitedurepositoryRDFizersoai2rdf
27 Stanford University (2015) Recuperado el 15 de noviembre de 2 1 4 ه de Proteacutegeacute httpprotegestanfordedu
28 Ameen A Rahman Khan K amp Rani B (2014) Semi-Automatic Merging of Ontologies using Proteacutegeacute International Journal of Computer Applications Vol 85 No 12 pp 35-42
29 Panagiotopoulos I Kalou A Pierrakeas C amp Kameas A (2012) An Ontology-Based Model for Student Representation in Intelligent Tutoring Systems for Distance Learning IM Lazaros Iliadis (ed) Artificial Intelligence Applications and Innovations Halkidiki Grecia Springer
30 Becerril-Garciacutea A Aguado-Loacutepez E Rogel- Salazar R Gardufio-Oropeza G amp Zuacutefiiga- Roca M (2012) De un modelo centrado en la revista a un modelo centrado en entidades la publicacioacuten y produccioacuten cientiacutefica en la nueva plataforma Redalycorg IU Oviedo (ed) Aula Abierta Vol 4ه No 2 pp 53-64
31 Roskilde University (2015) Obtenido de Roskilde University Digital Archive hة pdiggyrucdk880ه
32 Tummarello G Delbru R amp Oren E (2007) Sindicecom Weaving the Open Linked Data The Semantic Web Springer Berlin Heidelberg pp 552-565
33 Vrandecic D amp KO tzsch M (2014) Wikidata afree collaborative knowledgebase
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189
ISSN 2007-9737
142
investigacioacuten y desarrollo en tecnologiacuteas moacuteviles en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Instructor de la Especializacioacuten de Desarrollo de Apps en iOS en la plataforma de Coursera Fue Director de posgrados en Tecnologiacuteas de Informacioacuten del ITESM Campus Ciudad de Meacutexico
Artiacuteculo recbdo el 24092015 aceptado 16012016 Autor de correspondenca es Aranna Becerrl Garciacutea
Titular en el aacuterea de Tecnologiacuteas de Informacioacuten y Computacioacuten del Tecnoloacutegico de Monterrey
Joseacute Martiacuten Molina Espinosa es Doctor en Informaacutetica y Telecomunicaciones por el Institut National Polytechnique de Toulouse Es profesor del Departamento de Computacioacuten en el Tecnoloacutegico de Monterrey Campus Ciudad de Meacutexico Director de la Red Nacional de Centros para Toma de Decisiones del Tecnoloacutegico de Monterrey Ha sido liacuteder del grupo de
Computacioacuten y Sistemas Vol 20 No 1 2016 pp 127-142doi 1013053CyS-20-1-2189