dra. rocío abascal-mena
DESCRIPTION
Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente. Dra. Rocío Abascal-Mena. DC-2006, México. Contenido. Introducción Propuesta para la creación de un nuevo modelo de documento Extracción de conceptos - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/1.jpg)
Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de
Información PertinenteDra. Rocío Abascal-Mena
DC-2006, México
![Page 2: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/2.jpg)
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
![Page 3: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/3.jpg)
Introducción
Contexto: Biblioteca Digital. Instituto Nacional de Ciencias
Aplicadas de Lyon, Francia (INSA). Consulta Integral de Tesis en Red
(CITHER) Difusión de tesis en línea. Búsqueda a partir de palabras claves. Búsqueda por catálogo. Formato PDF (Portable Document Format).
![Page 4: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/4.jpg)
Introducción
![Page 5: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/5.jpg)
Introducción
Objetivo: Crear nuevo modelo de documentos para permitirle al usuario obtener la información pertinente.
Nuestro trabajo consiste en: Modelar la tesis durante su creación. Permitir la búsqueda de información
pertinente. Uso de “etiquetas semánticas”.
![Page 6: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/6.jpg)
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
![Page 7: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/7.jpg)
Propuesta para la creación de un nuevo modelo de documentos
Llamado a Nomino
Base de Conceptos
Creación manual de etiquetas
Llamado a la base
Estudiante
Tesis con las nuevas etiquetas
Tesis
Almacenamiento de la tesis
CITHER
(1) (2) (3)
Etapa 1
Etapa 2
![Page 8: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/8.jpg)
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
![Page 9: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/9.jpg)
Extracción de conceptos
Estudio comparativo de 4 herramientas de extracción automática de conceptos: Copernic Summarizer Nomino TerminologyExtractor Xerox Terminology Suite (XTS)
Corpus: 25 documentos científicos. Análisis basado en la “precisión” y la
“exhaustividad”.
![Page 10: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/10.jpg)
Extracción de conceptos
La “precisión” es la proporción de documentos recuperados realmente relevantes, del total de documentos recuperados.
Precisión = Documentos relevantes recuperados
Documentos recuperados
![Page 11: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/11.jpg)
Extracción de conceptos
La “exhaustividad” es la proporción de documentos que son relevantes en la base de datos, independientemente de que éstos se recuperen o no.
Exhaustividad = Documentos relevantes recuperados
Documentos relevantes
![Page 12: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/12.jpg)
Extracción de conceptos
Resultados del análisis de nuestro corpus:
Concept clasificado comopertinente por el humano
Concepto clasificado como nopertinente por el humano
Concepto clasificado comopertinente por la
herramientaa b
Concepto clasificado comono pertinente por la
herramientac d
XTS Copernic
Summarizer Terminology Extractor
Nomino
Précision 0.028 (2.8%)
0.339 (33.9%)
0.068 (6.8%)
0.834 (83.4%)
Exhaustividad 0.905 (90.5%)
0.510 (51%)
0.648 (64.8%)
0.651 (65.1%)
![Page 13: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/13.jpg)
Extracción de conceptos
Selección de Nomino como la herramienta más adecuada a nuestras necesidades.
A pesar de la calidad de las herramientas el usuario experto debe de validar los conceptos extraídos.
![Page 14: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/14.jpg)
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
![Page 15: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/15.jpg)
Análisis de la estructura lógica Dos tipos de análisis:
Estructura lógica Estructura semántica
Análisis de la estructura lógica: Observando la organización de la tesis
constatamos que: Siguen un plan, estructura “descomposición
lógica”. Existe una relación entre la estructura
“semántica”.
![Page 16: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/16.jpg)
Análisis de la estructura lógica Análisis de los principales conceptos
extraídos de acuerdo a la estructura lógica Nomino se apoya en dos principios:
“ganancia al alcance”: estipula que la información es aún más importante si es rara
“ganancia a la expresividad”: clasifica los árboles en función de la información que se encuentra a su alrededor
Aplicando Nomino al corpus nos damos cuenta de que hay conceptos que se repiten mucho y que por lo tanto no serán clasificados como pertinentes
![Page 17: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/17.jpg)
Análisis de la estructura lógica
Tesis Conceptos para la tesis completa
Conceptos únicamente para los
capítulos T1 293 296 T2 36 38 T3 66 64 T4 45 43 T5 69 73 T6 42 42 T7 38 42 T8 115 124 T9 40 38 T10 52 54 T11 50 57 T12 36 40 T13 46 54 T14 47 51 T15 81 85 T16 23 24 T17 36 43 T18 17 14 T19 29 32 T20 35 33
![Page 18: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/18.jpg)
Análisis de la estructura lógica
Tesis Conceptos para la tesis completa
Conceptos únicamente para los
capítulos T1 293 296 T2 36 38 T3 66 64 T4 45 43 T5 69 73 T6 42 42 T7 38 42 T8 115 124 T9 40 38 T10 52 54 T11 50 57 T12 36 40 T13 46 54 T14 47 51 T15 81 85 T16 23 24 T17 36 43 T18 17 14 T19 29 32 T20 35 33
![Page 19: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/19.jpg)
Análisis de la estructura lógica Resultados
Para nuestro estudio: Índice Introducción Conclusión
Índice Introducción C1 C2 C3 C4 C5 Conclusión
9,51% 12,98% 20,77% 25,93% 22,23% 25,71% 23,60% 13,42%
Son de menor interés
![Page 20: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/20.jpg)
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
![Page 21: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/21.jpg)
Análisis de la estructura semántica “Segmento semántico”: descomposición o corte del
documento que nos permite acceder al contenido de las tesis por medio de temas o conceptos tratados.
Ejemplos: estado del arte, metodología, modelo, algoritmo, etc.Segmentos semanticos Presentacion del segmento
Estado del arte Lo encontramos en diferentes capitulos de la tesis pero la mayor parte deltiempo esta consacrado al segundo capitulo al cual llamamos « estado delarte general ». Despues podemos encontrar dentro de ciertos capitulosdiferentes estados del arte tales como : « estado del arte de los metodos »,« estado del arte de los algoritmos », …
Metodologia La encontramos en la presentacion de una estrategia propuesta con el finde resolver un problema.
Modelo Este segmento puede encontrarse en varios capitulos.Algoritmo Una de las estrategias encontradas en la gran parte de las tesis consiste en
modelar un problema utilizando algoritmos.Arquitectura Concierne a las principales caracteristicas del prototipo creado.
Prototipo Parte generalmente presentada en los ultimos capitulos.
![Page 22: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/22.jpg)
Análisis de la estructura semántica Análisis de la estructuración de la tesis de
acuerdo a sus “segmentos semánticos”.T1 T2
Estado del arte general-Capitulo 1 al 3
Estado del arte general-Parte 1 Seccion 1-3
Propuesta-Capitulo 4
Estado del arte de los metodos-Parte 2 Seccion 1-2 y 2.1
Prototipo-Capitulo 5
Experimentacion-Parte 2 Seccion 2.2
Estado del arte de lasherramientas
-Parte 3Modelo
-Parte 4Estado del arte de las tecnicas
-Parte 4 Seccion 2Prototipo
![Page 23: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/23.jpg)
Análisis de la estructura semántica Un ejemplo de la extracción de
conceptos usando dos “segmentos semánticos”.Tesis ESTADO DEL ARTE GENERAL MODELO
No. conceptos En los capítulos No. conceptos En los capítulos T1 241 1, 2 y 3 54 4 T2 22 1(1, 2, 3) 8 4 T3 51 1, 2 y 3 31 4 y 5 T4 59 1, 2, 3 y 4 19 5, 6, 7 y 8 T5 32 3 17 3(3.3, 3.4), 4(4.1) T6 56 2 20 3 T7 46 1 20 2 T8 26 2 6 3(4) T9 65 2 10 3
Segmento semántico T1 T2 T3 T4 T5 T6 T7 T8 T9
Estado del arte general 36% 16% 44% 37% 42% 52% 46% 78% 42% Modelo 15% 16% 44% 20% 42% 24% 41% 22% 28%
![Page 24: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/24.jpg)
Análisis de la estructura semántica Validación del interés de cortar la tesis
en diferentes “segmentos semánticos” Localización de las partes de la tesis
más ricas en información Extracción de conceptos del área de
estudio (informática) Creación de una base de conceptos del
área
![Page 25: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/25.jpg)
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
![Page 26: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/26.jpg)
Un nuevo modelo de documento (1) Creación de un documento de tipo TESIS
Estructura lógica (recomendaciones del Ministerio de Educación + Universidad).
Estructura semántica: usando XML Schéma.
![Page 27: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/27.jpg)
Un nuevo modelo de documento (2) Puesta en marcha de un sistema
que ayuda al estudiante a la hora de redactar su tesis.
Llamado a Nomino
Base de Conceptos
Creación manual de etiquetas
Llamado a la base de conceptos
Estudiante
Tesis con las nuevas etiquetas
Tesis
Almacenamiento de la tesis
CITHER
(1) (2) (3)
Etapa 1
Etapa 2
![Page 28: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/28.jpg)
Un nuevo modelo de documento
![Page 29: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/29.jpg)
Un nuevo modelo de documento
Extracción de conceptos haciendo una llamada a Nomino
Nomino
![Page 30: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/30.jpg)
Un nuevo modelo de documento
![Page 31: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/31.jpg)
Un nuevo modelo de documento
![Page 32: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/32.jpg)
Un nuevo modelo de documento
![Page 33: Dra. Rocío Abascal-Mena](https://reader035.vdocuments.pub/reader035/viewer/2022062300/56812c47550346895d90cab8/html5/thumbnails/33.jpg)
Conclusión Definición de un nuevo modelo de documento
tipo “TESIS” Permitiendo el acceso a las partes pertinentes de
los documentos Conjugando simultáneamente las 2 estructuras:
lógica y semántica Construcción de una herramienta para la
generación de tesis Obedeciendo a una estructura predefinida y
controlable Permitiendo la integración de los conceptos con el
fin de describir el contenido Aprovechando la experiencia del autor