indización automática y “vector mining”: herramientas para recuperación y vinculación de...
Post on 03-Feb-2016
212 Views
Preview:
TRANSCRIPT
Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS
Adalberto Tardelli <tardelli@bireme.ops-oms.org>Operación de Fuentes de Información, CoordinadorBIREME/OPS/OMS
3a Reunión de Coordinación Regional de la BVS, Puebla, México, 5-6/Mayo/2003
• Motivación
• Métodos
• El paper Salton 1988
• La iniciativa Indexing Initiative de la NLM
• La Interface CISIS
• Aplicaciones en la BVS
• Conclusiones
Agenda
• Motivación [$$.$$$.$$$]
[búsqueda por modelo booleano x resultado ordenado por relevancia]
• Métodos
• El paper Salton 1988 [contexto de su afirmación; la idea, similaridad, pesos]
• La iniciativa Indexing Initiative [5 métodos; hemos usado 1,5]
• Utilitarios de la Interface CISIS [nueva funcionalidad wtrig para similaridad]
• Aplicaciones en la BVS [Indización, similaridad de documentos, links y mapeo]
• Conclusiones [mas rápido, económico, no requiere capacitación de IH, sistemático]
[adecuación a la RI por modelo vetorial = precision + recall] [dominio de la tecnología]
Resumen
Nosotros x usuario
• nosotros: busqueda booleana por términos del VC de la IH (precisión)
? (bibliotecarios or informáticos or periodistas científicos) and(Centro Latinoamericano y del Caribe de Información
en Ciencias de la Salud orCentro especializado and gestión and información científico técnica
and Organización Panamericana de la Salud or BIREME or BIblioteca REgional de MEdicina or modelo de cooperación técnica orBVS or Biblioteca Virtual en Salud)
• el usuario: descripción de la query (o sus palabras en un box muy pequeño!)
“fatores humanos envolucrados en el proceso de incorporar metodologías y tecnologías a la organizaciones y personas que participan del proceso de informar y diseminar contenidos científico técnicos en salud en la América Latina yCaribe?”
• “The problems of disease are more complicated and difficult than any others with which the trained mind has to grapple… Variability is the law of life. As no two faces are the same, so no two bodies are alike, and no two individuals react alike and behave under the abnormal conditions which we know as disease. This is the fundamental difficulty in the education of the physician, and one which he or she may never grasp… … Probability is the guide of life.”
Willian Osler. Medical Education. In: Counsels and Ideals, 2nd ed. Houghton Mifflin, 1921
Variabilidad y probabilidad
• grapple: Dicionário Inglês-Português Collins Gem, p.116; grasp: p.116
• el teste ergométrico (enfermedad arterial coronariana) N Engl J Med 1979; 300:1350-58
La verdad (cinecoronariografia)Tiene EAC No tiene EAC
Positivo 605 340Negativo 284 702
Testeergométrico
total 889 1042
Sensibilidade ~ recall = 605 / 889 = 68%Especificidade ~ precision = 702 / 1042 = 77%
• diabetes; mellitus
• hipertensión; coronariopatia; dieta; sal
El paper Salton 1988
D1=(humano,masculino)
Q=(humano,feminino)
D2=(humano)
D3=(humano,feminino)
El paper Salton 1988 / La idea
El paper Salton 1988 / Similaridad
D2=(humano,1 ; masculino,0 ; feminino,0)
Similaridad(Q,D2) = 1 + 0 + 0 = 1
Similaridad(Q,D3) = 1 + 0 + 1 = 2
D3=(humano,1 ; masculino,0 ; feminino,1)
Similaridad(Q,D1) = 1 + 0 + 0 = 1
D1=(humano,1 ; masculino,1 ; feminino,0)
Q=(humano,1 ; masculino,0 ; feminino,1)
El paper Salton 1988 / Como calcular los pesos
TF (term frequency) x IDF (inverse doc frequency) x Normalization
La iniciativa Indexing Initiative / Esquema general
La iniciativa Indexing Initiative / Demo
La iniciativa Indexing Initiative / Demo
Utilitarios de la Interface CISIS
• C library para desarrollo de aplicaciones con bases de dados CDS/ISIS
• 1991: LILACS/CD-ROM 13a edición
• programa MX y otros utilitários, para mantenimiento de BD CISIS
• operación de LILACS, MEDLINE, …, SciELO
• programa WWWISIS, ISIS_DLL, WinISIS (i/o)
• programa WTRIG1 para generación de vectores de términos
• trigramas o palabras del resultado de formatación (o desde archivos XML)
• programa WTRIG2 para calcular la similaridad de “documentos”
• resultados son grabados en bases de dados (o XML)
Aplicaciones..
Conclusiones
• Dominio de la tecnología, hoy día con la Interface CISIS
• Indización automática es:
• mas económica, mas ágil y no requiere la capacitación de los IH
• sistemática => reprodutibilidad, comparabilidad
• Búsqueda por el modelo vectorial mezcla precisión + recall
• como una expresión con and para los primeros documentos recuperados
• como una expresión con or por defecto
• Aplicaciones con similaridad por trigramas y MV son inúmeras
• buscar texto de documentos desde nombre+titulo de CVs
• mapeo de nombres de revistas de las citas en la base ISSN
• vinculación de fuentes de información de la BVS!
top related