vyhledávání v multimediálních databázích tomáš skopal ksi mff uk

25
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 1. Úvod

Upload: monita

Post on 05-Jan-2016

27 views

Category:

Documents


0 download

DESCRIPTION

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK. 1. Úvod. Organizační záležitosti. a lespo ň 50 % účast na cvičeních i přednáškách obsah cvičení = prezentované referáty 2 referáty (studenti) na 1 cvičení – 2x 45 minut - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Vyhledávání v multimediálních databázích

Tomáš SkopalKSI MFF UK

1. Úvod

Page 2: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Organizační záležitosti

alespoň 50% účast na cvičeních i přednáškách obsah cvičení = prezentované referáty

2 referáty (studenti) na 1 cvičení – 2x 45 minut účel: rozpracování výkladu z přednášky nebo příklady aplikací 30 min. prezentace v PowerPointu nebo PDF + 10 min. diskuse úroveň referátu zohledněna u zkoušky (ta je ústní) 11. a 18.10. výběr/konzultace témat, od 8.11. prezentování

pro zájemce: témata diplomových, příp. i dizertačních prací (PhD)

sledujte stránky předmětu DBI030 na urtax.ms.mff.cuni.cz/skopal

Page 3: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Rozsah kurzu

vyhledávání v multimediálních databázích(similarity search in multimedia databases)

computer graphics

data mining

pattern matching

database systems

information retrieval

MDB

Page 4: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

O čem to bude

podobnostní vyhledávání (content-based similarity retrieval)

query-by-example dotazy extrakce vlastností základní metody rychlého a kvalitního

vyhledávání některé aplikace

Page 5: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

O čem to nebude

správa multimediálních souborů využívání relačních databází pro správu MM

objektů distribuované a P2P systémy hybridní a text-based systémy, filtrovací služby komunikace a síťování pro MDB služby (např.

VoIP, internetová televize, streamování)

Page 6: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Motivace (1)

klasické (relační, objektové) databáze pevně daná struktura i sémantika (schéma databáze, tj. typované

atributy, tabulky, integritní omezení, funkční závislosti, dědičnost, atd.) „umělá“ povaha dat (člověkem vytvářené atributy a jednoznačně

interpretovatelné atributy) víme co hledáme = stačí dotazy na úplnou shodu

multimediální databáze kolekce obrázků, audia, videa, časových řad, textů, XML, atd. obecně kolekce nestrukturovaných dat (dokument) vnitřní struktura i sémantika je skrytá a nejednoznačná

- závislá na aplikaci, datech, i subjektivitě uživatele „analogová“ povaha dat (digitalizace signálů/senzorových dat) nevíme pořádně co hledáme ani jak se ptát = nestačí dotazy na úplnou

shodu

Page 7: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

obrazové databáze - biometrické databáze (otisky prstů, oční duhovky, obličejové rysy) - medicínské snímky (rentgen, tomografie, ultrazvuk, atd.) - satelitní snímky, meteorologický radar - snímky materiálových řezů - heterogenní kolekce (web) a mnoho dalších...

video kolekce - TV zpravodajství - filmové kolekce, domácí video - záznamy z bezpečnostních kamer (letiště, supermarkety, centra měst, atd.) - „netradiční“ sekvence (medicínské, průmyslové, atd.)

geometrické kolekce - CAD modely - opět biometrické databáze - geografická, kartografická a GIS data

Příklady multimediálních dat (1)

Page 8: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

časové řady, audio, (obecně diskrétní signály) - vývoj kurzů akcií, měn, atd. - medicínská data - EEG, EKG, atd. - řeč (obecně zvuk) atd.

biologické databáze - chemické látky (molekuly, sloučeniny, atd.) - sekvence DNA, bílkovin

melodie - notové partitury - MIDI soubory

Příklady multimediálních dat (2)

Page 9: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Příklady multimediálních dat (3)text, hyper-text

- digitální knihovny, archivy, e-mail - web atd.

„document-centric“ XML data, semi-strukturovaná data

Page 10: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Motivace (2)

klasické (relační, objektové) databáze dotaz lze jednoduše formulovat, např. pomocí SQL dotaz na úplnou shodu přesně určuje jak vypadá plně relevantní a plně

nerelevantní možný výstup výsledek dotazu není dále strukturován (všechno je stejně relevantní) propracované přístupové metody = rychlé vykonávání dotazu

SELECT * FROM zamestnanec WHERE vek BETWEEN 25 AND 35

multimediální databáze jak vůbec formulovat dotaz? jak dopředu kvantifikovat co pro mně (ještě) je a co (už) není relevantní? co je to vlastně relevance dokumentu k dotazu? jak dotaz provést efektivně (rychle)?

Page 11: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Náplň kurzu (osnova)

První část (obecné aspekty, architektury, modelování): struktura MDB systémů, modality vyhledávání, dotazy na podobnost extrakce vlastností, míry podobnosti, kvalita a rychlost vyhledávání mapování a redukce dimenze aplikace, ukázky existujících systémů

(důraz na kvalitu vyhledávání)

Druhá část (implementace, indexování): metrické přístupové metody (MAM) vs. prostorové přístupové metody (SAM) principy indexování pomocí MAM statické MAM, dynamické MAM přibližné a pravděpodobnostní vyhledávání ostatní...

(důraz na rychlost vyhledávání)

Page 12: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Typy MDB systémů text-based retrieval systémy

vyhledávání pouze podle textové anotace (meta-informace) automatické anotování (např. images.google.com využívá textu na stránce, kde je na obrázek odkaz,

případně název souboru obrázku) ruční anotace – většinou kvalitnější, anotuje expert, který ví, jak anotovat

dotazy podobně jako u fulltextových vyhledávačů, tj. množina klíčových slov výhoda – využití stávající implementace fulltextových vyhledávačů nevýhody

nelze aplikovat na neanotované kolekce, ruční anotování je drahé anotace je vždy nějak nepřesná (subjektivní, neúplná, zavádějící, atd.)

získané dokumenty můžou být úplně irelevantní nezískali jsme dokumenty, které jsou relevantní - „netrefili“ jsme se do anotace

content-based retrieval systémy vyhledávání pouze podle obsahu různé metody popisu obsahu výhody

vyhledávání podle skutečného obsahu nezávislost na anotaci,

nevýhody – mnoho různých metod modelování struktury a sémantiky obsahu, kterou vybrat?

hybridní systémy kombinují výše zmíněné dva

Page 13: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Ukázka text-retrieval systému images.google.com, klíčové slovo „sun“

Page 14: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Modality vyhledávání

dotazování (querying) dotaz v kontextu dokumentu

dokument chápán jako databáze, kde hledáme dílčí fragment rozpoznávání/analýza obrazu, vyhledávání v DNA sekvencích, řetězcích,

apod. dotaz v kontextu kolekce

celý dokument představuje sémantickou jednotku databázový přístup

prohlížení (browsing) navigace v celé kolekci

hierarchická struktura kolekce okolí (web, ontologie)

vhodné pro interaktivní hledání formou zpřesňování

Page 15: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Potřeby pro modelování relevance

vícehodnotová relevance (ne pouze binární) dokumentu k dotazu, zavedení pojmu „hodně“ nebo „málo“ relevantní

věrná aproximace lidského posuzování relevance jednoduchost modelování relevance pro různé aplikační domény a

uživatele, podpora alternativních relevancí jednoduchost modelování samotného dotazu potřeba obecně použitelného formalismu

míra podobnosti jako funkce přiřazující dvěma dokumentům skóre jejich podobnosti – vzájemná relevance s(Di, Dj)=číslo

s( , ) = 100

Page 16: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Formalizace

potřeba reprezentace dokumentu D modelovým objektem O potřebujeme zjednodušit a uchopit problém, proto formalizace objekt O je popsán těmi vlastnosti dokumentu D, které jsou využívány danou

mírou podobnosti souhrn těchto vlastností generují universum U všech možných modelových

objektů, tj. O U, universum konečné i nekonečné tzv. extrakce vlastností – zjednodušení problému popisu obsahu dokumentu databáze je reprezentována datovou sadou S U

míra podobnosti je potom definována jako s: U × U R vyšší skóre objektů se interpretuje jako vyšší podobnost dokumentů

často je praktičtější používat míru odlišnosti d (vzdálenost) vyšší skóre objektů se interpretuje jako nižší podobnost dokumentů k míře podobnosti lze vždy najít ekvivalentní míru odlišnosti (např. d() = – s() )

Page 17: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Reprezentace dokumentů různé typy extrakce vlastností, tj. tvorba reprezentací dokumentů

objekt je nejčastěji vektor – universum je diskrétní vektorový prostor konečné dimenze objekt je posloupnost prvků – universum je uzávěr na prvcích

spec. případ je řetězec, universum uzávěr na abecedě objekt je množina prvků – universum je potenční množina na prvcích objekt je graf objekt je 2D/3D geometrie a další reprezentace, např. spojité funkce

míra podobnosti/odlišnosti „rozumí“ dané reprezentaci, resp. pracuje s její extrahovanou strukturou a sémantikou

nelze oddělit volbu metody extrakce a volbu míry

konkrétní význam extrakce a míry je silně závislý na aplikační doméně

metody redukce dimenze mechanismy jak u vektorových reprezentací snížit dimenzi (a tím prostorové náklady) redukované vektory by měly dobře zachovávat distribuci podobnosti, tj. zachovávat

podobnosti mezi starými a mezi novými vektory

Page 18: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Dotazování podle podobnosti

k closest pairs similarity join a další

query-by-example typy dotazů ptáme se přímo nějakým dokumentem (ať dokumentem z

databáze ve které hledáme, nebo z jiným) navíc specifikujeme rozsah dotazu nebo výsledku

bodový dotaz rozsahový dotaz – práh r k nejbližších sousedů - k reverzních k nejbližších sousedů – ka další...

Page 19: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Vlastnosti měr podobnosti

topologické vlastnosti metrické axiomy

reflexivita d(Oi, Oi) = 0 pozitivita d(Oi, Oj) > 0 Oi ≠ Oj symetrie d(Oi, Oj) = d(Oj, Oi) trojúhelníková nerovnost d(Oi, Oj) + d(Oj, Ok) ≥ d(Oi, Ok)

ostatní vlastnosti adaptabilita (učení, zpětná vazba) závislost na kontextu (na množství dat, okolí, čase)

Page 20: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

ad reflexivita: objekt nemusí být sám sobě podobný

ad pozitivita: objekt je maximálně podobný (totožný) jinému objektu

ad symetrie: objekt 1 je podobný objektu 2 jinak, než je tomu naopak (záleží na směru porovnávání)

ad trojúhelníková nerovnost: obecně neplatí tranzitivita

Kritika metrických vlastností

50

8030

20

200

050

Page 21: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Kvalita vyhledávání vs. efektivita vyhledávání kvalita vyhledávání (retrieval effectiveness) je úspěšnost vyhledání

dokumentů vzhledem k očekávání uživatele vždy subjektivní, nelze dosáhnout dokonalosti měření na základě subjektivně ohodnocené kolekce nejčastěji přesnost P = |RelOdp|/|Odp| a úplnost R = |RelOdp|/|Rel|

rychlost vyhledávání (retrieval efficiency) ovlivňuje reálnou použitelnost a škálovatelnost I/O operace, množství výpočtů podobností/vzdáleností, ostatní CPU

náklady potřeba speciálních přístupových metod, resp. indexování, sekvenční

průchod je u velkých databází nereálný

kolekce odpověďOdp

relevantníRel

RelOdp

Page 22: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Indexování

minimalizace výpočtů vzdáleností obecně 2 strategie vyhledávání

využití trojúhelníkové nerovnosti, resp. metrických axiomů – metrické přístupové metody

nalezení levně spočitatelné náhrady za původní vzdálenost, pak lze hledat i sekvenčně ohraničující metrika nebo i nemetrika mapování do vektorového prostoru, pak aplikace Lp metrik

využití prostorových i metrických přístupových metod

minimalizace I/O operací konstrukce indexu jako pomocné externí struktury pro rychlé vyhledávání perzistentní, dynamické (škálovatelné), vyvážené (robustní) struktury

stromové (ala B-strom) hašovací

logaritmické nebo lepší složitosti přístupu, lineární složitosti konstrukce

metody přibližného vyhledávání

paralelizace, distribuované indexy, P2P vyhledávání

Page 23: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Prostorové přístupové metody

použitelné pokud objekty jsou vektory a používáme Lp metriky R*-strom, X-strom, UB-strom, atd.

problém prokletí dimenzionality u dimenzí větších 10~20 tyto metody selhávají

výhody indexace nezávislá na metrice, lze používat různé metriky během

dotazování

nevýhody pouze vektorová data indexace nezávislá na metrice, struktura není „šitá na míru“, nekopíruje

optimálně distribuci vzdáleností v sadě použití omezeno na jednoduché metriky, např. Lp

Page 24: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Metrické přístupové metody

obecně použitelné pro objekty libovolného metrického prostoru M-strom, D-index, atd.

problém vysoké vnitřní dimenze zobecnění prokletí dimenzionality do metrických prostorů

výhody indexace „šitá na míru“ dané metrice, lepší výkonnost než prostorové

metody libovolná metrická data

nevýhody pro vyhledávání nelze použít (výrazně) jiné metriky (během dotazování)

aniž by byl vytvořen jiný index

Page 25: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Další témata

přibližné a pravděpodobnostní vyhledávání

nemetrické vyhledávání otevřené problémy