Transcript
Page 1: Dagens Næringslivs overgang til Lucene/Solr søk

Oppgradert søk på m.fl

Hans Jørgen HoelJan Høydahl

Page 2: Dagens Næringslivs overgang til Lucene/Solr søk

Hans Jørgen Hoel

Page 3: Dagens Næringslivs overgang til Lucene/Solr søk

Jan Høydahl

1995: Utvikler telecom1998: Java-utvikler2000: Søk - FAST2006: Lucene2007: new Cominvent()2009: Lucene/SolrCa 100 prosjekter

Page 4: Dagens Næringslivs overgang til Lucene/Solr søk

Virksomhetskritisk søkLucene/Solr og FAST

Domenekunnskap & beste praksis!

Konsulent Kurs(www.solrkurs.no)

Support

Page 5: Dagens Næringslivs overgang til Lucene/Solr søk

Agenda

Bakgrunn for prosjektetArkitektur førSøk ABC, intro til SolrProsjektgjennomføringOppsummering, Q&A

Page 6: Dagens Næringslivs overgang til Lucene/Solr søk

Bakgrunn for prosjektet

Stort antall artikler både på papir og nettFAST ESP som plattform for søk fra 2006Apache Solr for skattelistesøk NHST bruker i stor grad Java og mye åpen programvareDa FAST ble kjøpt opp måtte hele løsningen vurderesEndte opp med å gå for SolrBrakte inn Jan som konsulent

Page 7: Dagens Næringslivs overgang til Lucene/Solr søk

Arkitektur før prosjektet

Page 8: Dagens Næringslivs overgang til Lucene/Solr søk

Søk er ikke databaseOptimalisert for fritekst søkMen god på AND/OR søk

Kommersielle:

Open Source:

Bruksområder:

Søkemotor ABC

X

+++

Page 9: Dagens Næringslivs overgang til Lucene/Solr søk

Apache Solr

Page 10: Dagens Næringslivs overgang til Lucene/Solr søk

Open Source søk - etterspurt??

Page 11: Dagens Næringslivs overgang til Lucene/Solr søk

Prosjektet

Søke-mellomvareNytt presentasjonslag for søkUtfordringerFAST ut -- Solr innOptimalisering/tuning

Page 12: Dagens Næringslivs overgang til Lucene/Solr søk

Arkitektur før prosjektet

Page 13: Dagens Næringslivs overgang til Lucene/Solr søk

Etter overgang til Solr

Multicores

Page 14: Dagens Næringslivs overgang til Lucene/Solr søk

Utfordringer

FAST er en søke-plattform, Solr er rent søkProsessering av kildedataSpråkstøtteEntiteter (personer, steder, firmaer)

Page 15: Dagens Næringslivs overgang til Lucene/Solr søk

FAST - Solr forskjeller

En indeks, delt inn med collections

Flere indekser (cores), hver med sitt eget skjema

Lemmatisering:bil, biler, bilene => bilbillig, billigere => billig

Stemming:bil, biler, bilene => bilbillig => bilbilligere => billiger

Meget bra fler-språklig støtte Mer begrenset. Vi bygget inn språk-støtte i rammeverket

Page 16: Dagens Næringslivs overgang til Lucene/Solr søk

Etter overgang til Solr

Multicores

Page 17: Dagens Næringslivs overgang til Lucene/Solr søk

Tuning for nyhetssøk

Hva er viktigste faktor for nyhets-søk?Ferskvare !

umiddelbar indekseringdato-boost i søkSolr Function Query

recip( ms(NOW,publishdate), 3.16e-11, 0.5, 0.5)^4000.0

Page 18: Dagens Næringslivs overgang til Lucene/Solr søk

Funksjoner for de fleste behov...

literal()fieldvalue()ord()rord()sum()sub()product()div()pow()abs()log()sqrt()map()strdist()

scale()query()linear()recip()max()min()ms()rad()deg()sqrt()cbrt()ln()exp()top()

sin()cos()tan()asin()acos()atan()sinh()cosh()tanh()ceil()floor()rint()pow()hypo()

pi()e()docfreq()termfreq()idf()tf()norm()maxdoc()numdocs()dist()sqedist()hsin()geohash()atan2()

Page 19: Dagens Næringslivs overgang til Lucene/Solr søk

Oppsummering / gevinster

Solr mye mindre ressurskrevende enn FASTKan til og med kjøres virtualisertRyddigere arkitektur, separate kjerner og skjemaerTjent mye på felles søkemellomvare og presentasjonslagGode muligheter for tuning Noen utfordringer, men alt i alt veldig fornøyd


Top Related