türkçe metin arama sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400bin...

42
Türkçe Metin Arama Sistemleri ve Veritabanlarının Karılatırılması Özgür Yılmazel Anadolu Üniversitesi Bilgisayar Mühendislii stanbul, Nisan 2009

Upload: others

Post on 25-Feb-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

Türkçe Metin Arama Sistemleri veVeritabanlarının Kar ıla tırılması

Özgür Yılmazel

Anadolu ÜniversitesiBilgisayar Mühendisli i

stanbul, Nisan 2009

Page 2: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

2

Sunu Akı ı

nternet Uygulamaları ve LAMP

Metin Arama

Veritabanı ve Metin Arama Sistemleri

De erlendirme

Uygulama Örnekleri

Page 3: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

3

nternet Uygulamaları

e-ticaret uygulamaları, bilgi portallarıçindekiler:

Veritabanı, web sunucusu,sunucu üzerinde çalı an yazılımlar, ve(html+javascript) kullanıcı arayüzleri

LAMP – Açık kaynak kodlu çözüm

Linux, Apache, MySQL, (PHP|Perl|Python)

Tüm dünyada çok hızlı bir ekilde benimsendi

Dü ük maliyet ile çok becerikli uygulamalar geli tirildi

Düzenli veri yapılarının saklanması ve tekrar ula ılması içingüçlü çözüm

Page 4: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

4

nternet Uygulamaları – Düzensiz Veriler

Düzenli Veri - Fiyat, Tarih, Miktar - SQL ile aranılabilirDüzensiz Veri – Metin, resim ve video

Metinsel veriler:

Kurumların sahip oldukları düzensiz veri miktarı büyük bir hızla artmakta“ irketlerin sahip oldukları verinin %80i düzensiz veridir.” Sun Data Warehouse Reference

Architecture, Mart 2008“2009 yılının sonunda 4 exabyte bilgi olu turulacak bunun 3 exabyteından daha fazlasıda

düzensiz bilgi olacaktır. Ve bu miktar son 5000 yılda olu an bilgiden fazladır” Karl Fisch

Bilgi ihtiyacının kar ılanabilmesi için düzenli ve düzensiz verilerintümünde efektif bir ula ım mekanizmasına ihtiyaç var.

Email mesajları

Ürün açıklamaları

Raporlar

ilanları

Haber metinleri

Page 5: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

5

Veritabanları ve Düzensiz Veriler

Geleneksel Veritabanları ve arama dili SQL düzensiz verilerinsaklanması ve aranması için uygun de il.

Metinsel veriler için arama sistemleri (Information Retrieval Systems)Sıralama (ranking)

Sorgulama dili

E le tirme

Bir çok öncü firma kendi arama sistemlerini geli tirmek için yatırımlaryaptılar:

Amazon – A9

monster.com – Temmuz 2008’de Trovix arama irketini $72.5Milyon satın aldı

e-Harmony – A ık olma olasılı ının matematiksel modelini olu turdu

eBay – 1995’de kuruldu, 1998’de kendi arama motorunu geli tirdi

Page 6: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

6

Metin Arama Sistemleri

Veritabanı üreticisi firmalar yazılımlarına tam-metin indeksleme vearama özellikleri eklemeye ba ladılar. (De i en ba arı standartlarında)

IBM DB2 – Net Search Extender 1983 1999 (5)

Microsoft SQL Server 1989 1998 (7.0)

Oracle – Ultra Search Text Search 1971 1999 (8i)

MySQL 1995 2000 (3.23)

PostgreSQL 1989 2001 (7.0.3)

Veri depolama amacı güdülmeden, sadece bilgiye ula ımınkolayla tırılması ve arama ba arımının arttırılmasına yönelik sistemler

Apache LuceneTamamen Java’da yazılmı , açık kaynak kodlu, yüksek performanslı ve ölçeklenebilir birmetin arama kütüphanesi.

Bazı kullanıcıları: CNET Reviews, Expert Exchange, Wikipedia, IBM OmniFind

Page 7: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

7

Türkçe Metin Arama ve VeritabanıKar ıla tırma Motivasyonu

Türk kurum ve kurulu ları ellerindeki metin verilerinden tam anlamıylafaydalanamamakta ve bu verilerden yarar sa layamamaktadır.

e-ticaret uygulamalarında aranılan ürünlerin bulunamaması

Güncel bir gazetenin ar ivinde arama yaptı ınızda do ru habere ula amamanız

Bir doktorun veya hukukçunun do ru güvenilir bilgiye kolay ula amaması

Türkçe Metin Arama konusunda yapılan çalı ma sayısı oldukça az

Yapılmı olan çalı maların ticari uygulamaya dönü mü örnekleri yok veyayaygın olarak bilinmiyor.

Veritabanları tam metin indeksleme ve arama özellikleri geli tirseler de, buözellikler ingilizceyi hedef alıyor

Türk firmaların ço unlu u LAMP içinde sıkı mı durumdalar

- daha iyi bir yol var !

En sık kullanılan yöntem

“tüm doküman bir string olsun”.indexOf(“sorgu”)

eklinde yapılan aramalar bugün elimizde olan veri kalabalı ında çok ilkel kalıyor.

Page 8: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

8

Veritabanları Arama Sonuçları

Page 9: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

9

Amaç

Açık kaynak kodlu yazılımları kullanarak Türkçe için uygun, ticari olarak

kullanılabilir bir arama sistemi gerçekle tirmek, bu sistemin mevcut

veritabanına dayalı sistemler ile kar ıla tırmasını yapmak.

Ticari olarak kullanılabilirlik:

Hızlı – indeksleme ve sorguya cevap verme süresi

Ölçeklenebilir – tepki zamanının indeks boyutuna göre de i imi (binlerce,milyonlarca doküman üzerinde arama yapabilme)

Anlamlı sonuçlar – ndexde var olan sonuçların eksiksiz ve do ru sıralamadakullanıcıya sunulması.

Page 10: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

10

Metin Arama Özet

Page 11: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

11

Metin Arama Özet

ndekslemeHızlı arama için özel veri yapıları

Bugün hava çok güzel.

Dün hava çok çok kötüydü.

D1

D2

bugün

çok

dün

hava

güzel

kötüydü

D1: <1>

D1: <12>; D2:<10, 14>

D2: <1>

D1: <7>; D2:<5>

D1: <16>

D2: <18>

Posting ListDictionary

Page 12: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

12

Metin Arama Özet

Page 13: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

13

Metin Arama – Vektör Uzayı Modeli

Dokümanlar ve sorgular t-boyutlu vektörler

Vektör elemanları farklı a ırlıklandırma yöntemleri ile belirlenir

Dokümanların sorgulara olan yakınlıkları bu a ırlıklar ile hesaplanır

t1

d2

d1

d3

d4

d5

t3

t2

Page 14: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

14

Metin Arama – Kosinüs Benzerli i

Benzerlik(dj,q)= cos

Sonuçlar benzerli e göre sıralanıp kullanıcıya gösterilir

Doküman uzayının boyutu tüm dokümanlarda geçen ayrıkelime sayısına e ittir (400Bin dokümanlık ngilizce birdoküman seti için ~30Bin boyut)

t1

d1

q

d2

d3

d4

t3

t2

Page 15: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

15

Metin Arama – Dil leme

Benzerlik ölçüsünün en önemli dayana ı anlamlı metinuzaylarıdır, verilen doküman kümesinden metin uzayınınboyutlarının belirlenmesi sırasında de i ik dil i leme metotlarıkullanılır.

Uzayın boyutlarının azaltılması indeksin boyunu küçültür

Arama hesaplamalarında hız kazanmamızı sa lar

Stopword Eliminasyonu – sık kullanılan ve anlam içermeyenkelimelerin indekse alınmaması; ve,veya, e er

Gövdeleme – Birbirinin türevi olan kelimelerin tek bir boyuttatoplanması

student, studentsrun,ran, running

Page 16: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

1616

Türkçe Arama

Türkçe

Sondan eklemeli bir dil

Sesli uyumu var

Cümle bile en sırası serbest

Türkçedeki kelimelerin büyük ço unlu u oldukça küçük temel bir

sözlükteki köklerin sonlarına yapım ve çekim ekleri eklenerek

türetilmi tir.

~400Bin dokümandan olu an Türkçe bir doküman setinde

~1.3 Milyon ayrı kelime, boyut vardır.

Page 17: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

171717

Türkçe Metin Arama için Dil leme

Gövdeleme (4 farklı sistem denendi)Gövdelemesiz + stopword: out-of-the-box settings

Snowball Gövdeleme:(Kelimeleri kök hallerine indirger)org.apache.lucene.analysis.snowball.SnowballAnalyzer

lk 5 Karakter Gövdeleme: (F.Can et.al JASIST 2008) Tümkelimelerde sadece ilk 5 karakteri kullanır

Zemberek Tabanlı Gövdeleme:

http://code.google.com/p/zemberek

Page 18: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

18

Metin Arama Özet

Page 19: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

191919

2 Veritabanı – 1 Metin Arama Sistemi

MySQL

PostgreSQL

Lucene

• Açık kaynaklı olmayan bir çok veritabanının son kullanıcı lisansı bu tür bir kar ıla tırmaya izin vermedi i için bu çalı mayadahil edilmemi tir.

Page 20: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

202020

2 Veritabanı – 1 Metin Arama Sistemi

MySQLMySQL tam-metin indekslemeyi ve tam-metinaramayı destekler; fakat, MySQL’in tam-metinarama fonksiyonlarının herhangi bir dil için, dileözel dilsel deste i yoktur. Sadece ngilizce için stop-word eliminasyonu mevcut.

PostgreSQL

Lucene

Page 21: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

212121

2 Veritabanı – 1 Metin Arama Sistemi

MySQL

PostgreSQLPostgreSQL, OpenFTS(Açık Kaynaklı Tam MetinArama Motoru) kullanır. OpenFTS verilerin onlineindekslenmesini ve veritabanı aramaları için ilgisıralaması sa layan geli mi bir arama motorudur.PostgreSQL dilsel destek açısından birçok dil içinönceden tanımlanmı dil i leme metodları içerir,Türkçe de bu dillerden bir tanesidir.

Lucene

Page 22: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

222222

2 Veritabanı – 1 Metin Arama Sistemi

MySQL

PostgreSQL

LuceneApache Lucene, tamamıyla Java dilinde yazılmı ,yüksek performanslı ve ölçeklenebilir bir BilgiEri im(IR) kütüphanesidir. Tam-metin aramasıgerektiren, özellikle farklı platformlarda çalı acak,tüm uygulamalarda kullanılabilecek bir teknolojidir.http://lucene.apache.org

Page 23: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

232323

Sistemlerin Kar ıla tırlması

Bilgi Eri im Sistemlerini de erlendirmek için öncelikle

bir test seti gereklidir.

Test Seti:

Dokümanlar

Bilgi htiyaçları

Cevap Anahtarı (relevance judgements)

Tekrar kullanılabilir test setleri olu turmak çok zordur.

Türkçe için tek test seti Bilkent IR Research Group’un

olu turdu u, TREC-benzeri Türkçe test seti olan

“milliyet kolleksiyonu”

Page 24: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

242424

Milliyet Test Seti

408,305 Doküman

72 konu, sorguCevap

Anahtarı

Page 25: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

252525

Deney Sistemi - ndeksleme

Milliyet Collection

Document

Standard Analyzer

Zemberek Analyzer

Fixed Prefix

Analyzer

Snowball Analyzer

MySQL Index

Postgre Index

Lucene Index

MySQL Index

Postgre Index

Lucene Index

MySQL Index

Postgre Index

Lucene Index

Lucene Index

MySQL Index

Postgre Index

Out- of-the -box Settings

<DOCNO>667 </DOCNO><SOURCE>Milliyet v .01 </SOURCE>

<URL>www.milliyet . com .tr/2001 /01/05/sanat /san 05. html</URL>

<DATE >2001 /01/05</DATE ><HEADLINE >Ajanda</HEADLINE ><TEXT >Hazırlayan Gaye Tekelio_lu

_STANBUL Selanik Aristotelis Üniversitesi Güzel Sanatlar Okulu ... </TEXT >

Page 26: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

262626

Deney Sistemi - Arama

Topic

Standard Analyzer

Zemberek Analyzer

Fixed Prefix Analyzer

Snowball

Analyzer

MySQL Index

Postgre Index

Lucene Index

MySQL Index

Postgre Index

Lucene Index

MySQL Index

Postgre Index

Lucene Index

Lucene Index

MySQL Index

Postgre Index

Out -of -the- box Settings

<QueryID >298 </QueryID >

<Title > Ekonomik kriz </Title >

<Description >Türkiye 'de ekonomik krize

neden olan olaylar </Description >

<Narrative >Türkiye 'de son bir kaç yıl içinde

olan ekonomik krizlerin nedenleri ve bunlara

zemin hazırlayan olaylar </Narrative >

WhitespaceTokenizer

Punctiation Removal

Boolen Operator Insertion Between Tokens

tit

le-o

nly

q

uerie

s

title

&

d

es

crip

tio

n

q

uerie

sQuery

Page 27: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

272727

De erlendirme Ölçütleri

Precision =# (relevantDocumentsRe trieved)

# (retrievedDocuments)

Recall =# (relevantDocumentsRe trieved)

# (relevantDocuments)

Bilgi eri im sistemlerinde kullanılan standart ölçütlerdir.

Örnek: Toplam 100 doküman. “ku gribi” sorgusu ile ilgili 30 dokümanvar. Sistem 20 doküman geri döndürdü, bunlardan 10 tanesi “ku gribi”hakkında.

10/20

10/30

Page 28: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

282828

binary preference (bpref)

Yeni bir ölçüt olan bpref eksik cevap anahtarlı bilgieri im sistemlerinin kar ıla tırılmasında kullanılmaküzere tasarlanmı bir ölçüttür.

Chris Buckley ve Ellen Voorhees trec_eval yazılımı

bpref sadece cevap anahtarında bulunan ilgili dokümanların ilgisiz dokümanlardandaha yukarı sıralarda olması ili kisi üzerinde hesaplanır. Sistemlerin tüm setüzerindeki performanslarının güçlü bir ölçütü olmasada, iki sisteminkar ıla tırılabilmesi için iyi bir ölçüttür.

Page 29: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

292929

Deney Sonuçları (bpref)

Sadece ba lık

Aramaları

Ba lık ve

Açıklama

Aramaları

* Bu sonuçlar milliyet test seti için literatürde raporlanmı en yüksek sonuçlardır.

Page 30: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

303030

Precision – Recall Grafi i

title-only queries

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Pre

cis

ion

Lucene

MySQL

PostgreSQL

Page 31: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

313131

Precision – Recall Grafi i

title & description queries

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Pre

cis

ion

Lucene

MySQL

PostgreSQL

Page 32: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

323232

Ortalama Arama Süreleri

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

11000

12000

13000

Lucene MySQL PostgreSQL

Tim

e (m

illi

se

co

nd

s)

title queries

title & description queries

Ba lık sorguları: ortalama 3 kelime

Ba lık ve Açıklama: ortalama 16 kelime

Page 33: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

333333

Ortalama ndeksleme Süreleri

0

15

30

45

60

75

90

105

120

135

150

165

180

195

210

225

Lucene MySQL PostgreSQL

Tim

e

(min

ute

s)

Page 34: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

343434

De erlendirmeTürkçe de erlendirme kümesi için en etkili ve verimli sonuçların Türk dilineözel geli tirilmi bilgi eri im kütüphanesinin kullanılmasıyla elde edildi igösterilmi tir.

Turkish Analyzer herhangi bir dile özel geli im içermeyen ili kiselveritabanlarına göre performansı %55 arttırmı tır.

Lucene’in indeksleme sırasındaki i lem zamanı ili kisel veritabanlarına göre10 kat daha iyidir. Arama sırasındaki i lem zamanı ise 50 kat daha iyidir.

li kisel veritabanları kolay kullanılabilir tam metin arama özelli i sa lasada,dil i leme yapılmadı ından performansları oldukça dü üktür.

Aranan kelime sayısı arttıkça ili kisel veritabanlarındaki arama hızı dü er.Metin Arama Sistemlerinde ise kelime sayısındaki artı hıza yansımaz.

Page 35: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

353535

Uygulama Senaryoları

Sektöründe lider site:

Günde 500.000 sorgu

2 Milyon Sorgu üzerinde yapılan incelemede

Mevcut sistemden ortalama 20 kat daha hızlı

Mevcut Veritabanı– 8 Core üzerinde

Bilgi Eri im Sistemi tek core üzerinde

Ortalama Maksimum

Mevcut Veritabanı 0.188 sn 53.1262 sn

BES 0.0095 sn 6.36 sn

Page 36: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

• HaberTakip

http://www.habertakip.com

17 Haber kayna ından 1,233,142 haber

Haber Kümele (Clustering)

Page 37: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3
Page 38: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3
Page 39: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

• Nuri Oto Servis Bülten Arama Motoru

http://www.dilisim.com/isuzuPHP

Page 40: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3
Page 41: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3
Page 42: Türkçe Metin Arama Sistemleri ve ı lmas ı r ı t la ı n …...kelime sayısına e ittir (400Bin dokümanlık ngilizce bir doküman seti için ~30Bin boyut) t1 d1 q d2 d3 d4 t3

464646

SORULAR?

leti im:

Özgür YılmazelAnadolu ÜniversitesiBilgisayar Mühendisli i

[email protected]: +90-222-335 0580 / 6555