data extraction

Post on 21-Jun-2015

444 Views

Category:

Technology

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

Data Extraction Bilgi çıkarımı

TRANSCRIPT

Information Extraction, Automatic(Hamish Cunningham-2004)

Canan GİRGİNYıldız Teknik Üniversitesi

Bilgisayar Mühendisliği

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 1

.

Çıkarım ve Getirim Farkı Anlamadan Dil İşleme Uygulama Senaryoları 5 IE Turu MUC dan Sonra IE

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 2

Program

Çıkarım ve Getirim Farkı

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 3

IR sistemi alakalı metinleri bulur  bunları kullanıcıya sunar

IE uygulaması metinleri analiz eder ve  kullanıcıya sadece ilgisini çeken belirli bir bilgi sunar.

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 4

Anlamadan Dil İşleme

1990 Message Understanding Conferences (MUCs )

Standartlar

Yarışma

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 5

Uygulama Senaryoları

Finansal Analiz Market Stratejileri Halkla İlişkiler Çalışanları Medya Analistleri

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 6

Finansal Analiz

“Şirketimizle aynı konuda çalışan guçlu bir performansa sahip olacağı tahmin edilen kaç tane şirket var?”

“Geçtiğimiz yıl bu şirket için tahminlerin profilleri nasıl değişti?”

“Şirket için kaç tane olumlu/olumsuz duşunce ifade edildi?”

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 7

Market Stratejileri

• “Bu sabah IT yazılarının %7 sinde şirketinizden bahsetti. Sizin şirketinizle doğrudan ilgili olanlarının avaraj oranı 33%. Sizin sektörünüzdeki diğer şirketlerin özet olarak goruntusu ekteki tablodadır.”

• «Şirket Y Comdex de sergilendi. Bir sonraki hafta Comdex sergisi ile ilgili yazıların %20 si Y şirketi ile ilgiliydi.»

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 8

Halkla İlişkiler Çalışanları

‘Aşağıdaki tablo IT haberlerinde ki şirketiniz hakkında son 24 saatte çıkan 12 negatif raporlanacak olayı özetliyor.”

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 9

Medya Analistleri

“Sizin şirketiniz ve XML konusundaki medya uzaklığı 0.09; IBM için bu değer 0.2”

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 10

5 IE Turu

Named Entity recognition (NE) Coreference resolution (CO) Template Element construction (TE) Template Relation construction (TR) Scenario Template production (ST)

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 11

Örnek:

Salı günü parlak kırmızı roket atıldı. Bu Dr. Big Head ‘in parlak bir buluşu. Dr. Head We Build Rockets şirketinde bilim adamı olarak çalışmakta.

NE “roket, Salı, Dr. Head ve We Build Rockets Inc” varlıklarını bulur.

CO rokete başvuracağını bulur.

TE roketin parlak kırmızı olduğunu ve Head’in buluşu olduğunu bulur.

TR Dr. Head’in “We Build Rockets Inc.” İçin çalıştığını bulur.

ST birçok varlığı barındıran bir roket fırlatma olayının olduğunu bulur.

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 12

Named Entity recognition (NE) “Named Entity Extraction”

NE sistemi tum kişi isimlerini, yerleri, organizasyonları, tarihleri, para miktarlarını vs. tanımlar

NE varlık tanıması 95% oranda başarılı olmuştur

Coreference resolution (CO)

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 13

Kimlik ilişkileri tanımları

“Ne yazık, zavallı Yorick, ben onu Horatio olarak bilirdim.”

Yoric => onu

Problemler: Zamir Çözumleme( anaphoric resolution)

Örneğin: ‘Ben’ ile “Ahmet”. Özel isim çözumleme(proper-noun resolution)

Örneğin: ‘IBM’, ‘IBM Europe’, ‘International Business Machines Ltd.’. .

Başarı: %50-60

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 14

Template Element construction (TE)

Açıklayıcı bilgiler ile varlıkları ilişkilendirir.

En iyi başarı oranı %80

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 15

Template Relation construction (TR)

Template elemenler arasında ki az sayıdaki olası ilişkiyi tanımlar

Örneğin bir kişi ve şirket arasındaki çalışan ilişkisi iki kişi arasındaki akrabalık ilişkisi, ya da iki şirket arasındaki ortaklık ilişkisi.

En iyi başarı oranı %75

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 16

Scenario Template production (ST)

Scenario templates (STs) IE sistemleri için prototip çıktılardır.

Başarı oranı %60

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 17

MUC dan Sonra IE

Taşınabilir IE Otomatik İçerik Çıkarımı ( Automatic Content Extraction ACE) Ontoloji Tabanlı IE

12/28/2011 Canan Girgin Yıldız Teknik Universitesi 18

Teşekurler

top related