dom tree text destiny
TRANSCRIPT
![Page 1: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/1.jpg)
DOM Based Content
Extraction via Text Density
Mehmet Süleyman YILDIRIM
![Page 2: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/2.jpg)
Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar
![Page 3: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/3.jpg)
Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar
![Page 4: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/4.jpg)
Makalenin Tanıtımı Yazarlar
Fei Sun Dandan Song Lejian Liao
School of Computer Science
Beijing Institute of Technology
DetaylarSIGIR 2011Web Sayfası: http://disnet.cs.bit.edu.cn/Uygulama Kodları:
https://github.com/FeiSun/ContentExtraction
Veri Seti: CETD Dataset
![Page 5: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/5.jpg)
Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar
![Page 6: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/6.jpg)
İlgili Kavramlar - DOM Tree
Yahoo
![Page 7: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/7.jpg)
İlgili Kavramlar - Noise (Gürültü) Web sayfalarında asıl içeriğin dışında
kalan,NavigasyonBannerReklam görüntüleri
Arama motorlarının verimliliği açısından önemli bir handikaptır.
Sitedeki anlamlı esas içeriği yakalamak için yok sayılması veya yok edilmesi gerekmektedir.
![Page 8: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/8.jpg)
![Page 9: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/9.jpg)
İlgili Kavramlar - Text Density
i web sayfasındaki bir tagdır (). Ci: i tagı içindeki karakter adedi Ti: i tagı içindeki tag adedi TDi: i tagının text yoğunluğu
Ti: 0 olduğunda 1 ile değiştirilir. DOM Tree de bulunan script, comment,
style vb. taglar kaldırılır veya yok sayılır.
![Page 10: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/10.jpg)
Text Density
![Page 11: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/11.jpg)
Text Density
![Page 12: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/12.jpg)
Text Density
![Page 13: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/13.jpg)
İlgili KavramlarComposite Text Density
LCi: i tagı linklerin içindeki karakter adedi¬LCi: i tagı içindeki (link olmayan)
karakter adediLTi: i tagı içindeki link tagı adediLCb: <body> tagı içindeki link tagı adediCb: <body> tagı içindeki karakter adediCTDi: i tagının composite text yoğunluğu
![Page 14: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/14.jpg)
Composite Text Density
![Page 15: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/15.jpg)
Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar
![Page 16: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/16.jpg)
İçerik Çıkarma - DensitySum
Bazı taglarda (haber başlığı, özeti, tarih bilgisi, referanslar vb.) düşük metin yoğunluğu olabilir.
Aksine bazı gürültü taglarında (telif hakkı veya yasal uyarı metinleri) da yüksek metin yoğunluğu olabilir.
![Page 17: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/17.jpg)
DensitySum En basit durumda içerik sadece bir node
içerisinde olabilir. Bu durumda text yoğunluğu sadece bir tagın maximum çıkar ve burası içerik olarak belirlenir.
Fakat bir çok sitede içerik bir node ile sınırlı değildir. Bunları kapsayan node göz önüne alınmalıdır.
Başlangıç için <body> tagının text yoğunluğu baz alınır
Diğer her node adımda maximum text yoğunluğu olan tag eşik olarak tutulur.
![Page 18: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/18.jpg)
DensitySum
![Page 19: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/19.jpg)
Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar
![Page 20: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/20.jpg)
Uygulama Data Set
CleanEval : Temizlik için özel hazırlanmış veri setidir. İngilizce ve Çince versiyonu vardır. Bu uygulamada sadece İngilizce versiyonu kullanılmıştır.
CETD : (1) The Big 5 : Ars Technica, BBC, Yahoo!, New York Times, Wikipedia, and (2) the Chaos data set chosen randomly from Google News and the best-known blog platforms such as WordPress and Blogger.
Tiny RapidXML
![Page 21: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/21.jpg)
Uygulama Performans Ölçütleri
![Page 22: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/22.jpg)
Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar
![Page 23: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/23.jpg)
Sonuçlar CETD-DS: Text Density with DensitySum CECTD-DS: Composite Text Density with
DensitySum CECTD-S: Composite Text Density with
Smoothing
![Page 24: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/24.jpg)
Sonuçlar
![Page 25: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/25.jpg)
Sonuçlar
![Page 26: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/26.jpg)
Sonuçlar
![Page 27: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/27.jpg)
Sonuçlar
![Page 28: Dom tree text destiny](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c178a7bb61eb31338b4587/html5/thumbnails/28.jpg)
TEŞEKKÜRLER.
Mehmet Süleyman YILDIRIM
Turgut Özal Üniversitesi
Elektrik ve Bilgisayar Mühendisliği