mustafaergun.com.trmustafaergun.com.tr/wordpress/wp-content/.../2016/01/t… · web...

EĞİTİM ARAŞTIRMALARINDA DATA MINING VE TEXT MINING TEKNİKLERİNDEN YARARLANMA

Prof.Dr. Mustafa Ergün

GİRİŞ

Günümüzde resmi ve özel verileri depolamak ve geri getirmek için birçok olanaklar doğdu; herkes fotoğraflarını, filmlerini, yazılarını, her türlü notlarını elektronik ortamlarda saklıyor. Bu ortamlarda saklanan bilgiler her geçen gün akıl almaz bir şekilde artıyor (bazıları buna “bilgi patlaması” diyor). Birçok arama motoru elektronik ortamlardaki bu verileri içindeki anahtar kelimelere göre (veya bazen içeriğe de bakarak) sizin için tarıyor; bazı satış firmaları buradan aradığınız şeyleri öğrenip size “uygun” satış teklifleri sunuyorlar. Müşterilerin ilgilerine göre basını ve interneti tarayıp onun ilgilenebileceği metin verilerini getiren programlar var; bunları internetten satış yapan firmalar da yoğun olarak kullanıyor. Şu anda herkesin mailleri, dosyaları, facebook, twitter gibi yerlerde paylaştıkları, bloglarda yazdıkları güvenlik ve terörü izleme amaçlı olarak analiz ediliyor. Bilimsel alanda örneğin biyomedikal metinleri tarayan GoPubMed gibi bilgi temelli arama motorları kullanılıyor. Dolayısıyla bilgisayar yardımlı metin analizleri (computer-assisted text analysis) geniş bir uygulama alanı buldu ve değişik teknik ve yazılımlarla araştırmacının odaklandığı noktaya göre analizler yapıyor.

Kütüphanelerdeki ve dijital ortamlardaki verilerin çoğu yapılandırılmamış (unstructured) metinler, ses ve görüntü dosyaları şeklindedir. Bu verilerin araştırmacılar için bilgi haline dönüştürülüp kullanılması yeni araştırma teknikleri içinde önemli bir yer tutuyor. Bu tür verileri doğru ve sistematik olarak inceleyen teknik ve bilgisayar yazılımlarına ihtiyaç vardır.

Eğitim araştırmaları giderek metin, ses, görüntü temelli verilerle yapılmaya başlanmıştır. Metin, ses ve görüntü analiz etme ve inceleme teknikleri de hızla geliştirilmeye başlanmıştır. Burada ses ve metni birlikte incelemek, görüntüleri (film veya fotoğraf olarak) farklı bir grupta ele almak daha doğru olacaktır.

İçerik Analizi

İçerik analizi (content analysis) sosyal bilimler ve medya alanında geleneksel çalışma metodlarından biridir. İçerik analizi hem nicel hem de nitel veriler üzerinde yapılabilir, yani bir açıdan bütün bilimsel araştırmalar bir içerik analizidir.. Cümle analizi, konuşma veya söylem analizi, tematik analiz, kelime ilişkileri analizi gibi birçok farklı ve alt söylemleri vardır. Burada kelime frekanslarından kelime birlikteliklerine, kavramsal ilişkilere, kişilerin kavramları farklı kullanma biçimlerine, değişik kelimeleri belli kümeler şeklinde kodlamalara

bakılır. Genellikle kodlama işi bitirildikten sonra yapılan işleme “tematik analiz” denir. İçerik analizi genelde kodlama kategorilerinin tamamen metinden çıkarıldığı geleneksel içerik analizi, belirli bir teori veya hipotezlerinize göre kasıtlı kodları arayan ve sadece bunları analiz eden yönlendirilmiş (directed) içerik analizi, metindeki içerik ve anahtar kelimeleri sayan, karşılaştıran ve sonra da yorumlayan sonuçlandırıcı (summative) içerik analizi olarak üçe ayrılır (Hsieh & Shannon, 2005).

Burada betimsel ve yorumsal araştırma desenleri kullanılabilir. Eğer verilerinizdeki ifadelere sıkı şekilde bağlı kalmak isterseniz betimsel, onları özgür biçimde yorumlamak isterseniz yorumsal bir desen belirleyebilirsiniz. Betimsel bir desende genellikle içerik analizi yaparken yorumsal bir desende tematik analizi daha rahat yapabilirsiniz. İçerik analizi kodlar tespit eder, tematik analiz bu kodlardan kavramlar ve temalar oluşturarak onları yorumlar.

Yapılandırılmış görüşme ve anketler yoluyla elde edilen Survey verilerin içerik analizi Excel gibi yaygın yazılımlarla da yapılabilir. Bu programlarda veriler satır ve sütunlar şeklinde girildiği için bu işlemler yapılabiliyor. Burada frekans dağılımları ve yüzdelikler alınır, çapraz tablolar (cross tabulation) çıkarılır, chi-kare hesaplanır ve çeşitli yorumlar yapılabilir. Veriler değişik şekillerde grafiklerle de gösterilebilir.

İnsanların ve bilgisayarların en kolay işleyip kullanabilecekleri bilgiler, yapılandırılmış yani belli özelliklere göre listelenmiş bilgilerdir. Öğrenci işleri kayıtları, hastahane, banka, nüfus vs kayıtları yapılandırılmış kayıtlardır (structured data). Burada her kişinin, olayın veya nesnenin kaydı kendi satırındaki sütunlara yerleştirilmiştir. SQL veya Access gibi dillerle hazırlanmış veri tabanlarındaki bilgiler kolaylıkla aranıp bulunabilir, sınıflandırılabilir vs… (Akpınar, 2000) Excel türü hücrelere yerleştirilen bilgilerin yapısal olup olmadığı ise tartışmalıdır. Bu tür bilgiler değişik şekillerde sorgulanarak işe yarar çok değerli bilgiler ortaya çıkarılabilir.

Bilgisayarlar kelimelerin anlamlarından ziyade fiziksel durumlarını değerlendirip “ilişkili terimler” bulurlar. Buradan çıkarılan bağlantı ağlarının belgeler içindeki hareketleri grafiksel olarak gösterilebilir.

Nitel verilerde içerik analizi yapan yazılımlardan bazıları: Concordance, Crawdad Technologies LLC, Diction, General Inquirer, Hamlet II, INTEXT, Leximancer, Minnesota Contextual Content Analysis (MCCA), Profiler Plus, PROTAN, SALT Software, PASW Text Analytics for Surveys, T-LAB Tools for Text Analysis, TABARI, TACT (Text Analysis Computing Tools), Tapor Tools, Text Analysis Tool, Textalyser, Textanz, TextArc, TEXTPACK, TextQuest, VBPro, Wordcruncher, WORDij, Wordle, WordStat, Yoshikoder…

Bu alanda şimdiye kadar sınırlı metinlerle çalışan gelenek, bundan sonra metin tarzı, hatta ses ve görüntü temelli bilgi yığınlarını incelemek zorunda kalacaktır.

Veri Madenciliği (Data Mining)

Her gün kullandığımız arama motorları bize aradığımız konuyla doğrudan ilgili ve ilgili olmayan birçok dosyanın adresini getiriyor. Ama bunlar arasından gerçekten aradığımız bilgilere ulaşmamız büyük bir sorun olarak duruyor. Çünkü getirilen dosyaların içinden doğrudan aradığınızı bulmanız çok zordur, çünkü bilgiler yapılandırılmamış bilgilerdir. Buradaki bilgiler doğal ses, görüntü veya doğal dille yazılmış metin tarzındadır. Yani bilgisayardaki birçok kayıt bu şeklide yapılandırılmamış, yazı, resim, ses veya film formatlarında bulunmaktadır. Bilgisayarlardaki verilerin %80’den fazlasının yapısal olmayan kayıtlar olduğu tahmin edilmektedir. Birçok firma, kurum ve işyeri yıllardan beri elektronik arşivlerini saklamakta, “ham veri zengini, ama bilgi fakiri” durumunda yaşamaktadır. Bunların rekabetçi piyasada başarılı olmaları ve başarılarını sürdürmeleri her geçen gün daha da zorlaşmaktadır (Dolgun vd 2009).

Doğal dili işleme, özellikle semiotik açısından oldukça karmaşık bir süreçtir. Sadece kelimeleri gruplamak yetmez, kelimelerin aldığı önek ve son eklerle kelimelerin context içindeki anlamlarını ayırıp gruplamak çok ince teknikler gerektirir. Örneğin “soğuk” (su, hava, davranış vs) birçok yerlerde farklı anlamlar içerir. Dolayısıyla Doğal Dil İşlemede (Natural Language Processing, NLP), metni analiz etme ve anlamada yapay zeka kullanımı ve dilbilim yaklaşımları gibi araçlar kullanılır (Shi vd. 2014). Doğal dil işleme alanında başarılı sonuçlar veren birçok bilgisayar yazılımı bulunmaktadır.

Bilgisayarlarda farklı şekillerde bulunan verileri analiz için hazırlamamız gerekir. Bu işlem ilk olarak doğal dil ile oluşturulmuş metinlerden bir takım kelimelerin, varlıkların, isimlerin çıkartılarak metnin mümkün olduğu kadar yapısal hale getirilmesi demektir. Eğer metinlerde ne aradığımızı ve bulduklarımızı nasıl değerlendireceğimizi biliyorsak, metin içindeki bilgilerin çıkartılması (Information Extraction, IE) gerekir. Dolayısıyla bilgi çıkarımı, metin içindeki anlamın çıkartılması ve bilgisayar tarafından anlaşılabilir hale getirilmesi demektir (Arslan 2011). Bilgi çıkarımında varlık çıkarımı (metindeki kişi, kurum ve yer adları, zaman, para ve kısaltmalarını adlandırma ve sınıflandırma işlemleri) ve ilişki çıkarımı (içinde bulunma, ile bağlantılı olma ve karşı olma) gibi işlemler yapılmaktadır.

Veri madenciliği metin içindeki bilgileri çıkarır, ama bunun için metnin yapısal hale getirilmesi gerekir (bunu büyük ölçüde metin madenciliği yapar). Yapısal hale getirilmiş metinlere uygulanan veri madenciliği teknikleri genelde şunlardır (Şentürk, 2006, Savaş vd. 2012):

1. Sınıflama (Classification): Verileri ayrıştırılır ve belli sınıflar içine yerleştirilir. Böylece bağımlı ve bağımsız değişkenler arasındaki ilişki analiz edilir; bu arada yeni bilgiler keşfedilebilir veya oluşturulabilir.

2. Kümeleme (Clustering): Kodlanmış verileri gruplar/sınıflar halinde kümelere ayırma işlemidir. Veri tipine göre çeşitli kümeleme algoritmaları vardır. Araştırmayı yapanlar, kümelemenin hangi değişken özelliklerine göre yapılacağını belirler.

3. Birliktelik kuralları ve sıralı örüntüler (Association rules and sequential patterns): Veri kümeleri arasında birliktelik ilişkilerini bulurlar. Veriler içindeki sık tekrarlanan öğelerden güçlü birliktelik kuralları oluşturulur. Verilerin içinde esas işe yarayacak olan bilgiler bunlardır. Bunun için yapay zekâ temelli çok sayıda veri çözümleme programı kullanılır. Bu tür bilgilerin görsel hale getirilmesi için de birçok yazılım geliştirilmiştir.

Veri madenciliğinde insan ve bilgisayar/yazılım birlikte çalışır. Önce insan veri ayıklama ve kodlamaları yapar, kural setlerini ortaya çıkarır, sorgular, sınar ve makineye öğretir (makine-öğrenme temelli yaklaşım). Makine kendisine öğretilen kurallar ve örüntülere göre kendisine eklenen her yeni metni ve veriyi otomatik değerlendirir, sınıflandırır.

Metin madenciliği (Text Mining)

Metin madenciliği 1980’lerde çıktı, ama yakın zamanlarda teknolojik ilerlemelerle büyük gelişme sağladı. Bazen “text data mining”, “metin analizi” (text analytics) de deniyor. Bunlara ek olarak “concept mining”, “web mining” gibi benzer kavramlar da var.

Web madenciliği, yapısal olmayan web içeriklerini yapısal veriye dönüştürür, sayfa yapıları ve web bağlantı istatistikleri gibi web site ve sayfaları ile ilişkili olan verilerin analizini yapar. Burada genellikle web yapı madenciliği, web içerik madenciliği ve web kullanım madenciliği yapılmaktadır.

Metin madenciliği, veri madenciliğinin yapısal olmayan veriler (unstructured data) üzerinde çalışan bir alt dalıdır. Yapısal olmayan veriler digital ortamlarda doğal dil, ses ve görüntü formatlarında bulunan ve işlenmeye uygun kayıtlardır. Metin ve veri madenciliği arasında interaktif bir ilişki vardır. Metin madenciliği sonucunda elde edilen yapısal veriler veri madenciliği modellerinde değerlendirilmekte ve elde edilen sonuçlar daha sonra metnin yapısının incelenmesinde kullanılmaktadır.

Metin verisindeki anlamın ortaya çıkarılabilmesi için kullanılan yöntem metin madenciliğidir. Metin yazımında standart kurallar olmadığından dolayı bilgisayar bunları doğrudan analiz edememektedir. Her bir metnin dili ve içerdiği anlam, oluşturulma amacına bağlı olarak çeşitlilik göstermektedir (Ergün, Nitel Verilerin Ve Yorumların Güvenirliği Felsefesi).

Dolayısıyla doğal dille oluşturulan dosyalardaki metinlerin bir bütün olarak sınıflandırılması, özetlenmesi, metni temsil eden kelimelerin ve kavramların çıkarılması, benzer metinlerle karşılaştırılması ve aralarındaki ilişkilerin ortaya konulması işlemi, metin madenciliğidir (Çalış vd. 2013). Ama bu çok kolay değildir; çünkü insan dili o kadar farklı anlamlar taşır ki, onları yerleştirdiğiniz kategoriler, bağlantılar vs. yanlış da olabilir (Cohen & Hunter, 2008).

Yapısal olmayan bilgiden içerik çıkarmak için kullanılan geleneksel yöntemler; anahtar kelimeler veya mantıksal aramalar (ve, veya, değil vd gibi bağlaçlarla), istatistiksel veya olasılıksal algoritmalar, sinir ağları ve kalıp keşfedici sistemler gibi dilbilimsel olmayan yöntemlerdir (Dolgun vd. 2009). Yani önce metindeki anahtar kelime ve kavramlar bulunur, sonra bunlar daha üst kategoriler içinde birleştirilir (bilgisayar donanımı ile ilgili kelimelerin “bilgisayar donanımı” kategorisine atanması gibi). Öte yandan bu anahtar kelimelere göre metnin tamamı özetlenebilir veya gruplanabilir (örneğin şikayet mektuplarındaki belli anahtar kelimelere göre bunları gruplama). Buradan metin içindeki gizli kalıplar tespit edilip olayların gidişi, insan davranışları vs gibi konularda gelecek tahmini yapabilen bazı modeller de oluşturulabilir. Zaten veri madenciliğinin amacı, bulunan bağıntı ve kurallardan gelecek için tahmin yapabilmektir.

Metin madenciliğinde mutlaka kullanılan etiketleme/sınıflandırma (classification) belli algoritmalara göre yapılır ve bu algoritmalar makinelere öğretilir. Bunlardan en çok kullanılanı Naive Bayes (NB), k En Yakın Komşu (kNN) ve Destekçi Vektör Makinesi (DVM) algoritmalarıdır. Tabi bu algoritmaları kullanabilmek için önce içine metinleri toplamak istediğimiz grupların vektör uzaylarının belirlenmesi gerekir.

Naive Bayes, genellikle aldığımız e-postaların spam olup olmadıklarını anlayan algoritmada olduğu gibi, reklam olabilecek bazı kelimeler bize gelen e-postada geçiyorsa program bunu “spama düşürebiliyor”. Yani şöyle kelimeler geçiyorsa bu dosya şu gruba girer gibi bir öntahmin ve sınıflandırma yapıyor. Burada belirlenen vektörlere göre bütün olasılıklar hesaplanıyor.

k En Yakın Komşu (k Nearest Neighbor) kNN algoritması, incelediğimiz metnin daha önce belirlenen ve bilgisayara öğretilmiş modellerden en yakın üç tanesi alınarak onlardan iki tanesi hangi grupta ise yeni metnin o gruba dahil edilmesidir, o sınıfın etiketinin verilmesidir. İkiden fazla grup hazırlanıp makineye öğretildiğinde destekçi vektör makinesini (Support Vektor Machine) kullanarak yeni metnin bu gruplardan hangisine girdiği tespit edilmeye çalışılır.

Burada dikkat edilecek bazı önemli noktalar da vardır: Öncelikle metin madenciliği yapılacak metinlerin çok iyi seçilmesi ve metin dışı işaret, reklam ve etiketlerin (özellikle internet metinlerinde) temizlenmesi gerekir. Son zamanlarda İnternete yüklenen dosyaların (metin veya görüntü) bazı açılardan etiketlendiği görülüyor. Bu bilgilerin daha organize biçimde kaydedildiğini gösterir, ancak araştırmacının aradığı etiketleyicilerden farklı ise veya zaman ve ortam değişince metnin ve görüntünün anlamı değişip yeniden etiketlemeler gerekebilmektedir. Kelime frekansları bize bir değerlendirme imkânı verir; ama burada örneğin “stopwords” denilen (at, the, which) kelimeler frekanstan çıkarılmalıdır. Aynı kökten farklı anlamlar taşıyan farklı türetmeler yapılabilir (lemmatization). Eskiden çokça kullanılan aynı cümlede bir arada kullanılan kavramlar ve bunlar arasındaki ilişkileri arama (co-occurrence–based methods) çalışmalarının modası geçti; hatta bazıları metin madenciliği

teknikleri arasında saymıyor bile. Şu anda en çok kural temelli (rule-based) veya bilgi temelli (knowledge-based) yaklaşımlarla istatistiksel veya makine-öğrenme temelli yaklaşımlar gözde durumdadır. Kural ve bilgi temelli yaklaşımlar, bilgi kümeleri ve ilişkileri araştırıyor; bunlar kelime kodlama kalıplarından bilgi üretmeye çalışıyorlar. İstatistik temelli olanlar ise etiketlemelere göre metinleri ve cümleleri sınıflandırmaya çalışıyorlar. Burada kategoriler arasındaki ilişkilerde kelime anlamları ve sembollerden dolayı karışıklık ve belirsizlikler vardır. Araştırmacı cümle veya metin içindeki örüntülerdeki bilgiyi ortaya çıkarmaya çalışmalıdır.

Metin madenciliği giderek daha çok alanda kullanılmaktadır. Örneğin, müşteri ilişkilerini yönetmek için, bütün müşterilerin bilgileri çıkartılır ve onlarla ilişkiler bu bilgilerle yapılır. Sigortalar ve hükümet tarafından toplanan büyük çaptaki metin verilerinde kalıplar ve anormallikler incelenerek sahtekârlıklar tespit edilir. Hasta raporları, ekonomik raporlar, yayınlanmış araştırma sonuçları ve diğer yayınlar incelenerek nitelikli bilgi çıkarımları yapılır. Terör, nitelikli hırsızlık, adli suçlarla ilgili konular belli kavram ve model yazışmalar izlenerek bulunup izlenebilir. İnternet üzerinden yapılan alışverişlerden Pazar araştırmaları, müşteri ilgileri bulunup satışlarda kullanılabilir.

Metin madenciliğindeki örüntüleri tespit etme, bir çeşit faktör analizi çalışması gibidir; bir ölçekteki faktörleri belirlemek için nasıl özenli bir çalışma yapılıyorsa, metinlerdeki örüntüler de bilgisayarlar yardımıyla dikkatli bir şekilde yapılmalıdır. Nicel araştırmalardaki frekans, ilişki, fark gibi üzerinde işlem yaptığımız yarı işlenmiş verilere benzer şekilde, burada da kelime sıklıkları ve birliktelikleri (bağlantı ve ilişkileri) tespit edilir. Bütün bunların değişik şekillerde görsel görünümlerini elde etme de hedeflerden biridir. Metin analizlerinde duygular, kanaatler, hisler gibi psikolojik özellik ve durumlar da tespit edilebilir. (Bu tür çalışmalar ses ve fotoğraf alanlarında da yapılmaktadır).

Metinleri yorumlama, yönetme, kavramsal bilgileri çıkarma hatta teori geliştirme işlemini yapan yazılımlar var. Bu yazılımlar (örneğin Atlas.ti) yazılı metin, ses ve görüntü dosyaları ile grafiksel verileri rahatlıkla değerlendirebiliyor. Psikoterapi eğitiminde, hastaların söylemlerinin nasıl çözümleneceğini gösteren yazılımlar var. Mülakatları, fokus grup görüşmelerini, alan notlarını, günlükleri, toplantı konuşmalarını analiz eden ve yöneten The Ethnograph gibi yazılımlar var. Metin madenciliği yapan daha birçok yazılım vardır: Angoss, Attensity, AUTINDEX, Autonomy, Averbis, Basis Technology (20’den fazla dilde analiz), Clarabridge, Complete Discovery Source, Endeca Technologies, Expert System S.p.A., FICO Score, General Sentiment, IBM SPSS Text Analytics, Intellexer, Inxight, LanguageWare, Language Computer Corporation, Lexalytics, LexisNexis, Luminoso, Mathematica, Medallia, Megaputer Intelligence, NetOwl, RapidMiner, SAS Text Miner and Teragram, Semantria, Smartlogic – Semaphore, STATISTICA Text Miner, Sysomos, Textalytics, WordStat, Xpresso… Ancak bunların önemli bir kısmı Türkçe desteği vermemektedir.

Bilimsel araştırmaların metin madenciliği teknikleriyle değerlendirilmesi

Bilimsel araştırmacılar için indeksleme yapan programlar da “text mining” grubuna girerler. Önce biyoloji, tıp gibi alanlarda ortaya çıkan bu tür analiz merkezleri şimdi sosyal bilimler alanına da genişlemektedirler. Kitap ve makale gibi yazılı materyalin istatistiksel analizlerine "Bibliometrics" (istatistiksel bibliyografya) denir. Scientometrics de bunun alt dallarından biridir. Akademik literatürün sayısal analizi; örneğin atıf (citation) ve içerik analizleri, dergi ve makalelerin impact faktörü ölçümleri.. Otomatik algoritmalar bunu çok yaygın ve kolay bir şekilde yapmaktadır. Makalelerin değerleri ona yapılan atıflarla ölçülüyor ve ISI'nin "Web of Science"ı gibi birçok atıf indeksi geliştirilmiştir. Bunlar vasıtasıyla yazarın, makalenin ve derginin popülaritesi ve etki değeri ölçülmektedir. Bibliometrics aynı zamanda terim kullanma sıklıkları, metinlerin gramer ve sözdizimsel yapıları gibi özelliklerini de ölçebilir. Kitap ve makalelerin yanı sıra Altmetrics (makale, kitap, video, web sayfası vs’nin indirilme, sosyal ve basılı medyada yer alma, değerlendirme yapılma, tartışma gibi yönlerini ölçer), Informetrics (haberlerin üretim, dağıtım ve kullanımını ölçer), Webometrics (web sitelerini ölçer ve değerlendirir) gibi ölçme ve değerlendirme alanları da vardır.

Bibliometik alandaki çalışma tekniklerinden birisi, araştırma alanlarının kavramsal, zihinsel ve sosyal yapılarını analiz eden bilim haritalandırma (science mapping) çalışmalarıdır (Cobo vd. 2011). Bilimsel araştırmaların yapısal ve dinamik yapısını gösterir. Dokümanların önemli anahtar kelimelerini kullanarak kavramsal yapısını ortaya koymak için co-word analizleri, co-author analizleri yazarların çalışmayla bağlantıları, sosyal yapıları ve işbirliği ağları içindeki yerlerini gösterir. Bu kelimelerin birlikte olma (co-occurrence ) durumlarına göre matriksler çıkarıyor ve kelimelerin yeri ve bağlantılarına göre bilgi elde ediliyor. Co-citation analizleri, aynı kaynakları kullanan çalışmaları analiz eder. Bilim haritaları, bilimsel araştırmalardaki kümelenmeler arasındaki ilişkileri harita haline getirir.

Science mapping analizleri yapan yazılımlar: Pajek, UCINET, Cytoscape, Bibexcel, CiteSpace II, CoPalRed, IN-SPIRE, Leydesdorff’s Software, Network Workbench Tool, Science of Science (Sci2) Tool, VantagePoint, VOSViewer

Geçici (temporal) analizler bir alandaki örüntüleri, eğilimleri, mevsimsellikleri ve aşırı uçları keşfetmeye yarar. Her dönem sonunda yüksek yoğunluklu özellikler burst detection tekniği ile belirlenir. Mekansal analiz (geospatial analysis) ise bir yerde neler oluyor ve çevresine etkileri nedir hususunu ölçmeye çalışır. visualization techniques (heliocentric maps, geometrical models, thematic networks) veya itemler arasındaki benzerlik ve yakınlıklara göre çıkarılır.

Bilimsel dokümanları analiz etmenin bir başka tekniği co-word analizleridir (He, 1999). Burada temel kavramlar arasındaki bağlantıların gücü ölçülerek o alanın kavramsal yapısı ortaya çıkarılmaya çalışılır. Co-word analizleri birlikte kaynak gösterilen eserleri (co-citation) analiz ederek o çalışma alanının yapı haritasını ortaya çıkarmaya çalışan tekniğe benzer. Yani dokümanlarda ortak kullanılan kavram setleri aranır. Atıfların karşılıklı ilişkisi yerine anahtar kelimelerin karşılıklı ilişkisine bakılır. Bir disiplini belirleyen kavramlar ağı ortaya çıkarılmaya çalışılır. Bunun için bir bağıntı ölçüsü ve onu metinde arayan bir algoritma

hazırlanır. Birbiriyle bağlantılı temel alanlar ve terimler arasındaki bağlantının gücü bulunmaya çalışılır.

Kavramlar çıkarma ve kavramlar arası ilişkileri bulma metin madenciliğinde çok önemli olduğu için, bu alandaki çalışmaların bir kısmına kavram madenciliği (concept mining) de denir. Bu teknik dokümanlarda (artifacts) bulunan kelimelerden kavramlara ulaşmaya çalışır. Burada kelimelerin metinlerde geçen anlamlarını birbirine karıştırmamak önemlidir; özellikle üst kavramlar oluşturma (hipernimi) ve kinayeli söyleyişlerde (meronimi). Kavramlar sadece kelimelerin yapısına değil, cümlenin anlamsal yapısına bağlıdır (Puri, 2011). Farklı denetimli öğrenme paradigmaları (tanımlanmış kategorileri bilgisayara vererek yeni dokümanları buna göre sınıflandırma) ve farklı sınıflandırma algoritmaları ile dokümanlardan kavramlar çıkarma ve milyonlarca veriyi hızlı bir şekilde farklı kategorilerde toplamak mümkündür.

Şu ana kadar kavram madenciliği alanındaki çalışmaların çoğunda, sözlüksel bir veritabanı olan WordNet'ten yararlanılmıştır (Aydın vd 2013). WordNet'te kelimelerin birbiriyle olan ilişkileri tanımlayan synset adında ilişki kümeleri vardır. Bu ilişki kümelerinde hiponim, eşanlamlılık, zıt anlamlılık gibi bir sürü ilişki türleri vardır. Kavram madenciliğinde ise en çok başvurulan ilişki türü hipernimi ilişkisidir; çünkü hipernimi bir kelimenin genel anlamını barındıran bir ilişkidir ve kavramlar da şeylerin genel tasarımını ifade eder. Bazı çalışmalarda ConceptNet denen, kelimelerin birbiriyle olan fiziksel, sosyal, zamansal ve diğer birçok ilişkilerini kapsayan bir bilgi veritabanı kullanılır.

Türkçede ise kavram madenciliği üzerine yapılan bir çalışmada kümeleme algoritması kullanılmış; başta seçilen kelimeler belli kümelere atanmış, sonra test dokümanlara bu kümeler atanarak kavramlar çıkarılmıştır. Geliştirilen metodolojinin başarı oranı % 51'dir (Aydın vd 2013).

Dokümanlardan kavram çıkarmada yapay zeka algoritmalarından Latent Dirichlet Allocation da kullanılır. Burada verilen temel kelimelerin çağrışım yaptıracağı diğer kelimeler de aranarak cümle veya metnin gizli anlamsal yapısı ortaya konulmaya çalışılır (Blei vd. 2003).

Görselleştirme (visualization)

İnsan beyni görsel bilgileri metin bilgilerinden daha iyi, hızlı ve kolay analiz eder. Dolayısıyla verilerin grafik, harita, değişik desenler şeklinde gösterilmesi eğilimi giderek güç kazanmaktadır. Burada görsel kalıplar çıkarmak, eğilimleri görmek, ilişkileri göstermek gibi birçok yollarla veriler ve içindeki ana özellikler görselleştirilmeye çalışılmaktadır.

Metinlerin görselleştirilmesi denince ilk akla gelen, herkesin bildiği grafikselleştirme, şemalaştırma, akış şeması, çok çeşitli haritalar ve atlaslar vs gibi çalışmalarıdır. Bu yönde hem nicel hem de nitel verilerde veri görselleştirme (Data visualization) çalışmaları geçmişten günümüze çok çeşitli teknolojiler kullanmaktadır (Friendly, 2006). Metin madenciliği simgeleştirme (tokenizing), kök ve dallar şeklinde gösterme (stemming), kelime grupları şeklinde analiz (n-gram generation), kelime bulutları vs. görselleştirme çalışmaları yapar.

Verileri görselleştirmede kelime frekanslarını esas alan bulut çalışmaları olduğu gibi vektörel üç boyutlu uzamsal çalışmalar da vardır.

Burada önemli olan bir metinde geçen ve metnin özelliğini gösteren kelimelerin frekansları çıkarıldıktan sonra bunların nasıl gösterileceğidir. Burada alfabetik dizin ve yanında o kelimenin metinde kaç kez tekrarlandığını göstermek bir tekniktir. Alfabetik sıralama yerine frekansa göre sıralama da yapılabilir. Burada frekansa göre kelimelerin yazısının büyütüldüğü, kendisinin veya zemininin renklendirildiği, renk tonlarının ayarlandığı uygulamalar vardır. Ancak 2002 yılında J.Flanagan tarafından kullanılmaya başlayan ve bugüne kadar birçok farklı uygulamaları geliştirilmiş olan kelimelerin ağırlığına (frekansına) göre grafiksel olarak gösterildiği bulut yazılımları vardır.

Kelime veya etiket bulutu (Word cloud, Tag cloud, eskiden text cloud da deniyordu) metin içindeki kelimeleri frekanslarına göre merkezden çevreye, değişik büyüklük ve renklerdeki yazılar ile yerleştirme yazılımlarıdır. Metinde geçen konuyu görsel bir şekilde sade ve hızlı olarak anlamayı sağlar. Etiket bulutları etiketleri anlamlarına, sıklıklarına ve diğer etiketlerle ilişkilerine göre değişik istatistik teknikler ve matematiksel modeller de kullanarak görsel hale getirir. Tek başına bir kitabın bile metin bulutu çıkarılabilir, politikacıların farklı zamanlardaki söylemleri arasında fark bu bulutlarda sade olarak görülebilir, metin karşılaştırmaları yapılabilir. Çok boyutlu bir şekilde çeşitli verilerin değişik görselleştirme teknikleri bulunmaktadır (Bilgin & Çamurcu, 2008).

Nüfus özellikleri, borsa verileri, öğrenci başarıları gibi alanlarda görsel analizler için veri bulutları (Data clouds, -veri saklama bulutlarından farklı-) kullanılabilir. Özellikle büyük veri yığınlarını analiz etmek ve anlaşılır hale getirmek için görselleştirme mutlaka gereklidir (Wang vd. 2015).

Etiketlerin ilişki sıklığını yazı boyutu, ilişki yakınlığını renk tonları ile gösteren eşdizimli bulutlar (Collocate clouds) kullanılabilir. Bir anahtar kelime seçilir ve değişik metinlerde bunun belli sayıda (örneğin 5) önündeki ve arkasındaki kelimeler seçilerek bir bulut oluşturulur (Savaşan & Diri, 2011).

Etiket bulutlarında görsel akıcılığın olmadığı, gözün zikzaklar çizdiği, orta ve küçük boy kelimelerin gözden kaçtığı ve değerlendirmenin sadece bir-iki büyük yazı ile sınırlı kaldığı eleştirileri değerlendirilebilir (Hearst, 2008). Ama buna rağmen etiket bulutları veri görselleştirmedeki en etkili tekniklerden biri olarak sürekli gelişmektedir (Donath, 2002, Hearst & Rosner 2008).

Wordle, Tagul, Tagxedo, Jason Davies’ Word Cloud Generator, WordSift, WordItOut, TagCrowd, Yippy, WordMosaic, AbcYa, VocabGrabber gibi kelime bulutu yazılımları vardır. Microsoft Excel ile de kelime bulutu uygulamaları yapılabilir.

SONUÇ

Bütün bilimsel araştırmalarda ölçümlerin sağlamlığı, üzerinde çalışılacak verilerin temiz ve doğru olmaları, hatalardan ayıklanmış sağlam ve mümkün olduğu kadar yapılandırılmış olması gerekir. Araştırma sonuçların sağlamlığı, araştırma verilerinin kalitesine bağlıdır.

Metin madenciliği gelecekte daha kolay olacak, çünkü Anlamsal web denilen Web 3.0 teknolojileri artık internetteki yazı ve nesneleri anlamlarıyla birlikte işleyip değerlendirecek. Böylece birçok metin madenciliği işlemi daha dosya internete konulurken dosya üzerinde yapılmış olacak; metadata kelime grupları (ontolojiler), kelime ve kavram kümeleri (maps) vs. dokümanlar içinde hazır olacak.

Genel internet ağının altındaki Anlamsal Ağ’da temel amaç veriyi, iyi tanımlanmış ve ilişkilendirilmiş olarak bilgi haline getirecek ve servislerin genel ağ ortamında kolay bir şekilde makineler tarafından okunabilir ve anlaşılabilir olmasını sağlayacak standartların ve teknolojilerin geliştirilmesidir (Arslan 2011).

Web 3.0 teknolojisi bir çok şeyi bilen bir “asistan” rolüne giriyor. Halen bir arama motoru üzerinden arama yaptığımızda, aradığımız kelimeyi içeren genel ağ siteleri sıralanıyor. Anlamsal Ağ etkin olarak kullanıldığında ise, makineler web sayfalarını yorumlayabilecekleri için doğru sonuçlara ulaşmamızı sağlayacaktır.

Web ontoloji dili herhangi bir alanda standart olarak kullanılacak ortak ve paylaşılan sözcük kümelerini (vocabulary) veya terminolojiyi belirler. Kaynak Tanımlama Çerçevesi (RDF) bir kelimeler hiyerarşisi ve nesnelerin ilişkilerini dosya içine yerleştirecektir.

Kaynaklar

Akpınar, H., (2000), Veri Tabanlarında Bilgi Keşfi ve Veri Madenciliği. İ.Ü. İşletme Fakültesi Dergisi, 29(1), 1-22.

Arslan, A.A. (2011), Türkçe Metinlerden Anlamsal Bilgi Çıkarımı İçin Bir Veri Madenciliği Uygulaması, Başkent Üniversitesi Fen Bilimleri Enstitüsü, Yüksek Lisans Tezi (http://angora.baskent.edu.tr/acik_arsiv/dosya_oku.php?psn=2409&yn=352&dn=1)

Aydın, C.R., Erkan, A., Güngör, T. & Takçı, H., (2013). Sözlük Tabanlı Kavram Madenciliği: Türkçe için bir Uygulama, 30. Ulusal Bilişim Kurultayı, November 2013, Ankara. http://www.cmpe.boun.edu.tr/~gungort/papers/Sozluk%20Tabanli%20Kavram%20Madenciligi%20-%20Turkce%20icin%20bir%20Uygulama.pdf

Bilgin, T.T. ve Çamurcu, A.Y., (2008), Çok Boyutlu Veri Görselleştirme Teknikleri, Akademik Bilişim 2008, 30 Ocak - 01 Şubat. Çanakkale Onsekiz Mart Üniversitesi, Çanakkale, 107-112. http://ab.org.tr/ab08/kitap/Bildiriler/Bilgin_Camurcu_AB08.pdf

Blei, D., Ng, A. & Jordan, M. (2003). Latent dirichlet allocation. Journal of Machine Learning Research, 3:993–1022. https://www.cs.princeton.edu/~blei/papers/BleiNgJordan2003.pdf

Cobo, M.J., López-Herrera, A.G., Herrera-Viedma, E. & Herrera, F. (2011). Science Mapping Software Tools: Review, Analysis, and Cooperative Study Among Tools, Journal of the American Society for Information Science and Technology, 62(7). 1382–1402, https://www.researchgate.net/publication/227733641_Science_Mapping_Software_Tools_Review_Analysis_and_Cooperative_Study_Among_Tools

Cohen, K.B. & Hunter, L. (2008), Getting Started in Text Mining, PLoS Comput Biol. 4(1): e20. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2217579/

http://ab.org.tr/ab08/kitap/Bildiriler/Bilgin_Camurcu_AB08.pdf

http://www.cmpe.boun.edu.tr/~gungort/papers/Sozluk%20Tabanli%20Kavram%20Madenciligi%20-%20Turkce%20icin%20bir%20Uygulama.pdf

http://www.cmpe.boun.edu.tr/~gungort/papers/Sozluk%20Tabanli%20Kavram%20Madenciligi%20-%20Turkce%20icin%20bir%20Uygulama.pdf

http://angora.baskent.edu.tr/acik_arsiv/dosya_oku.php?psn=2409&yn=352&dn=1

Çalış, K., Gazdağı, O. & Yıldız, O. (2013), Reklam İçerikli Epostaların Metin Madenciliği Yöntemleri ile Otomatik Tespiti, Bilişim Teknolojileri Dergisi, 6(1), 1-7. http://www.btd.gazi.edu.tr/article/viewFile/1041000157/pdf

De Bellis, N.(2009). Bibliometrics and citation analysis: from the Science citation index to cybermetrics. Scarecrow Press.

Dolgun, M.Ö.,Özdemir, T.G. & Oğuz, D. (2009), Veri madenciliğinde yapısal olmayan verinin analizi: Metin ve web madenciliği, İstatistikçiler Dergisi, 2, 48-58. http://dergipark.ulakbim.gov.tr/jssa/article/download/5000047710/5000045038

Donath, J., 2002, A semantic approach to visualizing online conversations, Communications of the ACM, 45(4). 45-49. DOI:10.1145/505248.505271

Friendly, M. (2006). A Brief History of Data Visualization, C. Chen, W. Hardle & A. Unwin (Eds), Handbook of Computational Statistics: Data Visualization. Springer. 1-43. http://www.datavis.ca/papers/hbook.pdf

He, Q. (1999). Knowledge Discovery Through Co-Word Analysis, Library Trends, 48(1). 133-159. https://www.ideals.illinois.edu/bitstream/handle/2142/8267/librarytrendsv48i1i_opt.pdf?sequ

Hearst, M. (2009), What is text mining, http://www.sims.berkeley.edu/~hearst/textmining.html

Hearst, M.A. & Rosner, D., (2008). Tag Clouds: Data Analysis Tool or Social Signaller?, Hawaii International Conference on System Sciences, Proceedings of the 41st Annual, 7-10 Ocak 2008, 160-160. DOI: 10.1109/HICSS.2008.422

Hearst, M.A. (2008). What’s Up With Tag Clouds, Visual Business Intelligence Newsletter, Mayıs. 1-5. https://www.perceptualedge.com/articles/guests/whats_up_with_tag_clouds.pdf

Hsieh, H.-F. & Shannon, S.E. (2005), Three Approaches to Qualitative Content Analysis, Qualitative Health Research, 15(9), 1277-1288. DOI: 10.1177/1049732305276687

Puri, S. (2011). A Fuzzy Similarity Based Concept Mining Model for Text Classification. Text Document Categorization Based on Fuzzy Similarity Analyzer and Support Vector Machine Classifier, International Journal of Advanced Computer Science and Applications (IJACSA), 2(11), 115-121. https://arxiv.org/ftp/arxiv/papers/1204/1204.2061.pdf

Savaş, S., Topaloğlu, N. & Yılmaz, M. (2012). Veri Madenciliği Ve Türkiye’deki Uygulama Örnekleri, İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, 11(21). 1-23. http://www.ticaret.edu.tr/uploads/yayin/fen21_dosyalar/1-23.pdf

Savaşan, S. & Diri, B. (2011). Automatic Tag Cloud Generation From Turkish Contents, Mühendislik ve Fen Bilimleri Dergisi Sigma 29, 156-169. http://eds.yildiz.edu.tr/ajaxtool/GetArticleByPublishedArticleId?PublishedArticleId=1867

Shi, C., Verhagen, M. & Pustejovsky, J. (2014). A Conceptual Framework of Online Natural Language Processing Pipeline Application, Proceedings of the Workshop on Open Infrastructures and Analysis Frameworks for HLT, Dublin, Ireland. 53–59. http://www.aclweb.org/anthology/W14-5206

Şentürk, A. (2006). Veri Madenciliği: Kavram ve Teknikler, 2. Bursa: Ekin Yay.

Tan, A.H., Yu, P.S. (2004), Guest Editorial: Text and Web Mining, Applied Intelligence 18, 239-241.

Wang, L., Wang, G. & Alexander, C.A. (2015). Big Data and Visualization: Methods, Challenges and Technology Progress, Digital Technologies, 1(1), 33-38. http://pubs.sciepub.com/dt/1/1/7/

http://pubs.sciepub.com/dt/1/1/7/

http://eds.yildiz.edu.tr/ajaxtool/GetArticleByPublishedArticleId?PublishedArticleId=1867

https://arxiv.org/ftp/arxiv/papers/1204/1204.2061.pdf

https://www.perceptualedge.com/articles/guests/whats_up_with_tag_clouds.pdf

http://dergipark.ulakbim.gov.tr/jssa/article/download/5000047710/5000045038

mustafaergun.com.trmustafaergun.com.tr/wordpress/wp-content/.../2016/01/t… · web...

Documents