text mining Класификација
DESCRIPTION
Text Mining Класификација. Изработил:Ментор: Коста Михајлов Доц. Д-р Слободан Калајџиски. Вовед. - Што претставува еден ТК процес? - PowerPoint PPT PresentationTRANSCRIPT
TEXT MININGКЛАСИФИКАЦИЈА
Изработил: Ментор:
Коста Михајлов Доц. Д-р Слободан Калајџиски
Вовед
- Што претставува еден ТК процес?Ако е дадено множество на текстуални документи и множестно на категории, процесот на пронаоѓање на точната категорија за секој документ претставува ТК
- „knowledge engineering“- знаењето за категориите е директно
дефинирано во системот - „machine learning(ML)“
- еден генерален индуктивен процес гради класификатор со тоа што учи од множество на претходно класифицирани документи
Примена на класификација на текст
a.Индексирање на текст со користење на контролиран лексикон
b.Сортирање на документи и филтрирање на текст
- точно една категорија- мал број на категории- online
c.Хиерархиско класифицирање на Веб страници- Ограничен број на документи по категорија
ДЕФИНИЦИЈА НА ПРОБЛЕМОТ
F : D × C → {0, 1}
a.Еднозначна наспроти Повеќезначна класификација
b.Документ-Ориенирана наспроти Категориски-Ориентирана класификација
c.Тврда наспроти Мека класификација статус вредност на класификацијата
(CSV-categorization status value)
праг за припадност на еден документ во некоја категорија?
- Фиксен праг, Пропорционално доделување ...
РЕПРЕЗЕНТАЦИЈА НА ДОКУМЕНТИ
- вектори на својства(feature vectors)- bag-of-words
- бинарно доделување на тежина- TF-IDF
a.Избирање на Својства
b.Редуцирање на димензијата со помош на извлекување на својства
- групирање на зборовите кои имаат исто значење
- латентно семантичко индексирање
))(/log(),(),(_ wDocFreqNdwTermFreqdwWeightIDFTF
Пристап на конструирање на знаење
CONSTRUE систем
If DNF(Дисјунктно нормална форма)formula then category else !category
If ((wheat & farm) or (wheat & commodity) or (bushels & export) or (wheat & tonnes) or (wheat & winter & ¬soft))then Wheatelse ¬Wheat
- Најдобри перформанси пријавени досега - Над 90 % точност???
ПРИСТАП НА МАШИНСКО УЧЕЊЕ ВО ТC
- надгледувано учење
Одлука по прашањата:- Одредување на категории на класификација- Обезбедување тренинг множество за секоја од
категориите- Треба да се одредат својствата кои ги
репрезентираат документите- треба да се одлучи кој алгоритам ќе се користи за
класификација
a.Веројатносни класификатори
Наивни баесови класификатори Се засноваат на функцијата на статус
вредност како веројатност
Маргиналната веројатност е константна вредност .
)(
)()|()|(
dP
cPcdPdcP
i
i cwPcdP )|()|(
)|( dcP
)(dP
b.Логистичка регресија
Возможно е условната веројатност да се пресмета директно
Каде e вредноста за членство во некоја категорија(се користи наместо за поедноставна нотација), е репрезентацијата на документот во просторот на својства, се вектор на параметри на моделот, и е функција на врска:
i iiddcP )()()|( d
)exp(1
1
)exp(1
)exp()(
xx
xx
1c,...),( 21 ddd
,...),( 21
c.Класификатори со дрва на одлучување
d.Класификатори со правила на одлучување RIPPER(repeated incremental pruning to produce error reduction) (Cohen, 1995a;1995b;
Cohen & Singer 1996). cddd 321 ...
e.Методи на регресија
Матрица на зависност помеѓу својствата и категориите
Метод на најмали квадрати
- D е матрица на репрезентација на тренинг документите,
- О е матрица на вистинските доделувања на категории,
- и Норма на Фробиенус(Weisstein)
|||| zestvoTreningMnoF
|||| zestvoTreningMnoC
F||||
Fm OMDM ||||minarg
2|||| ijF AA
f.Rocchio Методи
Rochio класификаторот извршува класификација со тоа што го пресметува растојанието од даден документ до прототипите дефинирани за категориите
Rochio методот е многу лесен за имплементација, и е едноставен за пресметување.
Неговите перформанси сепак не се задоволителни и многу ретко се користи. Како евалуатор за други алгоритми Во комитети од класификатори
)()( |)(||)(| cNEGddi
cPOSddii w
cNEGw
cPOSw
g.Невронски мрежи
Влез: елементите од векторот на својства на документот
Излез: CSV вредностите во однос на категориите
Backpropagation тренинг Доколку се случи грешка (не се класифицира правилно
некој документ), грешката се проследува надолу низ мрежата при што се рекалибрираат тежините на врските со цел да се минимизира грешката.
Перцептрон (само влезни и излезни јазли) еквивалентен на линеарен класификатор
h.Класификатори водени по пример
lazy learners едноставно зачувување на
репрезентациите на тренинг документите заедно со нивните категории
kNN (к-најблизок сосед дали најсличните k документи со
испитуваниот документ припаѓаат на категоријата c
Одредување на k: к=2; валидациско множество
i.Машини со носечки вектори
хипер-рамнина во просторот на својства
Маргина : растојанието помеѓу најблиската позната позитивна инстанца, и најблиската позната негативна инстанца
Својства: мал број на тренинг примероци независно од големината на просторот
на својства
i.Машини со носечки вектори
j.Комитети од Класификатори: Bagging and Boosting
Тим од експерти , со комбинирање на своето знаење можат да продуцираат подобри резултати отколу еден експерт сам.
Bagging индивидуалните класификатори се
тренираат паралелно на исто тренинг множество
тежинска линеарна комбинација или едностнавно гласање?
Boosting класификаторите се тренираат
секвенцијално AdaBoost
Користење на нелабелирани податоци
Максимизација на очекување(ЕМ) Да понуди можност за доделување на оцена за припадност и преку класифицираните и
преку некласифицираните документи
Алгоритам: моделот се тренира со класифицираните документи итерирај додека не се дојде до конвергенција кон локалниот
максимум Е-чекор: нелабелираните документи се класифицираат по
добиениот модел од почетниот чекор М-чекор: моделот се тренира и со класифицираните документи и
со некласифицираните
Котренинг Два или повеќе погледи за ист документ
Резултат: До 60% редуцирање на тренинг множеството без губиток на
перформанси
Евалуација на класификаторите
a.Мерки за ПерформансиRecall- процент на точно класифицирани документи за дадена
категорија во однос на сите документи кои биле касифицирани.Precission- Бројот на документи кои биле класифицирани во дадена
категорија поделен со бројот на документи кои требало да бидат класифицирани во истата.
b.Колекции за тестирањеНужниуслови:
• идентична колекција • исти мерки за перформанси• исти претходни методи
c.Споредба помеѓу класификаторите• Најдобри Перформанси: SVM,AdaBoost,kNNиметодинарегресија• Најлоши перформанси: RochioиNaïveBayes•Варијабилни перформанси: Невронскимрежиидрванаодлучување
Користена Литература
Liu, H., Li, J., & Wong, L. (н.д.). A Comparative Study on Feature Selection and Classification Methods. Laboratories for Information Technology, 21 Heng Mui Keng Terr, 119613 Singapore .
Moore, A. (2003). Informatin Gain. Carnegie Mellon University . Rule of thumb. (н.д.). Преземено 2 2, 2009 од Wikipedia:
http://en.wikipedia.org/wiki/Rule_of_thumb Suppoert Vector Machine. (н.д.). Преземено February 6, 2009 од Wikipedia:
http://en.wikipedia.org/wiki/Support_vector_machine Tf-idf weighting. (н.д.). Преземено February 8, 2008 од
http://nlp.stanford.edu/IR-book/html/htmledition/tf-idf-weighting-1.html W.Cohen, W. (н.д.). Text Classification: Advanced Tutorial. Преземено February 5, 2009, од
VideoLectures.net: http://videolectures.net/mlas06_cohen_tc/ Weisstein, E. W. (н.д.). Chi-Squared Distribution. Преземено January 25, 2009, од
WolframMathWorld: http://mathworld.wolfram.com/Chi-SquaredDistribution.html Wikipedia. (1997). BackPropagation. Преземено од http://en.wikipedia.org:
http://en.wikipedia.org/wiki/BackPropagation Ye, N. (2003). HandBook of Data Mining. Mahwah, New Jersey London: Lawrence Erlbaum
Associates. Feldman, R., & Sagner, J. Classification, Algorithm Analisys. In R. Feldman, & J. Sagner, Text
Mining Handbook. Cambridge. Е.Maron, М. (1960). Probabilistic Indexing and Information Retrieval. Journal of ACM .
Благодарам на вниманието