text mining Класификација

21
TEXT MINING КЛАСИФИКАЦИЈА Изработил: Ментор: Коста Михајлов Доц. Д-р Слободан Калајџиски

Upload: cillian-arvey

Post on 30-Dec-2015

47 views

Category:

Documents


5 download

DESCRIPTION

Text Mining Класификација. Изработил:Ментор: Коста Михајлов Доц. Д-р Слободан Калајџиски. Вовед. - Што претставува еден ТК процес? - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Text Mining Класификација

TEXT MININGКЛАСИФИКАЦИЈА

Изработил: Ментор:

Коста Михајлов Доц. Д-р Слободан Калајџиски

Page 2: Text Mining Класификација

Вовед

- Што претставува еден ТК процес?Ако е дадено множество на текстуални документи и множестно на категории, процесот на пронаоѓање на точната категорија за секој документ претставува ТК

- „knowledge engineering“- знаењето за категориите е директно

дефинирано во системот - „machine learning(ML)“

- еден генерален индуктивен процес гради класификатор со тоа што учи од множество на претходно класифицирани документи

Page 3: Text Mining Класификација

Примена на класификација на текст

a.Индексирање на текст со користење на контролиран лексикон

b.Сортирање на документи и филтрирање на текст

- точно една категорија- мал број на категории- online

c.Хиерархиско класифицирање на Веб страници- Ограничен број на документи по категорија

Page 4: Text Mining Класификација

ДЕФИНИЦИЈА НА ПРОБЛЕМОТ

F : D × C → {0, 1}

a.Еднозначна наспроти Повеќезначна класификација

b.Документ-Ориенирана наспроти Категориски-Ориентирана класификација

c.Тврда наспроти Мека класификација статус вредност на класификацијата

(CSV-categorization status value)

праг за припадност на еден документ во некоја категорија?

- Фиксен праг, Пропорционално доделување ...

Page 5: Text Mining Класификација

РЕПРЕЗЕНТАЦИЈА НА ДОКУМЕНТИ

- вектори на својства(feature vectors)- bag-of-words

- бинарно доделување на тежина- TF-IDF

a.Избирање на Својства

b.Редуцирање на димензијата со помош на извлекување на својства

- групирање на зборовите кои имаат исто значење

- латентно семантичко индексирање

))(/log(),(),(_ wDocFreqNdwTermFreqdwWeightIDFTF

Page 6: Text Mining Класификација

Пристап на конструирање на знаење

CONSTRUE систем

If DNF(Дисјунктно нормална форма)formula then category else !category

If ((wheat & farm) or (wheat & commodity) or (bushels & export) or (wheat & tonnes) or (wheat & winter & ¬soft))then Wheatelse ¬Wheat

- Најдобри перформанси пријавени досега - Над 90 % точност???

Page 7: Text Mining Класификација

ПРИСТАП НА МАШИНСКО УЧЕЊЕ ВО ТC

- надгледувано учење

Одлука по прашањата:- Одредување на категории на класификација- Обезбедување тренинг множество за секоја од

категориите- Треба да се одредат својствата кои ги

репрезентираат документите- треба да се одлучи кој алгоритам ќе се користи за

класификација

Page 8: Text Mining Класификација

a.Веројатносни класификатори

Наивни баесови класификатори Се засноваат на функцијата на статус

вредност како веројатност

Маргиналната веројатност е константна вредност .

)(

)()|()|(

dP

cPcdPdcP

i

i cwPcdP )|()|(

)|( dcP

)(dP

Page 9: Text Mining Класификација

b.Логистичка регресија

Возможно е условната веројатност да се пресмета директно

Каде e вредноста за членство во некоја категорија(се користи наместо за поедноставна нотација), е репрезентацијата на документот во просторот на својства, се вектор на параметри на моделот, и е функција на врска:

i iiddcP )()()|( d

)exp(1

1

)exp(1

)exp()(

xx

xx

1c,...),( 21 ddd

,...),( 21

Page 10: Text Mining Класификација

c.Класификатори со дрва на одлучување

d.Класификатори со правила на одлучување RIPPER(repeated incremental pruning to produce error reduction) (Cohen, 1995a;1995b;

Cohen & Singer 1996). cddd 321 ...

Page 11: Text Mining Класификација

e.Методи на регресија

Матрица на зависност помеѓу својствата и категориите

Метод на најмали квадрати

- D е матрица на репрезентација на тренинг документите,

- О е матрица на вистинските доделувања на категории,

- и Норма на Фробиенус(Weisstein)

|||| zestvoTreningMnoF

|||| zestvoTreningMnoC

F||||

Fm OMDM ||||minarg

2|||| ijF AA

Page 12: Text Mining Класификација

f.Rocchio Методи

Rochio класификаторот извршува класификација со тоа што го пресметува растојанието од даден документ до прототипите дефинирани за категориите

Rochio методот е многу лесен за имплементација, и е едноставен за пресметување.

Неговите перформанси сепак не се задоволителни и многу ретко се користи. Како евалуатор за други алгоритми Во комитети од класификатори

)()( |)(||)(| cNEGddi

cPOSddii w

cNEGw

cPOSw

Page 13: Text Mining Класификација

g.Невронски мрежи

Влез: елементите од векторот на својства на документот

Излез: CSV вредностите во однос на категориите

Backpropagation тренинг Доколку се случи грешка (не се класифицира правилно

некој документ), грешката се проследува надолу низ мрежата при што се рекалибрираат тежините на врските со цел да се минимизира грешката.

Перцептрон (само влезни и излезни јазли) еквивалентен на линеарен класификатор

Page 14: Text Mining Класификација

h.Класификатори водени по пример

lazy learners едноставно зачувување на

репрезентациите на тренинг документите заедно со нивните категории

kNN (к-најблизок сосед дали најсличните k документи со

испитуваниот документ припаѓаат на категоријата c

Одредување на k: к=2; валидациско множество

Page 15: Text Mining Класификација

i.Машини со носечки вектори

хипер-рамнина во просторот на својства

Маргина : растојанието помеѓу најблиската позната позитивна инстанца, и најблиската позната негативна инстанца

Својства: мал број на тренинг примероци независно од големината на просторот

на својства

Page 16: Text Mining Класификација

i.Машини со носечки вектори

Page 17: Text Mining Класификација

j.Комитети од Класификатори: Bagging and Boosting

Тим од експерти , со комбинирање на своето знаење можат да продуцираат подобри резултати отколу еден експерт сам.

Bagging индивидуалните класификатори се

тренираат паралелно на исто тренинг множество

тежинска линеарна комбинација или едностнавно гласање?

Boosting класификаторите се тренираат

секвенцијално AdaBoost

Page 18: Text Mining Класификација

Користење на нелабелирани податоци

Максимизација на очекување(ЕМ) Да понуди можност за доделување на оцена за припадност и преку класифицираните и

преку некласифицираните документи

Алгоритам: моделот се тренира со класифицираните документи итерирај додека не се дојде до конвергенција кон локалниот

максимум Е-чекор: нелабелираните документи се класифицираат по

добиениот модел од почетниот чекор М-чекор: моделот се тренира и со класифицираните документи и

со некласифицираните

Котренинг Два или повеќе погледи за ист документ

Резултат: До 60% редуцирање на тренинг множеството без губиток на

перформанси

Page 19: Text Mining Класификација

Евалуација на класификаторите

a.Мерки за ПерформансиRecall- процент на точно класифицирани документи за дадена

категорија во однос на сите документи кои биле касифицирани.Precission- Бројот на документи кои биле класифицирани во дадена

категорија поделен со бројот на документи кои требало да бидат класифицирани во истата.

b.Колекции за тестирањеНужниуслови:

• идентична колекција • исти мерки за перформанси• исти претходни методи

c.Споредба помеѓу класификаторите• Најдобри Перформанси: SVM,AdaBoost,kNNиметодинарегресија• Најлоши перформанси: RochioиNaïveBayes•Варијабилни перформанси: Невронскимрежиидрванаодлучување

Page 20: Text Mining Класификација

Користена Литература

Liu, H., Li, J., & Wong, L. (н.д.). A Comparative Study on Feature Selection and Classification Methods. Laboratories for Information Technology, 21 Heng Mui Keng Terr, 119613 Singapore .

Moore, A. (2003). Informatin Gain. Carnegie Mellon University . Rule of thumb. (н.д.). Преземено 2 2, 2009 од Wikipedia:

http://en.wikipedia.org/wiki/Rule_of_thumb Suppoert Vector Machine. (н.д.). Преземено February 6, 2009 од Wikipedia:

http://en.wikipedia.org/wiki/Support_vector_machine Tf-idf weighting. (н.д.). Преземено February 8, 2008 од

http://nlp.stanford.edu/IR-book/html/htmledition/tf-idf-weighting-1.html W.Cohen, W. (н.д.). Text Classification: Advanced Tutorial. Преземено February 5, 2009, од

VideoLectures.net: http://videolectures.net/mlas06_cohen_tc/ Weisstein, E. W. (н.д.). Chi-Squared Distribution. Преземено January 25, 2009, од

WolframMathWorld: http://mathworld.wolfram.com/Chi-SquaredDistribution.html Wikipedia. (1997). BackPropagation. Преземено од http://en.wikipedia.org:

http://en.wikipedia.org/wiki/BackPropagation Ye, N. (2003). HandBook of Data Mining. Mahwah, New Jersey London: Lawrence Erlbaum

Associates. Feldman, R., & Sagner, J. Classification, Algorithm Analisys. In R. Feldman, & J. Sagner, Text

Mining Handbook. Cambridge. Е.Maron, М. (1960). Probabilistic Indexing and Information Retrieval. Journal of ACM .

Page 21: Text Mining Класификација

Благодарам на вниманието