text mining Класификација

TEXT MININGКЛАСИФИКАЦИЈА

Изработил: Ментор:

Коста Михајлов Доц. Д-р Слободан Калајџиски

Вовед

- Што претставува еден ТК процес?Ако е дадено множество на текстуални документи и множестно на категории, процесот на пронаоѓање на точната категорија за секој документ претставува ТК

- „knowledge engineering“- знаењето за категориите е директно

дефинирано во системот - „machine learning(ML)“

- еден генерален индуктивен процес гради класификатор со тоа што учи од множество на претходно класифицирани документи

Примена на класификација на текст

a.Индексирање на текст со користење на контролиран лексикон

b.Сортирање на документи и филтрирање на текст

- точно една категорија- мал број на категории- online

c.Хиерархиско класифицирање на Веб страници- Ограничен број на документи по категорија

ДЕФИНИЦИЈА НА ПРОБЛЕМОТ

F : D × C → {0, 1}

a.Еднозначна наспроти Повеќезначна класификација

b.Документ-Ориенирана наспроти Категориски-Ориентирана класификација

c.Тврда наспроти Мека класификација статус вредност на класификацијата

(CSV-categorization status value)

праг за припадност на еден документ во некоја категорија?

- Фиксен праг, Пропорционално доделување ...

РЕПРЕЗЕНТАЦИЈА НА ДОКУМЕНТИ

- вектори на својства(feature vectors)- bag-of-words

- бинарно доделување на тежина- TF-IDF

a.Избирање на Својства

b.Редуцирање на димензијата со помош на извлекување на својства

- групирање на зборовите кои имаат исто значење

- латентно семантичко индексирање

))(/log(),(),(_ wDocFreqNdwTermFreqdwWeightIDFTF

Пристап на конструирање на знаење

CONSTRUE систем

If DNF(Дисјунктно нормална форма)formula then category else !category

If ((wheat & farm) or (wheat & commodity) or (bushels & export) or (wheat & tonnes) or (wheat & winter & ¬soft))then Wheatelse ¬Wheat

- Најдобри перформанси пријавени досега - Над 90 % точност???

ПРИСТАП НА МАШИНСКО УЧЕЊЕ ВО ТC

- надгледувано учење

Одлука по прашањата:- Одредување на категории на класификација- Обезбедување тренинг множество за секоја од

категориите- Треба да се одредат својствата кои ги

репрезентираат документите- треба да се одлучи кој алгоритам ќе се користи за

класификација

a.Веројатносни класификатори

Наивни баесови класификатори Се засноваат на функцијата на статус

вредност како веројатност

Маргиналната веројатност е константна вредност .

)(

)()|()|(

dP

cPcdPdcP

i

i cwPcdP )|()|(

)|( dcP

)(dP

b.Логистичка регресија

Возможно е условната веројатност да се пресмета директно

Каде e вредноста за членство во некоја категорија(се користи наместо за поедноставна нотација), е репрезентацијата на документот во просторот на својства, се вектор на параметри на моделот, и е функција на врска:

i iiddcP )()()|( d

)exp(1

1

)exp(1

)exp()(

xx

xx

1c,...),( 21 ddd

,...),( 21

c.Класификатори со дрва на одлучување

d.Класификатори со правила на одлучување RIPPER(repeated incremental pruning to produce error reduction) (Cohen, 1995a;1995b;

Cohen & Singer 1996). cddd 321 ...

e.Методи на регресија

Матрица на зависност помеѓу својствата и категориите

Метод на најмали квадрати

- D е матрица на репрезентација на тренинг документите,

- О е матрица на вистинските доделувања на категории,

- и Норма на Фробиенус(Weisstein)

|||| zestvoTreningMnoF

|||| zestvoTreningMnoC

F||||

Fm OMDM ||||minarg

2|||| ijF AA

f.Rocchio Методи

Rochio класификаторот извршува класификација со тоа што го пресметува растојанието од даден документ до прототипите дефинирани за категориите

Rochio методот е многу лесен за имплементација, и е едноставен за пресметување.

Неговите перформанси сепак не се задоволителни и многу ретко се користи. Како евалуатор за други алгоритми Во комитети од класификатори

)()( |)(||)(| cNEGddi

cPOSddii w

cNEGw

cPOSw

g.Невронски мрежи

Влез: елементите од векторот на својства на документот

Излез: CSV вредностите во однос на категориите

Backpropagation тренинг Доколку се случи грешка (не се класифицира правилно

некој документ), грешката се проследува надолу низ мрежата при што се рекалибрираат тежините на врските со цел да се минимизира грешката.

Перцептрон (само влезни и излезни јазли) еквивалентен на линеарен класификатор

h.Класификатори водени по пример

lazy learners едноставно зачувување на

репрезентациите на тренинг документите заедно со нивните категории

kNN (к-најблизок сосед дали најсличните k документи со

испитуваниот документ припаѓаат на категоријата c

Одредување на k: к=2; валидациско множество

i.Машини со носечки вектори

хипер-рамнина во просторот на својства

Маргина : растојанието помеѓу најблиската позната позитивна инстанца, и најблиската позната негативна инстанца

Својства: мал број на тренинг примероци независно од големината на просторот

на својства

i.Машини со носечки вектори

j.Комитети од Класификатори: Bagging and Boosting

Тим од експерти , со комбинирање на своето знаење можат да продуцираат подобри резултати отколу еден експерт сам.

Bagging индивидуалните класификатори се

тренираат паралелно на исто тренинг множество

тежинска линеарна комбинација или едностнавно гласање?

Boosting класификаторите се тренираат

секвенцијално AdaBoost

Користење на нелабелирани податоци

Максимизација на очекување(ЕМ) Да понуди можност за доделување на оцена за припадност и преку класифицираните и

преку некласифицираните документи

Алгоритам: моделот се тренира со класифицираните документи итерирај додека не се дојде до конвергенција кон локалниот

максимум Е-чекор: нелабелираните документи се класифицираат по

добиениот модел од почетниот чекор М-чекор: моделот се тренира и со класифицираните документи и

со некласифицираните

Котренинг Два или повеќе погледи за ист документ

Резултат: До 60% редуцирање на тренинг множеството без губиток на

перформанси

Евалуација на класификаторите

a.Мерки за ПерформансиRecall- процент на точно класифицирани документи за дадена

категорија во однос на сите документи кои биле касифицирани.Precission- Бројот на документи кои биле класифицирани во дадена

категорија поделен со бројот на документи кои требало да бидат класифицирани во истата.

b.Колекции за тестирањеНужниуслови:

• идентична колекција • исти мерки за перформанси• исти претходни методи

c.Споредба помеѓу класификаторите• Најдобри Перформанси: SVM,AdaBoost,kNNиметодинарегресија• Најлоши перформанси: RochioиNaïveBayes•Варијабилни перформанси: Невронскимрежиидрванаодлучување

Користена Литература

Liu, H., Li, J., & Wong, L. (н.д.). A Comparative Study on Feature Selection and Classification Methods. Laboratories for Information Technology, 21 Heng Mui Keng Terr, 119613 Singapore .

Moore, A. (2003). Informatin Gain. Carnegie Mellon University . Rule of thumb. (н.д.). Преземено 2 2, 2009 од Wikipedia:

http://en.wikipedia.org/wiki/Rule_of_thumb Suppoert Vector Machine. (н.д.). Преземено February 6, 2009 од Wikipedia:

http://en.wikipedia.org/wiki/Support_vector_machine Tf-idf weighting. (н.д.). Преземено February 8, 2008 од

http://nlp.stanford.edu/IR-book/html/htmledition/tf-idf-weighting-1.html W.Cohen, W. (н.д.). Text Classification: Advanced Tutorial. Преземено February 5, 2009, од

VideoLectures.net: http://videolectures.net/mlas06_cohen_tc/ Weisstein, E. W. (н.д.). Chi-Squared Distribution. Преземено January 25, 2009, од

WolframMathWorld: http://mathworld.wolfram.com/Chi-SquaredDistribution.html Wikipedia. (1997). BackPropagation. Преземено од http://en.wikipedia.org:

http://en.wikipedia.org/wiki/BackPropagation Ye, N. (2003). HandBook of Data Mining. Mahwah, New Jersey London: Lawrence Erlbaum

Associates. Feldman, R., & Sagner, J. Classification, Algorithm Analisys. In R. Feldman, & J. Sagner, Text

Mining Handbook. Cambridge. Е.Maron, М. (1960). Probabilistic Indexing and Information Retrieval. Journal of ACM .

Благодарам на вниманието

text mining Класификација

Documents