tarefa data mining - classificação de textos

What’s Cooking Um Desafio de Classificação de Textos

Mineração de Dados 2º Semestre de 2015

Professor: Alexandre PlasAno Aluno: Paulo Lacerda

Aprendizado de Máquina – 2 / 2015

Agenda

•  Introdução ao Desafio •  Abordagem UAlizada •  Método de Aprendizado •  Implementação do Algoritmo •  Resultados ObAdos •  Próximos Passos

2

What’s Cooking hUps://www.kaggle.com/c/whats-‐cooking

Obje2vo: dado um conjunto de 9.944 receitas, classificar cada uma delas em um Apo de culinária, baseado nos seus ingredientes. Dados de treinamento: •  39.774 receitas classificadas de acordo com o Apo de culinária. •  20 Apos de culinária (italian, mexican, southern_us, indian, ...) •  Exemplo:

Universidade Federal Fluminense 3

{ "id": 24717, "cuisine": "indian", "ingredients": [ "tumeric", "vegetable stock", "tomatoes", "garam masala", "naan", "red lentils", "red chili peppers", "onions", "spinach", "sweet potatoes" ] },

Abordagem UAlizada


Treinamento

Classificação

Dados de Treinamento

Classificação de Texto com Método Supervisionado de Aprendizado de Máquina

1

2

Modelo Classificador

Receitas a Classificar

Receitas Classificadas

Abordagem UAlizada


Algoritmo de Aprendizado de

Máquina

Treinamento

{ "id": 2941, "cuisine": "thai", "ingredients": [ "sugar", "hot chili", "lime juice" ] }

... 0 1 0 0 0 0 0 1 1 1

feature vector Extrator de Features

(bag-‐of-‐words)

Classe

Dados de Treinamento


para cada receita do data set de treinamento

Abordagem UAlizada


Classificação

{ "id": 8732, "cuisine": "?", "ingredients": [ "salt", "rice", "black beans" ] }

... 0 1 0 0 0 0 0 1 1 1

feature vector Extrator de Features

(bag-‐of-‐words)

Receitas a Classificar


Receitas Classificadas

para cada receita do data set a classificar

Método de Aprendizado Qual método uAlizar?

•  Diversos métodos podem ser usados para classificação de texto: Naive Bayes, LogisAc Regression, k-‐NN, Redes Neurais, SVM, Ensembles.

(Mining Text Data, Springer, 2012)

•  Naïve Bayes foi escolhido para o trabalho, pois tem algumas caracterísAcas interessantes para este caso: –  Boa performance –  Simples de implementar –  Hipótese de independência das probabilidades condicionais é aceitável

•  Resultado será baseline para outros métodos


Implementação do Algoritmo

•  Linguagem Python –  Simples e bastante uAlizada em referências da área –  Trabalha bem com operações em vetores (NumPy)

•  Duas funções principais: –  trainNB(trainRecipes, vocabulary, classes) –  classifyNB(pc, pwc, ingredFeatVector)

•  Código-‐fonte: –  hUps://github.com/placerda/whatscooking


Resultados ObAdos •  Naïve Bayes

–  train dataset size: 39.774 –  recipes classified: 9.944 –  Accuracy: 0.57862 (10-‐fold cross validaAon)

•  Ranking:


…

…

Próximos Passos Aplicar outros métodos:

–  SVM e kNN (A loss funcAon analysis for classificaAon methods in text categorizaAon.Li, Fan, and Yiming Yang. 2003.)

•  OAmizar NB –  upweigh(ng Adicionar pesos manualmente

(um ingrediente tem mais peso que outro em determinadas classes)

•  Preparar os dados: normalização, stemming, etc. –  “50% less sodium black beans” –  “black beans”


“black beans”

Obrigado!

12 Aprendizado de Máquina – 2 / 2015

Distribuição Dados de Treinamento

Aula 5 -‐ 21/09/2010 13

tarefa data mining - classificação de textos

Technology