weka - data mining tool - feature extraction

20
Πανεπιστήμιο Στερεάς Ελλάδας Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Εξόρυξη Δεδομένων και Ανακάλυψη Γνώσης Θέμα Εργασίας: WEKA Αγγελίδου Ραΐσα 010801046

Upload: rai-angelidou

Post on 14-Jun-2015

242 views

Category:

Science


6 download

TRANSCRIPT

Page 1: Weka - Data mining tool - Feature Extraction

Πανεπιστήμιο Στερεάς ΕλλάδαςΤμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική

Εξόρυξη Δεδομένων και Ανακάλυψη Γνώσης

Θέμα Εργασίας: WEKA

Αγγελίδου Ραΐσα 010801046

Page 2: Weka - Data mining tool - Feature Extraction

Εισαγωγικά

Weka: Waikato Environment for Knowledge Analysis

Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες μεθόδους για:

Προεπεξεργασία Δεδομένων Ταξινόμηση Συσταδοποίηση Εύρεση Κανόνων Συσχέτισης

Page 3: Weka - Data mining tool - Feature Extraction

Εισαγωγικά

Είναι ένα φιλικό γραφικό περιβάλλον εργασίας Όλα τα εργαλεία του WEKA: φίλτρα, κατηγοριοποιητές,

ταξινομητές, συσχετιστές και επιλογείς χαρακτηριστικών μπορούν να παρουσιασθούν γραφικά με δισδιάστατα γραφήματα

Με βάση τις γραφικές αναπαραστάσεις των επιλεγμένων δεδομένων δοκιμάζονται και προβλέπεται η απόδοση των εναλλακτικών μοντέλων που θα επιλεγούν να χρησιμοποιηθούν τελικά για την διαμόρφωση της «θαμμένης» γνώσης.

Είναι επιλέξιμα μέσα από αναδυόμενα μενού

Page 4: Weka - Data mining tool - Feature Extraction

Εγκατάσταση

To software είναι διαθέσιμο για εγκατάστασηαπό την ιστοσελίδα:

http://www.cs.waikato.ac.nz/ml/weka/

Page 5: Weka - Data mining tool - Feature Extraction

Το παράθυρο κατηγοριοποίησης

Επιτρέπει την διαμόρφωση και την εφαρμογή των διαφόρων μοντέλων κατηγοριοποίησης στα τρέχοντα δεδομένα

Επίσης μπορεί να πραγματοποιήσει συγκριτικές μελέτες ή ελέγχους σε ομάδες δεδομένων

Μπορεί κανείς να προβάλλει τα σφάλματα της κάθε κατηγοριοποίησης με ένα αναδυόμενο μενού-εργαλείο, ενώ αν το αποτελέσματα είναι ένα δένδρο απόφασης μπορεί να προβληθεί γραφικά με ένα αναδυόμενο γραφικό περιβάλλον.

Page 6: Weka - Data mining tool - Feature Extraction

Στάδια μάθησης

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ: given examples labelled from a finite domain, generate a procedure for labelling unseen examples

ΣΥΣΧΕΤΙΣΗ: given examples labelled with a real value, generate procedure for labelling unseen examples

ΤΑΞΙΝΟΜΗΣΗ: from a set of examples, partitioning examples into “interesting” groups

Page 7: Weka - Data mining tool - Feature Extraction

Δείκτες αποτελεσματικότητας

Ειδικότητα: probability of being correct given that your decision

Ευαισθησία: probability of correctly identifying class

Ακρίβεια: # right/total

Page 8: Weka - Data mining tool - Feature Extraction

Weka environment

Page 9: Weka - Data mining tool - Feature Extraction

Weka environment

Ανοίγοντας το πρόγραμμα δίνεται η δυνατότητα να επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να εφαρμοστούν τεχνικές που αφορούν :

Preprocess Classify Cluster Associate Select Attributes Visualize

Page 10: Weka - Data mining tool - Feature Extraction

Επιλέγοντας ένα σύνολο δεδομένων (αρχείο .arff), εμφανίζονται γραφικά τα δεδομένα για καθένα από τα γνωρίσματα ξεχωριστά καθώς και στατιστικές πληροφορίες για αυτά.

Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση στην οποία ταξινομούνται, τα δεδομένα που ανήκουν στην ίδια κλάση εμφανίζονται με το ίδιο χρώμα

Weka environment

Page 11: Weka - Data mining tool - Feature Extraction

Αρχεία .arff

Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να έχουν συγκεκριμένο format και να αποθηκεύονται με την επέκταση .arff

Δεδομένα μπορούν επίσης να δοθούν από ένα URL ή από μία SQL βάση.

Page 12: Weka - Data mining tool - Feature Extraction

Παράδειγμα

Page 13: Weka - Data mining tool - Feature Extraction

Παράδειγμα- csv2arff

Page 14: Weka - Data mining tool - Feature Extraction

Weka environment

Page 15: Weka - Data mining tool - Feature Extraction

Weka environment

Page 16: Weka - Data mining tool - Feature Extraction

Weka environment

Page 17: Weka - Data mining tool - Feature Extraction

Παράδειγμα

Page 18: Weka - Data mining tool - Feature Extraction

Παράδειγμα

Page 19: Weka - Data mining tool - Feature Extraction

Οπτικοποίηση-Συσταδοποίηση δεδομένων

Από την καρτέλα visualize υπάρχει η δυνατότητα να εμφανιστεί η γραφική αναπαράσταση κάθε γνωρίσματος σε συνάρτηση με κάθε άλλο γνώρισμα

Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση (εύρεση ομάδων ‘όμοιων’ δεδομένων)

Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση και με το κουμπί start να αρχίσει η εκτέλεση του αλγορίθμου

Page 20: Weka - Data mining tool - Feature Extraction

Thank you!!