outliers

Post on 05-Feb-2016

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Μέθοδοι εύρεσης outliers

TRANSCRIPT

Ανάλυση Ακραίων Τιμών σε Πολυμεταβλητά Δεδομένα

Οι διάφορες μέθοδοι μπορούν να ταξινομηθούν σε τέσσερις τουλάχιστον κατηγορίες:

Depth-based Methods

Deviation-based Methods

Angle-based Outlier Detection

Distance-based Methods

Depth-based Methods (1/3)

Έχει την καταγωγή της στην Υπολογιστική Γεωμετρία.

Μια από τις πιο χρήσιμες και ενδιαφέρουσες δομές στην Υπολογιστική Γεωμετρία είναι το κυρτό περίβλημα (convex hull).

Το κυρτό περίβλημα χρησιμοποιείται για τον εντοπισμό των outliers.

Ας δούμε μερικούς ορισμούς!

Κυρτό Σύνολο

Ορισμός: Μία επίπεδη περιοχή R είναι κυρτή αν και μόνο αν για κάθε ζεύγος σημείων p, q R∈ , το ευθύγραμμο τμήμα pq κείται εντός του R.

Κυρτό Περίβλημα

Ορισμός: Το κυρτό περίβλημα CH(Q) ενός συνόλου Q είναι η μικρότερη κυρτή περιοχή που περιέχει το Q.

Depth-based Methods (2/3)

Κεντρική ιδέα– Οι παρατηρήσεις οργανώνονται σε επίπεδα βάσει

ενός ορισμού του βάθους.

– Το βάθος συνδέεται άμεσα με τον υπολογισμό του κυρτού περιβλήματος.

– Τα “ρηχά” επίπεδα είναι πιο πιθανό να περιέχουν κάποιο outlier παρά τα “βαθειά”.

Ένα μειονέκτημα αυτής της μεθόδου είναι ότι ο υπολογισμός του κυρτού περιβλήματος έχει μεγάλο υπολογιστικό κόστος.

Depth-based Methods (3/3)

Deviation-based Methods (1/3)

Κεντρική ιδέα– Μας δίνεται ένα σύνολο παρατηρήσεων.

– Τα outliers είναι οι παρατηρήσεις που δεν ταιριάζουν στα γενικά χαρακτηριστικά του συνόλου.

– Η διακύμανση του συνόλου μειώνεται όταν αφαιρούνται τα outliers.

Η βασική υπόθεση είναι ότι τα outliers είναι οι πλέον απομακρυσμένες παρατηρήσεις του συνόλου δεδομένων.

Ας δούμε μερικούς χρήσιμους ορισμούς!

Deviation-based Methods (2/3)

Ορισμός: Για κάθε σύνολο R D⊆ , o smoothing factor SF(R) υπολογίζει πόσο μειώνεται η διακύμανση του D όταν το R αφαιρείται από το D, όπου D το σύνολο των δεδομένων.

Τελικά, τα outliers είναι τα στοιχεία που ανήκουν στο σύνολο exception E D, ⊆ για το οποίο ισχύει:

Για κάθε R D, SF(E) ≥ SF(R)⊆ Με άλλα λόγια, η αφαίρεση των outliers προκαλεί την

μέγιστη μείωση της διακύμανσης στο D.

Deviation-based Methods (3/3)

Ένα μειονέκτημα αυτής της μεθόδου είναι ότι ο υπολογισμός του βέλτιστου συνόλου E έχει μεγάλο υπολογιστικό κόστος (O(2n)).

Angle-based Outlier Detection (1/6)

Κεντρική ιδέα– Χρησιμοποιεί διανύσματα και συνημίτονα γωνίας διανυσμάτων.

– Τα συνοριακά σημεία είναι πιθανό να “περιέχουν” όλα τα δεδομένα στο εσωτερικό μιας μικρότερης γωνίας.

– Τα εσωτερικά σημεία είναι πιθανό να “περιέχουν” άλλα σημεία στο εσωτερικό διαφορετικών γωνιών.

– Όσο πιο απομονωμένο είναι ένα σημείο, τόσο μικρότερη είναι η γωνία που σχηματίζεται.

Σημεία με μικρότερο φάσμα γωνιών είναι πιθανά outliers.

Angle-based Outlier Detection (2/6)

Angle-based Outlier Detection (3/6)

Angle-based Outlier Detection (4/6)

Έστω τρία σημεία X, Y και Ζ. Τότε η γωνία μεταξύ των διανυσμάτων Y – X και Z – X δεν διαφέρει αρκετά για διάφορες τιμές των Υ και Z όταν το X είναι outlier.

Αυτή η γωνία συνδέεται με τον παρακάτω τύπο:

όπου WCos = Weighted Cosine.

Angle-based Outlier Detection (5/6)

Η διακύμανση στο φάσμα των γωνιών υπολογίζεται μεταβάλλοντας τις τιμές των Y και Z και κρατώντας σταθερή την τιμή του X.

Τέλος, ορίζουμε τον angle-based outlier factor (ABOF):

Σημεία με χαμηλότερο ABOF είναι πιθανά outliers.

Angle-based Outlier Detection (6/6)

Ο ABOF μπορεί να υπολογιστεί μια διάφορους τρόπους.

Η απλούστερη λύση έχει κόστος O(N3) και δεν είναι πρακτική για μεγάλα σύνολα δεδομένων.

Στην βιβλιογραφία υπάρχουν και άλλοι τρόποι υπολογισμού του ABOF, πιο αποδοτικοί.

top related