אשכול - clustering
DESCRIPTION
אשכול - clustering. Clustering הוא תחום הקשור לבינה מלאכותית , ותת תחום של למידה לא מבוקרת. Exp 2. Exp 3. כמה גן מבוטא בכל ניסוי. E 2. E 3. E 1. Gene 1. Gene 2. Exp 1. Gene N. איך בודקים דמיון פנימי בין שני נקודות. Peter. Piotr. 0.23. 3. 342.7. Norms. הגדרה יבשה של נורמה. - PowerPoint PPT PresentationTRANSCRIPT
clusteringclusteringאשכול - אשכול -
Clustering הוא תחום הקשור לבינה מלאכותית , ותת תחום של למידה לא מבוקרת .
כמה גן מבוטא בכל ניסוי
Gene 1
Gene 2
Gene N
Exp 1
E 1
Exp 2
E 2
Exp 3
E 3
איך בודקים דמיון פנימי בין שני נקודות
0.23 3 342.7
Peter Piotr
Norms
1
nk
kik
i
V v
הגדרה יבשה של נורמה
11
2 2 222
1
4 1 4 3 8
3
1 4 3 26
1 4 31 4 3 4 (
4 4 4
4 (0 1 0) 4
V V
V
V
וקטורים שני בין מרחק
מוגדר להיות נורמה מאיזשהו מימד בין שני הוקטורים
1. Euclidean distance: D(X,Y)=sqrt[(x1-y1)2+(x2-y2)2+…(xn-yn)2]2. (Pearson) Correlation coefficient R(X,Y)=1/n*∑[(xi-E(x))/x *(yi-E(y))/y] x= sqrt(E(x2)-E(x)2); E(x)=expected value of x R=1 if x=y 0 if E(xy)=E(x)E(y) 3. Norm 1 D(X,Y)=|x1-y1|+|x2-y2|+…|(xn-yn)|4. Norm inf D(X,Y)=maxi(|xn-yn|)
הגדרות מרחק
-מרחק בין וקטורים-מרחק בין וקטוריםדמיון בין פרטיםדמיון בין פרטים
פרמטרים על סמך מגדירים וקטור המקבל מאפיינים קבועים מראש
v=[dress color,earings,height,hair,weight]Patty =[ 3, 2, 1.7, 4, 65 ]Salma= [4 , 1, 1.7, 3 ,65 ]Marge=[5, 0, 1.6, 6, 60]
|| Patty-Salma||1 = 1+1+0+1+0 = 3 || Patty-Marge||1 = 2+2+0.1+2+5 = 11.1 || Salma-Marge||1 = 1+1+0.1+3+5 = 10.1|| Patty-Salma|| ∞= 1|| Patty-Marge|| ∞ = 5 || Salma-Marge|| ∞ = 5
מרחק זה נקרא מרחק עריכה edit distance
דרכים למציאת דמיון בין פרטיםדרכים למציאת דמיון בין פרטים
מגדירים וקטור המקבל את ציון הדמיון על פי פרמטרים שאנחנו קובעים
The distance between Patty and Selma1 , שינוי צבע שמלה point1 , שינוי צורת עגילים point1, שינוי בצורת השיער point
0 point גובה שונה 0 point משקל שונה
D(Patty,Selma) = 3
The distance between Marge and Selma.1 , שינוי צבע שמלה point1 , שינוי צורת עגילים point0.1 גובה שונה point3 שינוי בצורת השיער point5, משקל point
D(Marge,Selma) = 10.1
מרחק זה נקרא מרחק עריכה edit distance
Data Clustering
School Employees Simpson's Family Males Females
??איך מפרידים לקבוצותאיך מפרידים לקבוצות
Partitional ClusteringPartitional Clustering• Nonhierarchical, each instance is placed in
exactly one of K nonoverlapping clusters.
• Since only one set of clusters is output, the user normally has to input the desired number of clusters K.
k-meansאלגוריתם באקראי / לא באקראיk קבע מס' מרכזים •
שייך כל נקודה למרכז הקרוב אליה ע"פ פונקצית •המרחק שהגדרת
החדש ע"פ מרכז הכובד של האשכול kקבע את ה•שנוצר
המשך עד להתכנסות המרכזים•
0
1
2
3
4
5
0 1 2 3 4 5
K-means Clustering: Step 1K-means Clustering: Step 1Algorithm: k-means, Distance Metric: Euclidean Distance
k1
k2
k3
0
1
2
3
4
5
0 1 2 3 4 5
K-means Clustering: Step 2K-means Clustering: Step 2Algorithm: k-means, Distance Metric: Euclidean Distance
k1
k2
k3
0
1
2
3
4
5
0 1 2 3 4 5
K-means Clustering: Step 3K-means Clustering: Step 3Algorithm: k-means, Distance Metric: Euclidean Distance
k1
k2
k3
0
1
2
3
4
5
0 1 2 3 4 5
K-means Clustering: Step 4K-means Clustering: Step 4Algorithm: k-means, Distance Metric: Euclidean Distance
k1
k2
k3
0
1
2
3
4
5
0 1 2 3 4 5
expression in condition 1
exp
ress
ion
in c
on
dit
ion
2
K-means Clustering: Step 5K-means Clustering: Step 5Algorithm: k-means, Distance Metric: Euclidean Distance
k1
k2 k3
Hierarchical clusteringE1 E2 E3
אשכול היררכיאשכול היררכי
HierarchicalHierarchical PartitionalPartitional
Peter
Piter
Pioter
Piotr
Substitution (i for e)
Insertion (o)
Deletion (e)
Edit DistanceEdit DistanceHow similar are the names “Peter” and “Piotr”?Assume the following cost function
Substitution 1 UnitInsertion 1 UnitDeletion 1 Unit
D(Peter,Piotr) is 3
Pio
tr P
yotr
Pet
ros
Pie
tro
Pedr
o P
ierr
e P
iero
Pet
er
Pio
tr P
yotr
Pet
ros
Pie
tro
Ped
ro P
ierr
e P
iero
Pet
erP
eder
Pek
a P
eada
r
Pedro (Portuguese/Spanish)Petros (Greek), Peter (English), Piotr (Polish), Peadar (Irish), Pierre (French), Peder (Danish), Peka (Hawaiian), Pietro (Italian), Piero (Italian Alternative), Petr (Czech), Pyotr (Russian)
Pio
tr P
yotr
Pet
ros
Pie
tro
Ped
ro P
ierr
e P
iero
Pet
erP
eder
Pek
a P
eada
r
Pedro (Portuguese/Spanish)Petros (Greek), Peter (English), Piotr (Polish), Peadar (Irish), Pierre (French), Peder (Danish), Peka (Hawaiian), Pietro (Italian), Piero (Italian Alternative), Petr (Czech), Pyotr (Russian)
מרחק בין אשכולותמרחק בין אשכולות dendogramdendogram - -בניית בניית
• Single linkage (nearest neighbor):Single linkage (nearest neighbor): המרחק בין האשכולות מוגדר על שני הנקודות הכי קרובות•
•Complete linkage (furthest neighbor):Complete linkage (furthest neighbor):המרחק בין האשכולות מוגדר על שני הנקודות הכי רחוקות•
• Group average linkageGroup average linkage:המרחק מוגדר להיות בין שני המרכזים )ממוצע של כל אשכול(•
0 6 8 5 7
0 2 4 4
0 3 3
0 1
0
D( , ) = 6
D( , ) = 1
DENDOGRAMבניית
0 6 8 5
0 2 4
0 3
0
D( , )=2
D( , )=3
0 6 5
0 3
0
…
…
…
בונים את העץ מלמטה ועולים כלפי מעלה
בחר את המרחק הקצר ביותר
בחר את המרחק הקצר ביותר
בחר את המרחק הקצר ביותר
Outlier
הוספת נקודה של טעות לא תפגע באשכול הקודםהוספת נקודה של טעות לא תפגע באשכול הקודם
דוגמא ממבחן)בשיעור(
) clusteringאשכולות (נתונות הנקודות המסומנות1.
.a אשכולות3 אשכולות ועם 2בצע אשכול הררכי עם
.b בצעk-means אשכולות4 אשכולות ועם 2עם
.c פרט את את שלבי אלגוריתם הfuzzy – k mean
Matlab….
' לגרף הנק העברת• ' במישור הנק את קבענקודות • זוג כל בין מרחק קבע
0 1 1.5 2 5 6 7 9
1 0 2 1 6.5 6 8 8
1.5 2 0 1 4 4 6 5.5
.
.
.
n-D data pointsgraph
representationdistance matrix
מינימאלי פורש (MST)עץלסט • אותו והכנס מקור קודקוד (Aקבע עץ )בסט • הקודקוד את ( Bמצא קרוב ) הכי אשר בגרף הקודקודים שאר
(A)לעץ בסט • קודקודים ישארו שלא עד התהליך על Bחזור
דוגמא
4
10
6
7
35
8
(e)
4
7
35
(b)
4 4
(c)
7
4
3
(d)
7
(a)
clustringמציאת
• ) של ) בפונקציה צומת של הוספה כל בעץ ההתקדמות כיוון את קבעשהוספה הקשת משקל
מייצג "עמק"כל • clusterבגרף