כריית נתונים

Post on 05-Jan-2016

81 Views

Category:

Documents

6 Downloads

Preview:

Click to see full reader

DESCRIPTION

כריית נתונים. כריית נתונים. אנטיליגנציה עסקית ( BI ) סטטיסטיקה יישום חשוב של מחסן אלגוריתמים לומדים. מטרת כלי ה- Data mining. - PowerPoint PPT Presentation

TRANSCRIPT

1

כריית נתונים

2

כריית נתונים

(BI עסקית )אנטיליגנציה•

סטטיסטיקה•

חשוב של מחסןיישום•

לומדיםאלגוריתמים •

3

Data miningמטרת כלי ה-

המטרה:•קשרים, הקבצות, מגמות, * גילוי

חוקים ידערכישת*

על מנת:•להחלטה עסקית * הפיכת ידע

רכישת יתרון * אסטרטגי

4

כריית נתונים

- בכריית זהבכמו •

קיימיםהקשרים •

נסתריםאך •

5

טכנולוגיות מחשוביות ואלגוריתמים

לכל הצרכים ?שיטה אחת•

שונותלבעיותשונות - טכניקות •

– הבנה והתאמהאתגר•

6

- BI - השגת ידעKnowledge

)מה קורה (הבנהלא רק •

אחד קדימהצעד•

חיזוי קדימה•

7

BI - השגת ידע Knowledge

הלקוחות הפוטנציאלים למוצר החדש ?מי הם•

תיעדוףבחירה לפי •

?לפרסםאיך •

לנקוט ?אמצעי מכירהבאיזה •

8

BI - השגת ידעKnowledge

•UPA

•Understand

•Predict

•Act •ONLINE – REAL TIME

9

EFM–Enterprise Feedback Management

•Approach

ממוקד לקוחארגון •

המגע עם הלקוחערךמיקוד על •

להחלטות הארגון שותף הלקוח•

- דו-כיווניתתקשורת • * מהנתונים לכיוון הלקוח

* מהלקוח לבסיס הנתונים )השלמת נתונים(

10

EFM–Enterprise Feedback Management

מחכה אימייללאחר ביקור בתחנת שירות – •

על טיב השירותנשאלהלקוח •

לקוחלתמונת הלקוח מצורפות תובנות•

לקוחלתמונת מצורפות תשובותיו לסקרים•

11

EFM–Enterprise Feedback Management

נתונים "רכים" וכן "נתונים קשים"נשמרים: •

עסקית פעילות"קשים" - נתוני •

מחשבות/השקפות/דעות"רכים" - •

וקבועיםיציביםנתונים "רכים" יותר •

דירה מעבר בגלל נטישהיתכן שארעה •

משתנות אינן - והעדפה השקפהאבל •

12

דוגמא: בנק

שאלותמי שנכנס לאתר – נשאל •

יקבל הצעותבפעם הבאה כשיכנס לאתר •ספציפיות

הלקוחהמתאימות לתמונתהצעות •

13

Yamaha Motorsדוגמא:

האופנוע הבאתכונות את קובע הלקוח רצון•

בעזרת סקרים מתכננים - • כידון *

אגזוז * צבע *

מראה *

14

סוגי בעיות

,Predictive Analytics חיזויבעיות •Classification / Forecasting

לפי אשכולות – פילוחבעיות •Clustering

– רצף פעילויותמציאת • Association Analysis

15

הנתונים שבמחסן

מטויביםנתונים •

טיוב - ?•

- איכותיים לאנתונים • מוטעותמסקנות *

שגויות * החלטות

16

תהליך ניתוח מבוסס גילוי

הנחותאין •

גדולבסיס נתונים •

- הצפת • קשרים, הקבצות, תבניות וחוקים

17

דוגמא

: הגדרת אוכלוסיית לקוחות מטרה•מכירות מבצעל

שונות הקבצותגילוי •

מי הקבוצה המתאימה אין הנחה•למבצע

ההחלטהבסיום - •

18

יישומים, טכניקות, ואלגוריתמים

19

יישומים המכירותתחום•

20

יישומים

(: Customer Profiling )פילוח לקוחות• פרופיל *

הלקוחות - - זיהוי ? - הגדרה ?

?טכניקה *

?- מטרה *

21

יישומים

ניתוח נטישה•

•( Churn Management) ובין פעילות נתוני בין קשרים•

נטישה

הנטישהסיבות זיהוי •

לקוח נוטש תכונותזיהוי •

22

ניתוח נטישה

? לעשותמה ניתן •גיוס – עלות שימורעלות •כפונקציה של מידת הצ'יפור •

לנטישהההסתברות ? דוגמא:• ? טכניקה•

23

יישומים

ניתוח סל קניות••(Market Basket Analysis) של לקוחות הרגלי הקנייהניתוח • המטרה:•

לאורך זמן לקוח – מוצרים * * מוצרים

יחדהנרכשים ההבנה מסייעת: ?•

24

ניתוח סל קניות

ההבנה מסייעת: • * קביעת רמות

מלאי המדפיםשטח * תכנון

* מוצרים על מדפיםהצגת

? טכניקה:•

25

יישומים

שיווק ממוקד•

•(Targeted Marketing) אמצעי שיווקניתוח צורות שונות של •

קניהשהביאו בעבר לבצוע

?המטרה:•

26

שיווק ממוקד - מטרות לסוגי אמצעי השיווקהתאמת •

דיוור הלקוחות * * ישירים

קטלוגים אתר הבית* תכנון

מספר סוכנים * תכנון של ?תכונותזיהוי *

27

יישומים

איתור הונאות••(Fraud Detection): בנקאות, מסחר בניירות תחומים•

ערך, טלקומוניקציה, ביטוח, ושירותי בריאות

: ?יישומים•

28

איתור הונאותיישומים: •

* כרטיסי אשראי * שיחות טלפון * מונה חשמל

* מונה מים

29

יישומים

דירוג אשראי-ניהול סיכוני אשראי•

•( Credit Scoring)

2 באזלתקנות רגולטוריות •

במתן אשראי סיכונים זיהוי •

לשנות את זיהוי לקוחות העומדים • האשראי שלהםדירוג

30

יישומים

יישומי ביטוח ובריאות •

•(Insurance and Health Care)

מבוטחיםתביעות ניתוח •

ההסתברות•

התביעה תוחלת•

הוגנתפרמיית•

31

יישומי ביטוח ובריאות

טיפולים רפואייםזיהוי •ביחדהמתבצעים

מוצלחים למצבי טפוליםזיהוי •מסוימתמחלה

32

יישומים

בקרת איכות•

•( Quality Control)

הייצור בקווי תקלותניתוח •

לתקלות גורמים חיזוי•

33

טכניקות

הצגה ויזואלית של הנתונים•

•( Visualization)

גרפים - תרשימים•

תלת-מימדית - הצגה צבעים • Scatter )דיאגרמת פיזורטכניקה נפוצה - •

Diagram)

פיזור הנתוניםדיאגראמת דו מימדית המציגה •לפי שני פרמטרים

34

דוגמא לדיאגרמת פיזור

מה ניתן ללמוד?•

35

טכניקות מציאת רצף של פעילויות•

( Association Rules)

נתונים אחרים עם הקשורים נתוניםזיהוי •

חוקיות הסתברותיתהצגת •

כללו גבינת צאן מרכישות בהן נרכשה 80% • שומןמעדן חלב דלגם רכישת

עוד ?•

ניתוח סל הקניותמתאימה לבעיות מסוג •

36

מציאת רצף של פעילויות( Association Rules)

לעיתון מנוי מהלקוחות להם 92%•במוסיקה - ומנוי העוסק "גלובס"

יש להם גם במכוניותמנוי לירחון העוסק

37

טכניקות

ניתוח סדר הופעה•

• Sequence Based Analysis

העסקאות על סדר ביצועהבנת – ציר הזמן

מטרה: ?–

לדוגמא: ? -

38

מטרה

לגבי תבנית ההתנהגותהבנת –קרות אירוע מסוים )רכישת מוצר באינטרנט(

קרות האירוע מראש לצפותכדי

בעתיד

39

דוגמאות

של לינקים המביא מסלול מנצח•

בפועל לביצוע קניה

40

דוגמאות

למחלה מוצלחים תהליכי טיפולאיתור -

תרופותממתן הסתבכויות זיהוי -

ניתן - ההסתברות xטיפול "אם אזי "%p לאחר חודש הינה yלהופעת דלקת

מניה - מ- x"אם ביותר עולה בעוד 20% מניה אזי יורד המניות תעלה yמדד

"%pכעבור שבוע בהסתברות

41

טכניקות

ניתוח אשכולות••(Cluster Analysis)אשכולות אוכלוסייה לאוסף פילוח•בין אובייקטים השייכים לכל דמיון •

אשכול ?המטרה:•

42

תהליך בניית האשכולותאלגוריתם - •

דפוס התנהגות מגדיר * אשכולות בונה *

* לקוחות משייך

מאפיינים * מזהה הבנה הבנת תוצאות ההקבצה מחייבת •

בנתונים

43

תהליך בניית האשכולות

44

טכניקות

(Classification )סיווג •

נפוץ •

תהליך חיזוי•

מודל סיווג ע"פ היסטוריה•

הקבצות ידועות•

יישומים: ?•

45

(Classification )סיווג

יישומים:• * כשל

אשראי תהליך ייצור * כשל

הונאות *

נטישה *

46

(Classification )סיווג

אלגוריתמים - סוגי • איזה ? רגרסיה *

* עצי החלטות

* רשתות עצביות

47

אלגוריתמים

(Decision Tree ) עצי החלטה• העיקרון:•

גורמים זיהוי * חיפוש תכונה/פרמטר ז"א: *

התנהגות המנבאתע"פ חשיבות מיון *

עץ - הצגה *

48

49

אוסף של כללי החלטה•Rules for 1 - contains 4 rule(s)

•Rule 1 for 1 • if AGE = 2• and PAY_WEEK = 2.0• then 1

•Rule 2 for 1

• if CLASS = 1• and PAY_WEEK = 2.0• then 1

•Rules for 0 - contains 2 rule(s)

•Rule 1 for 0 • if PAY_WEEK = 1.0• then 0

•Rule 2 for 0 • if AGE = 1• then 0

50

שלבים בשימוש בעצי החלטות

- (Decision Tree Induction) בנית העץ•לקוחות פוטנציאלים סיווג

שהפכו * *

שלא הפכו עץ החלטותבונה - האלגוריתם

51

שלבים בשימוש בעצי החלטות

בדיקת סבירות ופישוט העץ • ( Tree Pruning – )

ענפים איחוד - כיצד?

ענפים פיצול - כיצד?

52

שלבים בשימוש בעצי החלטות

- מומחים ע"י ביצוע• *

האימון מכירים נתוני * מסוגלים

התוצאותלבדוק איכות

53

שלבים בשימוש בעצי החלטות

מדגם נוסףהפעלת המודל על •

? הסיבה

54

שלבים בשימוש בעצי החלטות

( Decision making)קבלת החלטות •כל המודל לגבי הפעלת *

פוטנציאלי לקוחהסיכויים שלא * ניתוח

יחזיר אשראי

55

עצי החלטה – יתרונות וחסרונות

יתרונות:• להבנה * נוחים וקלים

גבוהה דיוק * רמת (לפעמים..)

פשוט) (אלגוריתם לבניית העץ זמן קצר*

חסרונות:•פישוט הדורש מסועף * עץ

56

עצי החלטה - אלגוריתמים

המקור: מחקר שבוצע באוניברסיטת משיגן • AID )Automatic Interactionונקרא:

Detection(

•CHAID – Chi Squared AID

•ID5

•C5.0

•GINI

57

אלגוריתמים ומודלים - רשתות עצביות

(Neural Networks )רשתות עצביות•

לפתרון אינטליגנציה מלאכותיתענף חדש של •סיווגבעיות

לימוד עצמימבוסס על מבנה מתמטי בעלי יכולת •

הינו רשת עצבית המורכבת ממספר ענק המוח• המחוברים אחד עם השני באמצעות נוירוניםשל

( וכך מתקבלת רשת Synapsesסינפסות )עצבית ענקית

למידהמנגנון זה מאפשר מורכבות: •

58

נוירון טבעי

59

רשת עצבית

60

רשתות עצביות

המבנה שימש חוקרים לבניית מכונות בעלות •יכולת למידה

מבוסס על אוסף צמתים המחולקים ל- • המזרימים את צמתי קלט *

צמתי נתוני הקלט * המשתתפים בתהליך פתרון הבעיה ביניים

המציגים התוצאות צמתי פלט *

הצמתים המחוברים ביניהם ברשת גדולה•

61

שלבים בשימוש ברשת

השימוש ברשת מורכב משני שלבים: • בו מציגים לרשת האימון * שלב

ומאמנים הרשת אוסף דוגמאות מהעבר לפתור בעיות סיווג

מקרים בו מציגים הפענוח * שלב ומסווגים אותם )מבצעים בהם פעולות חדשים

חיזוי(

62

F

63

נוירון מלאכותישל הנוירון - הסכום עוצמת ההפעלה•

המשוקלל של כל הקלטים - (Activation Function) פונקצית הפעלה•

לפונקצית ערך עוצמת ההפעלה מוזןשבבסיס כל נוירון ההפעלה

תוצאת פונקצית ההפעלה - הפלט של הנוירון•הפלט של כל נוירון נורה קדימה ומוזן כקלט •

לכל אחד מהנוירונים בשכבה הבאה של הרשת: השכבה הבאה יכולה להיות•

)ביניים( חישוב * שכבת פלט * שכבת

64

עוצמת הפעלה

65

66

פונקצית הפעלה מסוג מדרגה)Step(

מערך גדולה אם עוצמת ההפעלה 1מעבירה •Tמסוים

מערך קטנה אם עוצמת ההפעלה 0מעבירה •מסוים

השפעה של סינפסה מציין שלילימשקל • של נוירון מסוים על הבא אחריומעכבת

67

בחירת פונקצית הפעלה

הקובעים את פונקציתקיים אלגוריתמים •ההפעלה שבבסיס כל נוירון ברשת

הקביעה על סמך: • הקלט מספר יחידות *

הקלט סוג יחידות *התוצאות המתקבלות *

בקבוצת האימון על פני ציר הזמן

)ערכי Tערכי ה-אם נקבע פונקצית מדרגה – • על פי אלגוריתמיםסף( נקבעים אף הם

מתאימים

68

מימוש אופרטורים בוליאנים בעזרת פונקצית מדרגה

69

70

- רשת היישום הראשון ברשת עצביתPerceptron

נבנתה רשת עצבית בשם 50בשנות ה-•Perceptron

אין לה שכבות ביניים רק שכבת קלט ושכבת •פלט

71

Hiddenרשת עם שכבות ביניים (Layers(

החלו לפתח רשתות המבוססות 80בשנות ה-• )שכבות נסתרות( שכבות בינייםעל *

* Back Propagationאלגוריתם

72

”רשתות עם "שכבות נסתרות

שכבות רשת המכילה בנוסף לשכבת הפלט •( Hidden Layers )נסתרות

בכל שכבה קיים נוירון אחד או מספר נוירונים•

של המידע בתוך לעיבוד פנימימשמשות •הרשת

נוירוני שכבת הפלט, השכבות הנסתרות •מחוברים ביניהםויחידות הקלט

)החיזוי( של הרשת מוסיף לכח החישוב•

top related