สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

13
Data Warehouse คคคคคคคคคค คคค คคคคคคคคคคคคคค คคคคคคคคคคคค คคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค คคคคคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค คคคคคคคคคคคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคค คคคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค คคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค (Multidimensional Analysis) คคคคคคคคคคคคคคค คคค Bill Inmon คคคคคคคคคคคคคคคคคค หหหหหหห คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค คคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค (Integrated) คคคคคคคคคคคคคคคคคคคคคคคค (Subject - Oriented) คคคคคคคคคคคคคคคคค (Time Variant) คคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค (Nonvolatile) คคคคคคคคคคคคคคคคคคคคคค 1. Subject oriented คคคคคคคคคคคคคคคคคคคคคคคคคค (คคคคคค คคคคคค คคคคคค) (คคคคคคคคคคคคคคคคคคค คคคคคคคคคคคคคคคคคค) 2. Integration คคคคคคคคคคคคคคค 3. Timevariancy คคคคคคคคคคคคคคคคคคค 4. Nonvolatile คคคคคคคคคคคคคคคคคคค คคคคคคคคคคคคคคคคคคคคคค 1. Consolidated and Consistant Consolidated คคคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค (คคคคคคคคคค) Consistant คคคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค คคคคคคคคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคค คคคคคค คคคคคคคคคคคคคคคคคคคคคค 2. Subject-Oriented Data คคคคคคค คคคคคคคคคคคคคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค 3. Historical Data คคคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคค คคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคคค คคคคคคคคคคคคคคคคคคคค

Upload: paitoon-buddhakird

Post on 27-Jul-2015

2.920 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

Data Warehouseคลั�งข้�อมูลั คื�อ ระบบการจั�ดเก�บ รวบรวมข้�อม�ล ที่��ม�อยู่��ในระบบปฏิ�บ�ติ�การติ�างๆข้ององคื"กร โดยู่รวบรวมข้�อม�ลที่��กระจั�ดกระจัายู่ให้�มารวมไว�เป&นศู�นยู่"กลางข้�อม�ลข้ององคื"กร และสามารถเก�บข้�อม�ลยู่�อนห้ล�งได�ห้ลายู่ๆป+ เพื่��อใช้�เป&นข้�อม�ลในการติ�ดส�นใจัห้ร�อใช้�ในการว�เคืราะห้"ข้�อม�ลที่��ถ�กติ�องและม�ประส�ที่ธิ�ภาพื่ โดยู่การว�เคืราะห้"ติ�องที่0าได�แบบห้ลายู่ม�ติ� (Multidimensional Analysis)

นิ�ยามูคลั�งข้�อมูลั ข้อง Bill Inmon บิ�ดาแห่�งคลั�งข้�อมูลั ห้มายู่ถ1ง แห้ล�งข้�อม�ลที่��ใช้�ในการติ�ดส�นใจัข้องผู้��บร�ห้าร โดยู่ข้�อม�ลม�การเก�บในล�กษณะที่��รวบรวม (Integrated) ถ�กจั�ดเก�บไว�เป&นเร��องๆ (Subject -Oriented)

แปรผู้�นติามม�ติ�เวลา (Time Variant) และข้�อม�ลเห้ล�าน�5ไม�ม�การเปล��ยู่นแปลง (Nonvolatile)

ค�ณลั�กษณะข้องคลั�งข้�อมูลั1. Subject oriented การแบ�งโคืรงสร�างติามเน�5อห้า (ล�กคื�า ส�นคื�า ยู่อดข้ายู่) (การคืวบคื6มคืล�งส�นคื�า การออกใบก0าก�บภาษ�)2. Integration การรวมเป&นห้น1�ง3. Timevariancy คืวามส�มพื่�นธิ"ก�บเวลา4. Nonvolatile คืวามเสถ�ยู่รข้องข้�อม�ลค�ณสมูบิ�ติ�ข้องคลั�งข้�อมูลั1. Consolidated and Consistant

Consolidated ห้มายู่ถ1ง การรวบรวมข้�อม�ลที่��เก�ดข้15นในระด�บปฏิ�บ�ติ�การมาไว�ที่��ศู�นยู่"กลางเด�ยู่วก�น (คืล�งข้�อม�ล)

Consistant ห้มายู่ถ1ง ข้�อม�ลจัากแห้ล�งติ�างๆที่��รวบรวมมาไว�ในคืล�งข้�อม�ล จัะติ�องม�คื6ณสมบ�ติ�ที่��เห้ม�อนก�น ร�ปแบบเด�ยู่วก�นและสอดคืล�องก�น2. Subject-Oriented Data ห้มายู่ถ1ง เก�บข้�อม�ลในระด�บปฏิ�บ�ติ�การเฉพื่าะส�วนที่��น0ามาใช้�เช้�งว�เคืราะห้"ห้ร�อเช้�งติ�ดส�นใจัมากกว�าการเก�บข้�อม�ลเพื่��อติอบคื0าถาม3. Historical Data ห้มายู่ถ1ง จัะเก�บยู่�อนห้ล�งเป&นเวลาห้ลายู่ๆป+ เพื่��อจัะได�น0าไปว�เคืราะห้"เปร�ยู่บเที่�ยู่บห้าแนวโน�มข้องข้�อม�ลเปร�ยู่บก�บป+ที่��ผู้�านมา4. Read – Only Data ห้มายู่ถ1ง ข้�อม�ลในฐานข้�อม�ลไม�คืวรม�การแก�ไข้ห้ล�งจัากที่��น0าข้�อม�ลเข้�าส��ฐานข้�อม�ลข้องคืล�งข้�อม�ลแล�วไม�ม�การ Insert update or delete ข้�อม�ลภายู่ในคืล�งข้�อม�ลนอกจัากการเพื่��มข้�อม�ลเข้�าอยู่�างเด�ยู่ว

Page 2: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

Central Data Warehouse ห้ร�อ คลั�งข้�อมูลัแบิบิศูนิย�กลัาง คื�อ คืล�งข้�อม�ลที่��รวบรวมข้�อม�ลที่��ใช้�ในการด0าเน�นการข้ององคื"กร มาจั�ดเก�บไว�ในฐานข้�อม�ลแบบศู�นยู่"กลางข้ององคื"กร ไม�ว�าจัะเป&นข้�อม�ลในระด�บห้น�วยู่งาน,

สาข้า ห้ร�อที่�5งองคื"กร

Active Data Warehouse ห้ร�อ คลั�งข้�อมูลัพร้�อมูใช้�งานิ คื�อ คืล�งข้�อม�ลที่��รวบรวมข้�อม�ลไว�ส0าห้ร�บใช้�งานในว�ติถ6ประสงคื"ข้องการคื�นห้าแนวที่างและแบบอยู่�างที่��จัะน0ามาประกอบการติ�ดส�นใจั ซึ่1�ง Bill Inmon ได�ให้�น�ยู่ามว�า เป&นเร��องข้องเช้�งว�ติถ6, เวลาที่��ติ�างก�น, ไม�ม�การลบเล�อนและการรวบรวม

Enterprise Data Warehouse ห่ร้!อ คลั�งข้�อมูลัสถานิปร้ะกอบิการ้ ห้มายู่ถ1ง คืล�งข้�อม�ลแบบรวมศู�นยู่"ที่��เติร�ยู่มข้�อม�ลไว�ส0าห้ร�บให้�บร�การ โดยู่เป&นคืล�งข้�อม�ลที่��เก�บรายู่ละเอ�ยู่ดที่�5งในอด�ติถ1งป:จัจั6บ�นข้ององคื"กรไว�ใน Enterprise Data Warehouse

ปร้ะโยช้นิ�ข้อง Data Warehouse

1. ช้�วยู่เสร�มสร�างคืวามร� �ข้องบ6คืลากรในองคื"กร2. ช้�วยู่สน�บสน6นการติ�ดส�นใจัให้�เก�ดประส�ที่ธิ�ภาพื่3. สามารถเข้�าถ1งข้�อม�ลที่��ส0าคื�ญได�อยู่�างสะดวกและรวดเร�ว4. แยู่กฐานข้�อม�ลที่��ใช้�ปฏิ�บ�ติ�งานออกจัากฐานข้�อม�ลที่��ใช้�ว�เคืราะห้"5. ให้�ข้�อม�ลสร6ปในม6มมองระด�บส�ง6. สามารถเจัาะล1กลงไปได�7. สร�างคืวามได�เปร�ยู่บในการแข้�งข้�น8. ยู่กระด�บการบร�การล�กคื�าที่��ด�ข้15น สร�างคืวามพื่1งพื่อใจัให้�ก�บล�กคื�า9. ม�คืวามยู่�ดห้ยู่6�นในการปร�บใช้�ข้�อม�ลก�บการติ�ดส�นใจั10. ช้�วยู่ปร�บปร6งกระบวนการที่างธิ6รก�จัให้�ม�คืวามรวดเร�ว

สถาป%ติยกร้ร้มูข้องคลั�งข้�อมูลั1. Data Acquisition System ร�บข้�อม�ลจัากภายู่นอก 2. Data Staging Area

- Data Cleansing ลดคืวามซึ่05าซึ่�อนข้องข้�อม�ล - Filtering เล�อกเฉพื่าะข้�อม�ลที่��ม�ประโยู่ช้น"

3. Data Warehouse Database /Data Store

Page 3: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

- Data Model การออกแบบจั0าลองข้�อม�ล - การจั�ดเก�บข้�อม�ล

4. Data Provisioning Area /Data Mart การรายู่งานผู้ลล�พื่ธิ"ติ�างๆที่��จั0าเป&นส0าห้ร�บการว�เคืราะห้"ข้�อม�ล5. End User Terminal - Simple Report Tool - Multi Dimensional Tools

- Data Mining Tools6. Metadata Repository ใช้�เก�บข้�อม�ลที่��ใช้�คืวบคื6มการที่0างานในคืล�งข้�อม�ล

สถาป%ติยกร้ร้มูข้อง Data Warehouse ม�การเช้��อมติ�อก�นในร�ปข้องเลเยู่อร" ด�งน�51. Operational database ห้ร�อ external database layer

ที่0าห้น�าที่��จั�ดการก�บข้�อม�ลในระบบงานปฏิ�บ�ติ�การห้ร�อแห้ล�งข้�อม�ลภายู่นอกองคื"กร2. Information access layer เป&นส�วนที่��ผู้��ใช้�ปลายู่ที่างติ�ดติ�อผู้�านโดยู่ติรง ประกอบด�วยู่ฮาร"ดแวร"และซึ่อฟติ"แวร" ที่��ใช้�ในการแสดงผู้ลเพื่��อว�เคืราะห้" โดยู่ม�เคืร��องม�อช้�วยู่ เป&นติ�วกลางที่��ผู้��ใช้�ใช้�ติ�ดติ�อก�บคืล�งข้�อม�ล 3. Data access layer เป&นส�วนติ�อประสานระห้ว�าง Information

access layer ก�บ operational layer

4. Metadata layer เพื่��อให้�เข้�าใจัถ1งข้�อม�ลได�ง�ายู่ข้15น และเป&นการเพื่��มคืวามเร�วในการเร�ยู่กและด1งข้�อม�ลข้องคืล�งข้�อม�ล

5. Process management layer ที่0าห้น�าที่��จั�ดการกระบวนการที่0างานที่�5งห้มด

6. Application messaging layer เป&นม�ดเด�ลแวร" ที่0าห้น�าที่��ในการส�งข้�อม�ลภายู่ในองคื"กรผู้�านที่างเคืร�อข้�ายู่

7. Data warehouse (physical) layer เป&นแห้ล�งเก�บข้�อม�ลข้องที่าง information data และ external data ในร�ปแบบที่��ง�ายู่แก�การเข้�าถ1งและยู่�ดห้ยู่6�นได�

Page 4: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

8. Data staging layer เป&นกระบวนการการแก�ไข้ และด1งข้�อม�ลจัาก external database

Design Data Warehouse

1. Star schema เป&นเที่คืน�คืที่��ใช้� multidimensional model

โดยู่ data warehouse จัะม�ติ� 5งแติ� 1 star schema ข้15นไป star

schema จัะม�ล�กษณะที่��ม� fact table อยู่��ติรงกลางล�อมรอบด�วยู่ห้ลายู่ ๆ dimension table ที่��เก�บรายู่ละเอ�ยู่ดข้อง fact ที่��ไม�ใช้� normalized center

Star Schema ว�ธิ�น�5จัะช้�วยู่เพื่��มคืวามสามารถในการ query โดยู่ลดประมาณ data ที่�� อ�านจัาก disk การว�เคืราะห้"การ queries ข้�อม�ลใน dimension table ที่��เล�กจัะใช้� dimension key จัาก index ใน central fact table เป&นการลดจั0านวนข้�อม�ลที่��ติ�องติรวจัสอบ ซึ่1�งม�ข้�อด�คื�อ ม�จั0านวนข้องติารางน�อยู่ ,สร�าง query ง�ายู่ และเร�ว

2. Snowflake schema ม�คืวามแติกติ�างจัาก Star schema

ติรงที่�� dimension table จัะเก�บข้�อม�ลจัะเก�บข้�อม�ลที่��อยู่��ในร�ป normal

form จัาก star schema เราอาจัจัะเก�ดป:ญห้าในการ design ได� snowflake จั1งเก�ดข้15นมาเน��องจัากป:จัจั�ยู่ด�งน�5

สภาวะที่างธิ6รก�จั การ design ไม�สามารถ implement โดยู่ใช้� star

schema

Snowflake Schema จัะใช้�ในที่างธิ6รก�จั แติ�จัะไม�แนะน0าให้�เล�อกว�ธิ�น�5 เน��องจัากว�ธิ� น�5ม�คืวามยู่6�งยู่ากในการด�แล การเก�บข้�อม�ลผู้��ใช้�ระบบไม�สามารถร� �ได�ว�าข้�อม�ลอยู่��ที่�� ไห้น อ�กที่�5งการเข้�าถ1งข้�อม�ลยู่�งช้�าอ�กด�วยู่

การ้วิ�เคร้าะห่�ข้�อมูลัในิคลั�งข้�อมูลั1. Query and Report Generator2. Multidimensional Data Analysis3. Online Analysis Processing (OLAP) กระบวนการประมวลผู้ลข้�อม�ลที่างคือมพื่�วเติอร" ที่��ช้�วยู่ให้�ว�เคืราะห้"ข้�อม�ลในม�ติ�ติ�างๆ (Multidimensional Data Analysis)

การด0าเน�นการก�บ OLAP

Page 5: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

1. Roll up / Consolidation การปร�บระด�บคืวามละเอ�ยู่ดข้องข้�อม�ล จัากระด�บที่��ละเอ�ยู่ดข้15น...มาส��ที่��..ห้ยู่าบข้15น

2. Drill Down การปร�บระด�บคืวามละเอ�ยู่ดข้องข้�อม�ล จัากระด�บที่��ห้ยู่าบ...ไปส��ที่��.. ละเอ�ยู่ดมากข้15น

3. Slice การเล�อกพื่�จัารณาผู้ลล�พื่ธิ"บางส�วนที่��เราสนใจั โดยู่เล�อกเฉพื่าะคื�าที่��ถ�กก0าก�บด�วยู่ข้�อม�ลบาง

คื�าข้องแติ�ละม�ติ�เที่�าน�5น4. Dice กระบวนการพื่ล�กแกนห้ร�อม�ติ�ข้องข้�อม�ล ให้�ติรงติามคืวาม

ติ�องการข้องผู้��ใช้�งาน 4. Data Mining Tools

ข้�อเส�ยู่คืล�งข้�อม�ล1. ข้�5นติอนการกล��นกรองและโห้ลดข้�อม�ลเข้�าส��คืล�งข้�อม�ลใช้�เวลานาน และติ�องอาศู�ยู่ผู้��ที่��ม�คืวามช้0านาญ 2. แนวโน�มคืวามติ�องการข้�อม�ลม�มากข้15นเร��อยู่ ๆ 3. ใช้�เวลานานในการพื่�ฒนาคืล�งข้�อม�ล4. ระบบคืล�งข้�อม�ลม�คืวามซึ่�บซึ่�อนส�ง

Data Warehouse Service โดยู่ Service ข้อง Data

Warehouse จัะม�คืวามสามารถในการสร�างและจั�ดส�งคื�าห้ร�อข้�อม�ล เพื่��อที่0าให้�ได�มาซึ่1�งข้�อม�ลห้ร�อรายู่งานส0าห้ร�บสน�บสน6นการติ�ดส�นใจั

Service แบ�งออกเป&น 2 ประเภที่ คื�อ 1. Service ที่��ที่0าห้น�าที่��จั�ดเก�บข้�อม�ลห้ร�อด�แลเน�5อที่��ในการจั�ดเก�บ (Data

staging service)2. Service ที่��ที่0าห้น�าที่��ในการเข้�าถ1งข้�อม�ล (Query service)

การ้ Service มู(ด�งนิ()1. Service Oriented Architecture (SOA) จัะช้�วยู่เพื่��ม

ประส�ที่ธิ�ภาพื่ในการแก�ไข้ป:ญห้าที่��เก�ดข้15นจัากระบบห้ร�อ application

โดยู่ม�การจั�ดส�ง Service ไปยู่�งผู้��ใช้� application และ Service

อ��นๆ ซึ่1�ง SOA เป&นแนวที่างมาติรฐานในการน0าเสนอและโติ�ติอบระห้ว�างผู้��ใช้�ก�บ software โดยู่ใช้� Service เป&นติ�วข้�บเคืล��อน ซึ่1�ง SOA จัะติ�องม�การลงที่ะเบ�ยู่นข้อง Service ส0าห้ร�บการเข้�าถ1งข้�อม�ลในแติ�ละช้6ด

Page 6: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

2. Information as a Service เป&นองคื"ประกอบที่��ส0าคื�ญและเป&นติ�วข้�บเคืล��อน SOA ให้�ม6�งส��เป?าห้มายู่ที่��วางไว� การส�งผู้�านข้�อม�ลจัาก application โดยู่ใช้� Service สามารถคืวบคื6มการร�บ-ส�งข้�อม�ล และสามารถ Service ข้�อม�ลข้�ามระบบได� แติ�ติ�องคื0าน1งถ1ง Mapping,

Business, Rule, Security Information และล�กษณะข้องข้�อม�ลด�วยู่

3. BI Service Contracts เป&นพื่�5นฐานข้อง Service ส0าห้ร�บรองร�บการเพื่��มข้15นข้องข้�อม�ลจัากแห้ล�งข้�อม�ลที่��ได�ร�บอน6ญาติห้ร�อม�คืวามน�าเช้��อถ�อ รองร�บการประมวลผู้ลข้�อม�ลที่��ม�ปร�มาณมากๆ โดยู่ Service จัะที่0าห้น�าที่��ในการจั�ดเติร�ยู่มข้�อม�ลติามที่��ผู้��ใช้�ร�องข้อ แติ�ป:ญห้าข้องการ Service น�5 คื�อ ป:ญห้าด�าน Net Work Brandwidth

Data Warehouse Object

การ้ปร้ะย�กติ�ใช้� Data Warehouse แลั�วิมู�นิ Failed

เห้ติ6ผู้ลที่��ที่0าให้�คืล�งข้�อม�ลเก�ดข้�อผู้�ดพื่ลาดส�วนว�ธิ�แก�ก�ใช้�แนวที่างติรงข้�ามก�น- ผู้��จั�ดการระด�บส�งไม�ม�เวลาที่6�มเที่ให้�โคืรงการ - การไม�ใส�ใจัห้ร�อวางแผู้นไม�เพื่�ยู่งพื่อ - การไม�ม�คืวามช้0านาญภายู่ในห้ร�อผู้�านผู้��ให้�บร�การ - การติ�ราคืาข้องที่ร�พื่ยู่ากรที่��ติ�องการส0าห้ร�บเคืร��องม�อติ0�าไป - การเพื่�กเฉยู่เพื่��อกระที่0าการว�เคืราะห้"ราคืารวมข้องกรรมส�ที่ธิ�@- เที่คืโนโลยู่�ผู้�ดพื่ลาด - คืวามสนใจัข้�อม�ลที่��ไม�เพื่�ยู่งพื่อ- คืวามสามารถติ0�า

Data Mining

Data Mining ห่ร้!อ เห่มู!องข้�อมูลั คื�อ เป&นกระบวนการแยู่กข้�อม�ล (Extract Data) จัากฐานข้�อม�ลข้นาดให้ญ�เพื่��อให้�ได�ข้�อม�ลที่��เก�ดประโยู่ช้น"ออกมาโดยู่เป&นข้�อม�ลที่��ม�เห้ติ6ผู้ลและห้ล�กฐานที่��เช้��อถ�อได�

Data Mining สามารถที่0าอะไรได�บ�าง สามารถน0าไปประยู่6กติ"ใช้�

Page 7: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

ด�านการแพื่ที่ยู่" : ใช้� Data Mining คื�นห้าผู้ลข้�างเคื�ยู่งข้องการใช้�ยู่า โดยู่อาศู�ยู่ข้�อม�ลจัากประว�ติ�ผู้��ปAวยู่ ใช้�ในการว�เคืราะห้"ห้าคืวามส�มพื่�นธิ"ข้องสารพื่�นธิ6กรรมด�านการเง�นการธินาคืาร : ใช้� Data Mining ติ�ดส�นว�าคืวรจัะอน6ม�ติ�เคืรด�ติให้�ล�กคื�ารายู่ใดบ�าง ใช้�ในการคืาดการณ"ว�าธิ6รก�จัจัะม�โอกาสล�มละลายู่ห้ร�อไม� ด�านการเกษติร : ใช้�จั0าแนกประเภที่ข้องโรคืพื่�ช้ที่��เก�ดก�บถ��วเห้ล�องและมะเข้�อเที่ศูด�านว�ศูวกรรม : ใช้�ว�เคืราะห้"และว�น�จัฉ�ยู่สาเห้ติ6การที่0างานผู้�ดพื่ลาดข้องเคืร��องจั�กรกลด�านอาช้ญว�ที่ยู่า : ใช้�ว�เคืราะห้"ห้าเจั�าข้องลายู่น�5วม�อการว�เคืราะห้"ผู้ล�ติภ�ณฑ์" : ใช้�ว�เคืราะห้"ข้�อม�ลผู้ล�ติภ�ณฑ์"ที่�5งห้มดไม�ว�าจัะเป&นล�กษณะ ราคืา การที่0านายู่ราคืาข้องผู้ล�ติภ�ณฑ์"ติ�วอ��นๆด�านการข้ายู่ : ใช้�ว�เคืราะห้"ในการข้ายู่ส�นคื�าให้�ได�มากข้15นการว�เคืราะห้"ล�กคื�า : ช้�วยู่ที่0านายู่ว�าล�กคื�าคืนใดจัะเล�กใช้�บร�การภายู่ใน 6 เด�อนห้น�า แบ�งกล6�มเป?าห้มายู่ล�กคื�าก�จัการโที่รคืมนาคืม : ติรวจัสอบคืาบเวลาที่��ใช้� จั6ดห้มายู่ปลายู่ที่าง คืวามถ��ที่��ใช้� และคืาดการณ"ข้�อบกพื่ร�องที่��เป&นไปได�ในการช้0าระเง�นธิ6รก�จัคื�าปล�ก : ใช้�ว�เคืราะห้"กลยู่6ที่ธิ"ให้�เป&นที่��สนใจัข้องผู้��บร�โภคืในร�ปแบบติ�างๆ

การ้ทำ+างานิข้อง Data Mining

1. การจั�ดห้มวดห้ม��/แบ�งช้�5น (Classification)

2. การประเม�นคื�า (Estimation)

3. การที่0านายู่ล�วงห้น�า (Prediction)

4. การจั�ดกล6�มโดยู่อาศู�ยู่คืวามใกล�ช้�ด (Affinity Group)

5. การรวมติ�ว (Clustering)

6. การบรรยู่ายู่ (Description)

การที่0า Database Segmentation อาจัใช้� K-Mean Algorithms

ห้ร�ออาจัใช้� Unsupervised Learning Neural Network เช้�น โมเดล Kohonen Neural Net ถ�าเป&นการที่0า Predictive Modeling อาจัใช้� cart (Classification and Regression tree) ห้ร�ออาจัใช้� Supervised Learning Neural Network เช้�น Backpropagation Neural Net ถ�าเป&นการที่0า Link Analysis ม�

Page 8: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

การที่0าอยู่�� 2 ล�กษณะคื�อ Assosication Rule Discovery และ Sequential Pattern Discovery อาจัใช้� Apriori Algorithms

องคื"ประกอบการที่0างานข้อง Data Mining????????

เทำคนิ�คการ้ทำ+าเห่มู!องข้�อมูลั1. Classification & Prediction : เที่คืน�คืในการจั0าแนกกล6�มข้�อม�ลด�วยู่คื6ณล�กษณะติ�างๆที่��ได�ม�การก0าห้นดไว�แล�ว สร�างแบบจั0าลองเพื่��อการพื่ยู่ากรณ"คื�าข้�อม�ล (Predictive Model) ในอนาคืติ เร�ยู่กว�า ......Supervised Learning ม� 2 ร�ปแบบ

• Classification เป&นกระบวนการสร�างโมเดลจั�ดการข้�อม�ลให้�อยู่��ในกล6�มที่��ก0าห้นดไ เช้�น จั�ดกล6�มน�กเร�ยู่นว�า ด�มาก ด� ปานกลาง ไม�ด� กะบวนการ Classification แบ�งออกเป&น 3 ข้�5นติอน1. Model Construction (Learning) เป&นข้�5นการสร�างโมเดลโดยู่การเร�ยู่นร� �จัากข้�อม�ลที่��ได�ก0าห้นดไว�เร�ยู่บร�อยู่ (Training data) ซึ่1�งโมเดลที่��ได�จัะแสดงในร�ปข้อง

1.1 Decistion Tree เป&นว�ธิ�การห้น1�งที่��ส0าคื�ญในเที่คืน�คืน�5 ซึ่1�งจัะม�ล�กษณะเป&น Flow Chart เห้ม�อนโคืรงสร�างติ�นไม�ที่��แติ�ละโห้นดแสดงคื6ณล�กษณะ(attribute) ที่��ใช้�ที่ดสอบข้�อม�ลแติ�ละก��งแสดงผู้ลในการที่ดสอบและล�ฟโห้นด (leaf node) แสดงกล6�มห้ร�อ class ที่��ก0าห้นดไว� ซึ่1�ง decision tree น�5ง�ายู่ติ�อการเปล��ยู่นเป&น Classification Rules

1.2 Neural Network ใช้�ในการคื0านวณคื�าฟ:งช้��นจัากกล6�มข้�อม�ล เป&นว�ธิ�การเร�ยู่นร� �จัากติ�วอยู่�างติ�นแบบแล�วฝึDกให้�ระบบได�ร� �จั�กที่��จัะคื�ดแก�ป:ญห้าที่��กว�างข้15น ประกอบด�วยู่โห้นด input output และการประมวลผู้ลผู้�านโห้นดติ�างๆใน input layer, output layer, hidden layer

Page 9: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

2. Model Evaluation เป&นข้�5นประมาณคืวามถ�กติ�องโดยู่อาศู�ยู่ข้�อม�ลที่��ใช้�ที่ดสอบ(Testing data)

3. Model Usage เป&นโมเดลส0าห้ร�บใช้�ข้�อม�ลที่��ไม�เคืยู่เห้�นมาก�อน (unseen data) โดยู่จัะก0านดคืลาสให้�ก�บออบเจัคืให้ม�ที่��ได�มาห้ร�อที่0านายู่คื�าออกมาติามที่��ติ�องการ

• Prediction การที่0านายู่ห้าคื�าที่��ติ�องการจัากข้�อม�ลที่��ม�อยู่�� เช้�น ห้ายู่อดข้ายู่ข้องเด�อนถ�ดไปจัากข้�อม�ลที่��ม�อยู่��

2. Database Clustering or Segmentation : เที่คืน�คืในการจั0าแนกกล6�มข้�อม�ลให้ม�ที่��ม�ล�กษณะคืล�ายู่ก�นไว�กล6�มเด�ยู่วก�น โดยู่ไม�ม�การจั�ดกล6�มข้�อม�ลติ�วอยู่�างไว�ล�วงห้น�า เร�ยู่กว�า .......Unsupervised

Learning เช้�น บร�ษ�ที่จั0าห้น�ายู่รถยู่นติ"ได�แยู่กข้�อม�ลกล6�มล�กคื�าออกเป&น 3

กล6�ม คื�อ กล6�มผู้��ม�รายู่ได�ส�ง (80,000) กล6�มผู้��ม�รายู่ได�ปานกลาง (25,000-80,000) กล6�มผู้��ม�รายู่ได�ติ0�า (น�อยู่กว�า 25,000)

3. Association rule Discovery : เที่คืน�คืในการคื�นพื่บองคื"คืวามร� �ให้ม� ด�วยู่การเช้��อมโยู่งกล6�มข้องข้�อม�ลที่��เก�ดข้15นในเห้ติ6การณ"เด�ยู่วก�นไว�ด�วยู่ก�น การคื�นห้าคืวามส�มพื่�นธิ"ข้องข้�อม�ลจัากข้�อม�ลข้นาดให้ญ�ที่��ม� เพื่��อน0าไปว�เคืราะห้" ห้ร�อ ที่0านายู่ เช้�น การว�เคืราะห้"การซึ่�5อส�นคื�าข้องล�กคื�า4. Deviation Detection : เที่คืน�คืที่��ใช้�ในการห้าคื�าคืวามแติกติ�างไปจัากมาติรฐาน ห้ร�อคื�าที่��คืาดคื�ดไว�ว�าติ�างไปมากน�อยู่เพื่�ยู่งใด โดยู่ที่��วไปม�กใช้�ว�ธิ�ที่างสถ�ติ�ห้ร�อการแสดงให้�เห้�นภาพื่ (Visualization) เช้�น การติรวจัสอบลายู่เซึ่�นปลอม การติรวจับ�ติรเคืรด�ติปลอม การห้าจั6ดบกพื่ร�องข้องช้�5นงานในโรงงานอ6ติสาห้กรรม5. Link Analysis : จั6ดม6�งห้มายู่ข้อง Link Analysis ก�คื�อ การสร�าง Link ที่��เร�ยู่กว�า “associations” ระห้ว�าง Record เด�ยู่ว ห้ร�อกล6�มข้อง Record ในฐานข้�อม�ล Link Analysis สามารถแบ�งได� 3 ช้น�ด

- associations Discovery- sequential pattern discovery- similar time sequence discovery

ปร้ะโยช้นิ�ข้องเห่มู!องข้�อมูลั1. คื�นห้าข้�อม�ลโดยู่อาศู�ยู่เที่คืโนโลยู่�ข้องเห้ม�องข้�อม�ล2. ใช้�สถาป:ติยู่กรรมแบบ Client/Server

3. ผู้��ใช้�ระบบไม�จั0าเป&นติ�องที่�กษะในการเข้�ยู่นโปรแกรม

Page 10: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

4. ผู้��ใช้�ติ�องก0าห้นดข้อบเข้ติและเป?าห้มายู่ข้องระบบให้�ช้�ดเจัน เพื่��อคืวามรวดเร�วและถ�กติ�องติามคืวามติ�องการ5. การประมวลผู้ลแบบข้นานจัะช้�วยู่เพื่��มประส�ที่ธิ�ภาพื่และคืวามเร�วในการคื�นห้าข้�อม�ล

การ้ปร้ะย�กติ� web mining เพ!,อการ้บิร้�การ้ web

1. การรวมข้�อม�ลติ�วอ�กษรเข้�าก�บข้�อม�ล links บน web เพื่��อสร6ปห้า web

page ที่��จั0าเป&นจัะติ�องได�ร�บอน6ญาติจั1งจัะเข้�าใช้�ได�ภายู่ในห้�วข้�อที่��ก0าห้นด2. การผู้สมข้�อม�ลที่��เก��ยู่วก�บล�กษณะการใช้� ช้�วงระยู่ะเวลาและ link ที่��ม�ผู้��

เข้�าใช้�บร�การ web เพื่��อน0ามาพื่�จัารณาปร�บปร6งการให้�บร�การ3. การน0าข้�อม�ลช้น�ดติ�วอ�กษร และข้�อม�ลข้องร�ปภาพื่ มาผู้สมผู้สานก�นเพื่��อ

ประโยู่ช้น"ในการคื�นห้าข้อง search engines ในกรณ�ที่��ติ�องการคื�นห้าข้�อม�ลที่��เป&นร�ปภาพื่

(web mining ก�บการที่0าธิ6รก�จั e-commerce web mining ก�บการติลาดบนอ�นเที่อร"เน�ติ)

OLAP ยู่�อมาจัาก Online Analytical Processing คื�อ เที่คืโนโลยู่�ที่��ใช้�ข้�อม�ลจัากคืล�งข้�อม�ลเพื่��อใช้�ในการว�เคืราะห้"และติ�ดส�นใจัที่างธิ6รก�จัอยู่�างม�ประส�ที่ธิ�ภาพื่ แก�ป:ญห้าที่��ม�คืวามซึ่�บซึ่�อนโดยู่ใช้�เวลาระยู่ะส�5น ระบบจัะติ�องที่0างานได�รวดเร�ว สามารถคื�นห้าข้�อม�ลจัากฐานข้�อม�ลข้นาดให้ญ�มาคื0านวณได�อยู่�างคืรบถ�วนไม�ติกห้ล�น

Data Mining แลัะ Data Warehouse

ส��งส0าคื�ญที่��จัะติ�องที่0าในการที่0า Data Mining ก�คื�อ การก0าห้นดข้�อม�ลที่��เห้มาะสมในการ mining ด�งน�5น Data mining จั1งติ�องการแห้ล�งข้�อม�ลที่��ม�การจั�ดเก�บและรวบรวมข้�อม�ลไว�อยู่�างด�และม�คืวามม��นคืง

เห้ติ6ผู้ลที่��ติ�องม� Data warehouse ที่��ม�การจั�ดเก�บข้�อม�ลที่��ด�ส0าห้ร�บเติร�ยู่มข้�อม�ลเพื่��อที่0าการ mining ก�คื�อ

- Data warehouse จัะที่0าการจั�ดเก�บข้�อม�ลที่��ม�คืวามม��นคืงและข้�อม�ลที่��ได�ที่0าคืวามสะอาดแล�ว ซึ่1�งการจั�ดเติร�ยู่มและรวบรวมข้�อม�ลเป&นส��งที่��จั0าเป&นส0าห้ร�บการ mining ที่��ติ�องการคืวามแน�ใจัในคืวามแม�นยู่0าข้อง predictive models

- Data warehouse จัะเป&นประโยู่ช้น"ส0าห้ร�บการ mining

ข้�อม�ลจัากแห้ล�งข้�อม�ลห้ลายู่ๆแห้ล�งที่��คื�นพื่บมากมายู่เที่�าที่��จัะ

Page 11: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

เป&นไปได� ซึ่1�ง Data warehouse จัะบรรจั6ข้�อม�ลจัากแห้ล�งข้�อม�ลเห้ล�าน�5น

- ในการเล�อกส�วนยู่�อยู่ๆข้อง record และ fields ที่��ติรงประเด�น Data mining จัะติ�องการคืวามสามรถในการ query ข้�อม�ลข้อง Data warehouse

- การศู1กษาผู้ลที่��ได�จัากการที่0า Data mining จัะเป&นประโยู่ช้น"อยู่�างมาก ถ�าห้ากม�การส�บคื�นข้�อม�ลอยู่�างม�แบบแผู้นติ�อไปในอนาคืติ ซึ่1�ง Data warehouse จัะเป&นแห้ล�งจั�ดเก�บข้�อม�ลภายู่ห้ล�งไว�ให้�

ปกติ�แล�ว Data mining และ Data warehouse จัะเป&นส��งคื��ก�น ผู้��ข้ายู่จั0านวนมากจั1งห้าว�ธิ�ที่��จัะน0าเที่คืโนโลยู่� Data mining และ Data

warehouse มารวมก�น

Difference Analysis Data Mining????????