Transcript
Page 1: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

Data Warehouseคลั�งข้�อมูลั คื�อ ระบบการจั�ดเก�บ รวบรวมข้�อม�ล ที่��ม�อยู่��ในระบบปฏิ�บ�ติ�การติ�างๆข้ององคื"กร โดยู่รวบรวมข้�อม�ลที่��กระจั�ดกระจัายู่ให้�มารวมไว�เป&นศู�นยู่"กลางข้�อม�ลข้ององคื"กร และสามารถเก�บข้�อม�ลยู่�อนห้ล�งได�ห้ลายู่ๆป+ เพื่��อใช้�เป&นข้�อม�ลในการติ�ดส�นใจัห้ร�อใช้�ในการว�เคืราะห้"ข้�อม�ลที่��ถ�กติ�องและม�ประส�ที่ธิ�ภาพื่ โดยู่การว�เคืราะห้"ติ�องที่0าได�แบบห้ลายู่ม�ติ� (Multidimensional Analysis)

นิ�ยามูคลั�งข้�อมูลั ข้อง Bill Inmon บิ�ดาแห่�งคลั�งข้�อมูลั ห้มายู่ถ1ง แห้ล�งข้�อม�ลที่��ใช้�ในการติ�ดส�นใจัข้องผู้��บร�ห้าร โดยู่ข้�อม�ลม�การเก�บในล�กษณะที่��รวบรวม (Integrated) ถ�กจั�ดเก�บไว�เป&นเร��องๆ (Subject -Oriented)

แปรผู้�นติามม�ติ�เวลา (Time Variant) และข้�อม�ลเห้ล�าน�5ไม�ม�การเปล��ยู่นแปลง (Nonvolatile)

ค�ณลั�กษณะข้องคลั�งข้�อมูลั1. Subject oriented การแบ�งโคืรงสร�างติามเน�5อห้า (ล�กคื�า ส�นคื�า ยู่อดข้ายู่) (การคืวบคื6มคืล�งส�นคื�า การออกใบก0าก�บภาษ�)2. Integration การรวมเป&นห้น1�ง3. Timevariancy คืวามส�มพื่�นธิ"ก�บเวลา4. Nonvolatile คืวามเสถ�ยู่รข้องข้�อม�ลค�ณสมูบิ�ติ�ข้องคลั�งข้�อมูลั1. Consolidated and Consistant

Consolidated ห้มายู่ถ1ง การรวบรวมข้�อม�ลที่��เก�ดข้15นในระด�บปฏิ�บ�ติ�การมาไว�ที่��ศู�นยู่"กลางเด�ยู่วก�น (คืล�งข้�อม�ล)

Consistant ห้มายู่ถ1ง ข้�อม�ลจัากแห้ล�งติ�างๆที่��รวบรวมมาไว�ในคืล�งข้�อม�ล จัะติ�องม�คื6ณสมบ�ติ�ที่��เห้ม�อนก�น ร�ปแบบเด�ยู่วก�นและสอดคืล�องก�น2. Subject-Oriented Data ห้มายู่ถ1ง เก�บข้�อม�ลในระด�บปฏิ�บ�ติ�การเฉพื่าะส�วนที่��น0ามาใช้�เช้�งว�เคืราะห้"ห้ร�อเช้�งติ�ดส�นใจัมากกว�าการเก�บข้�อม�ลเพื่��อติอบคื0าถาม3. Historical Data ห้มายู่ถ1ง จัะเก�บยู่�อนห้ล�งเป&นเวลาห้ลายู่ๆป+ เพื่��อจัะได�น0าไปว�เคืราะห้"เปร�ยู่บเที่�ยู่บห้าแนวโน�มข้องข้�อม�ลเปร�ยู่บก�บป+ที่��ผู้�านมา4. Read – Only Data ห้มายู่ถ1ง ข้�อม�ลในฐานข้�อม�ลไม�คืวรม�การแก�ไข้ห้ล�งจัากที่��น0าข้�อม�ลเข้�าส��ฐานข้�อม�ลข้องคืล�งข้�อม�ลแล�วไม�ม�การ Insert update or delete ข้�อม�ลภายู่ในคืล�งข้�อม�ลนอกจัากการเพื่��มข้�อม�ลเข้�าอยู่�างเด�ยู่ว

Page 2: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

Central Data Warehouse ห้ร�อ คลั�งข้�อมูลัแบิบิศูนิย�กลัาง คื�อ คืล�งข้�อม�ลที่��รวบรวมข้�อม�ลที่��ใช้�ในการด0าเน�นการข้ององคื"กร มาจั�ดเก�บไว�ในฐานข้�อม�ลแบบศู�นยู่"กลางข้ององคื"กร ไม�ว�าจัะเป&นข้�อม�ลในระด�บห้น�วยู่งาน,

สาข้า ห้ร�อที่�5งองคื"กร

Active Data Warehouse ห้ร�อ คลั�งข้�อมูลัพร้�อมูใช้�งานิ คื�อ คืล�งข้�อม�ลที่��รวบรวมข้�อม�ลไว�ส0าห้ร�บใช้�งานในว�ติถ6ประสงคื"ข้องการคื�นห้าแนวที่างและแบบอยู่�างที่��จัะน0ามาประกอบการติ�ดส�นใจั ซึ่1�ง Bill Inmon ได�ให้�น�ยู่ามว�า เป&นเร��องข้องเช้�งว�ติถ6, เวลาที่��ติ�างก�น, ไม�ม�การลบเล�อนและการรวบรวม

Enterprise Data Warehouse ห่ร้!อ คลั�งข้�อมูลัสถานิปร้ะกอบิการ้ ห้มายู่ถ1ง คืล�งข้�อม�ลแบบรวมศู�นยู่"ที่��เติร�ยู่มข้�อม�ลไว�ส0าห้ร�บให้�บร�การ โดยู่เป&นคืล�งข้�อม�ลที่��เก�บรายู่ละเอ�ยู่ดที่�5งในอด�ติถ1งป:จัจั6บ�นข้ององคื"กรไว�ใน Enterprise Data Warehouse

ปร้ะโยช้นิ�ข้อง Data Warehouse

1. ช้�วยู่เสร�มสร�างคืวามร� �ข้องบ6คืลากรในองคื"กร2. ช้�วยู่สน�บสน6นการติ�ดส�นใจัให้�เก�ดประส�ที่ธิ�ภาพื่3. สามารถเข้�าถ1งข้�อม�ลที่��ส0าคื�ญได�อยู่�างสะดวกและรวดเร�ว4. แยู่กฐานข้�อม�ลที่��ใช้�ปฏิ�บ�ติ�งานออกจัากฐานข้�อม�ลที่��ใช้�ว�เคืราะห้"5. ให้�ข้�อม�ลสร6ปในม6มมองระด�บส�ง6. สามารถเจัาะล1กลงไปได�7. สร�างคืวามได�เปร�ยู่บในการแข้�งข้�น8. ยู่กระด�บการบร�การล�กคื�าที่��ด�ข้15น สร�างคืวามพื่1งพื่อใจัให้�ก�บล�กคื�า9. ม�คืวามยู่�ดห้ยู่6�นในการปร�บใช้�ข้�อม�ลก�บการติ�ดส�นใจั10. ช้�วยู่ปร�บปร6งกระบวนการที่างธิ6รก�จัให้�ม�คืวามรวดเร�ว

สถาป%ติยกร้ร้มูข้องคลั�งข้�อมูลั1. Data Acquisition System ร�บข้�อม�ลจัากภายู่นอก 2. Data Staging Area

- Data Cleansing ลดคืวามซึ่05าซึ่�อนข้องข้�อม�ล - Filtering เล�อกเฉพื่าะข้�อม�ลที่��ม�ประโยู่ช้น"

3. Data Warehouse Database /Data Store

Page 3: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

- Data Model การออกแบบจั0าลองข้�อม�ล - การจั�ดเก�บข้�อม�ล

4. Data Provisioning Area /Data Mart การรายู่งานผู้ลล�พื่ธิ"ติ�างๆที่��จั0าเป&นส0าห้ร�บการว�เคืราะห้"ข้�อม�ล5. End User Terminal - Simple Report Tool - Multi Dimensional Tools

- Data Mining Tools6. Metadata Repository ใช้�เก�บข้�อม�ลที่��ใช้�คืวบคื6มการที่0างานในคืล�งข้�อม�ล

สถาป%ติยกร้ร้มูข้อง Data Warehouse ม�การเช้��อมติ�อก�นในร�ปข้องเลเยู่อร" ด�งน�51. Operational database ห้ร�อ external database layer

ที่0าห้น�าที่��จั�ดการก�บข้�อม�ลในระบบงานปฏิ�บ�ติ�การห้ร�อแห้ล�งข้�อม�ลภายู่นอกองคื"กร2. Information access layer เป&นส�วนที่��ผู้��ใช้�ปลายู่ที่างติ�ดติ�อผู้�านโดยู่ติรง ประกอบด�วยู่ฮาร"ดแวร"และซึ่อฟติ"แวร" ที่��ใช้�ในการแสดงผู้ลเพื่��อว�เคืราะห้" โดยู่ม�เคืร��องม�อช้�วยู่ เป&นติ�วกลางที่��ผู้��ใช้�ใช้�ติ�ดติ�อก�บคืล�งข้�อม�ล 3. Data access layer เป&นส�วนติ�อประสานระห้ว�าง Information

access layer ก�บ operational layer

4. Metadata layer เพื่��อให้�เข้�าใจัถ1งข้�อม�ลได�ง�ายู่ข้15น และเป&นการเพื่��มคืวามเร�วในการเร�ยู่กและด1งข้�อม�ลข้องคืล�งข้�อม�ล

5. Process management layer ที่0าห้น�าที่��จั�ดการกระบวนการที่0างานที่�5งห้มด

6. Application messaging layer เป&นม�ดเด�ลแวร" ที่0าห้น�าที่��ในการส�งข้�อม�ลภายู่ในองคื"กรผู้�านที่างเคืร�อข้�ายู่

7. Data warehouse (physical) layer เป&นแห้ล�งเก�บข้�อม�ลข้องที่าง information data และ external data ในร�ปแบบที่��ง�ายู่แก�การเข้�าถ1งและยู่�ดห้ยู่6�นได�

Page 4: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

8. Data staging layer เป&นกระบวนการการแก�ไข้ และด1งข้�อม�ลจัาก external database

Design Data Warehouse

1. Star schema เป&นเที่คืน�คืที่��ใช้� multidimensional model

โดยู่ data warehouse จัะม�ติ� 5งแติ� 1 star schema ข้15นไป star

schema จัะม�ล�กษณะที่��ม� fact table อยู่��ติรงกลางล�อมรอบด�วยู่ห้ลายู่ ๆ dimension table ที่��เก�บรายู่ละเอ�ยู่ดข้อง fact ที่��ไม�ใช้� normalized center

Star Schema ว�ธิ�น�5จัะช้�วยู่เพื่��มคืวามสามารถในการ query โดยู่ลดประมาณ data ที่�� อ�านจัาก disk การว�เคืราะห้"การ queries ข้�อม�ลใน dimension table ที่��เล�กจัะใช้� dimension key จัาก index ใน central fact table เป&นการลดจั0านวนข้�อม�ลที่��ติ�องติรวจัสอบ ซึ่1�งม�ข้�อด�คื�อ ม�จั0านวนข้องติารางน�อยู่ ,สร�าง query ง�ายู่ และเร�ว

2. Snowflake schema ม�คืวามแติกติ�างจัาก Star schema

ติรงที่�� dimension table จัะเก�บข้�อม�ลจัะเก�บข้�อม�ลที่��อยู่��ในร�ป normal

form จัาก star schema เราอาจัจัะเก�ดป:ญห้าในการ design ได� snowflake จั1งเก�ดข้15นมาเน��องจัากป:จัจั�ยู่ด�งน�5

สภาวะที่างธิ6รก�จั การ design ไม�สามารถ implement โดยู่ใช้� star

schema

Snowflake Schema จัะใช้�ในที่างธิ6รก�จั แติ�จัะไม�แนะน0าให้�เล�อกว�ธิ�น�5 เน��องจัากว�ธิ� น�5ม�คืวามยู่6�งยู่ากในการด�แล การเก�บข้�อม�ลผู้��ใช้�ระบบไม�สามารถร� �ได�ว�าข้�อม�ลอยู่��ที่�� ไห้น อ�กที่�5งการเข้�าถ1งข้�อม�ลยู่�งช้�าอ�กด�วยู่

การ้วิ�เคร้าะห่�ข้�อมูลัในิคลั�งข้�อมูลั1. Query and Report Generator2. Multidimensional Data Analysis3. Online Analysis Processing (OLAP) กระบวนการประมวลผู้ลข้�อม�ลที่างคือมพื่�วเติอร" ที่��ช้�วยู่ให้�ว�เคืราะห้"ข้�อม�ลในม�ติ�ติ�างๆ (Multidimensional Data Analysis)

การด0าเน�นการก�บ OLAP

Page 5: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

1. Roll up / Consolidation การปร�บระด�บคืวามละเอ�ยู่ดข้องข้�อม�ล จัากระด�บที่��ละเอ�ยู่ดข้15น...มาส��ที่��..ห้ยู่าบข้15น

2. Drill Down การปร�บระด�บคืวามละเอ�ยู่ดข้องข้�อม�ล จัากระด�บที่��ห้ยู่าบ...ไปส��ที่��.. ละเอ�ยู่ดมากข้15น

3. Slice การเล�อกพื่�จัารณาผู้ลล�พื่ธิ"บางส�วนที่��เราสนใจั โดยู่เล�อกเฉพื่าะคื�าที่��ถ�กก0าก�บด�วยู่ข้�อม�ลบาง

คื�าข้องแติ�ละม�ติ�เที่�าน�5น4. Dice กระบวนการพื่ล�กแกนห้ร�อม�ติ�ข้องข้�อม�ล ให้�ติรงติามคืวาม

ติ�องการข้องผู้��ใช้�งาน 4. Data Mining Tools

ข้�อเส�ยู่คืล�งข้�อม�ล1. ข้�5นติอนการกล��นกรองและโห้ลดข้�อม�ลเข้�าส��คืล�งข้�อม�ลใช้�เวลานาน และติ�องอาศู�ยู่ผู้��ที่��ม�คืวามช้0านาญ 2. แนวโน�มคืวามติ�องการข้�อม�ลม�มากข้15นเร��อยู่ ๆ 3. ใช้�เวลานานในการพื่�ฒนาคืล�งข้�อม�ล4. ระบบคืล�งข้�อม�ลม�คืวามซึ่�บซึ่�อนส�ง

Data Warehouse Service โดยู่ Service ข้อง Data

Warehouse จัะม�คืวามสามารถในการสร�างและจั�ดส�งคื�าห้ร�อข้�อม�ล เพื่��อที่0าให้�ได�มาซึ่1�งข้�อม�ลห้ร�อรายู่งานส0าห้ร�บสน�บสน6นการติ�ดส�นใจั

Service แบ�งออกเป&น 2 ประเภที่ คื�อ 1. Service ที่��ที่0าห้น�าที่��จั�ดเก�บข้�อม�ลห้ร�อด�แลเน�5อที่��ในการจั�ดเก�บ (Data

staging service)2. Service ที่��ที่0าห้น�าที่��ในการเข้�าถ1งข้�อม�ล (Query service)

การ้ Service มู(ด�งนิ()1. Service Oriented Architecture (SOA) จัะช้�วยู่เพื่��ม

ประส�ที่ธิ�ภาพื่ในการแก�ไข้ป:ญห้าที่��เก�ดข้15นจัากระบบห้ร�อ application

โดยู่ม�การจั�ดส�ง Service ไปยู่�งผู้��ใช้� application และ Service

อ��นๆ ซึ่1�ง SOA เป&นแนวที่างมาติรฐานในการน0าเสนอและโติ�ติอบระห้ว�างผู้��ใช้�ก�บ software โดยู่ใช้� Service เป&นติ�วข้�บเคืล��อน ซึ่1�ง SOA จัะติ�องม�การลงที่ะเบ�ยู่นข้อง Service ส0าห้ร�บการเข้�าถ1งข้�อม�ลในแติ�ละช้6ด

Page 6: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

2. Information as a Service เป&นองคื"ประกอบที่��ส0าคื�ญและเป&นติ�วข้�บเคืล��อน SOA ให้�ม6�งส��เป?าห้มายู่ที่��วางไว� การส�งผู้�านข้�อม�ลจัาก application โดยู่ใช้� Service สามารถคืวบคื6มการร�บ-ส�งข้�อม�ล และสามารถ Service ข้�อม�ลข้�ามระบบได� แติ�ติ�องคื0าน1งถ1ง Mapping,

Business, Rule, Security Information และล�กษณะข้องข้�อม�ลด�วยู่

3. BI Service Contracts เป&นพื่�5นฐานข้อง Service ส0าห้ร�บรองร�บการเพื่��มข้15นข้องข้�อม�ลจัากแห้ล�งข้�อม�ลที่��ได�ร�บอน6ญาติห้ร�อม�คืวามน�าเช้��อถ�อ รองร�บการประมวลผู้ลข้�อม�ลที่��ม�ปร�มาณมากๆ โดยู่ Service จัะที่0าห้น�าที่��ในการจั�ดเติร�ยู่มข้�อม�ลติามที่��ผู้��ใช้�ร�องข้อ แติ�ป:ญห้าข้องการ Service น�5 คื�อ ป:ญห้าด�าน Net Work Brandwidth

Data Warehouse Object

การ้ปร้ะย�กติ�ใช้� Data Warehouse แลั�วิมู�นิ Failed

เห้ติ6ผู้ลที่��ที่0าให้�คืล�งข้�อม�ลเก�ดข้�อผู้�ดพื่ลาดส�วนว�ธิ�แก�ก�ใช้�แนวที่างติรงข้�ามก�น- ผู้��จั�ดการระด�บส�งไม�ม�เวลาที่6�มเที่ให้�โคืรงการ - การไม�ใส�ใจัห้ร�อวางแผู้นไม�เพื่�ยู่งพื่อ - การไม�ม�คืวามช้0านาญภายู่ในห้ร�อผู้�านผู้��ให้�บร�การ - การติ�ราคืาข้องที่ร�พื่ยู่ากรที่��ติ�องการส0าห้ร�บเคืร��องม�อติ0�าไป - การเพื่�กเฉยู่เพื่��อกระที่0าการว�เคืราะห้"ราคืารวมข้องกรรมส�ที่ธิ�@- เที่คืโนโลยู่�ผู้�ดพื่ลาด - คืวามสนใจัข้�อม�ลที่��ไม�เพื่�ยู่งพื่อ- คืวามสามารถติ0�า

Data Mining

Data Mining ห่ร้!อ เห่มู!องข้�อมูลั คื�อ เป&นกระบวนการแยู่กข้�อม�ล (Extract Data) จัากฐานข้�อม�ลข้นาดให้ญ�เพื่��อให้�ได�ข้�อม�ลที่��เก�ดประโยู่ช้น"ออกมาโดยู่เป&นข้�อม�ลที่��ม�เห้ติ6ผู้ลและห้ล�กฐานที่��เช้��อถ�อได�

Data Mining สามารถที่0าอะไรได�บ�าง สามารถน0าไปประยู่6กติ"ใช้�

Page 7: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

ด�านการแพื่ที่ยู่" : ใช้� Data Mining คื�นห้าผู้ลข้�างเคื�ยู่งข้องการใช้�ยู่า โดยู่อาศู�ยู่ข้�อม�ลจัากประว�ติ�ผู้��ปAวยู่ ใช้�ในการว�เคืราะห้"ห้าคืวามส�มพื่�นธิ"ข้องสารพื่�นธิ6กรรมด�านการเง�นการธินาคืาร : ใช้� Data Mining ติ�ดส�นว�าคืวรจัะอน6ม�ติ�เคืรด�ติให้�ล�กคื�ารายู่ใดบ�าง ใช้�ในการคืาดการณ"ว�าธิ6รก�จัจัะม�โอกาสล�มละลายู่ห้ร�อไม� ด�านการเกษติร : ใช้�จั0าแนกประเภที่ข้องโรคืพื่�ช้ที่��เก�ดก�บถ��วเห้ล�องและมะเข้�อเที่ศูด�านว�ศูวกรรม : ใช้�ว�เคืราะห้"และว�น�จัฉ�ยู่สาเห้ติ6การที่0างานผู้�ดพื่ลาดข้องเคืร��องจั�กรกลด�านอาช้ญว�ที่ยู่า : ใช้�ว�เคืราะห้"ห้าเจั�าข้องลายู่น�5วม�อการว�เคืราะห้"ผู้ล�ติภ�ณฑ์" : ใช้�ว�เคืราะห้"ข้�อม�ลผู้ล�ติภ�ณฑ์"ที่�5งห้มดไม�ว�าจัะเป&นล�กษณะ ราคืา การที่0านายู่ราคืาข้องผู้ล�ติภ�ณฑ์"ติ�วอ��นๆด�านการข้ายู่ : ใช้�ว�เคืราะห้"ในการข้ายู่ส�นคื�าให้�ได�มากข้15นการว�เคืราะห้"ล�กคื�า : ช้�วยู่ที่0านายู่ว�าล�กคื�าคืนใดจัะเล�กใช้�บร�การภายู่ใน 6 เด�อนห้น�า แบ�งกล6�มเป?าห้มายู่ล�กคื�าก�จัการโที่รคืมนาคืม : ติรวจัสอบคืาบเวลาที่��ใช้� จั6ดห้มายู่ปลายู่ที่าง คืวามถ��ที่��ใช้� และคืาดการณ"ข้�อบกพื่ร�องที่��เป&นไปได�ในการช้0าระเง�นธิ6รก�จัคื�าปล�ก : ใช้�ว�เคืราะห้"กลยู่6ที่ธิ"ให้�เป&นที่��สนใจัข้องผู้��บร�โภคืในร�ปแบบติ�างๆ

การ้ทำ+างานิข้อง Data Mining

1. การจั�ดห้มวดห้ม��/แบ�งช้�5น (Classification)

2. การประเม�นคื�า (Estimation)

3. การที่0านายู่ล�วงห้น�า (Prediction)

4. การจั�ดกล6�มโดยู่อาศู�ยู่คืวามใกล�ช้�ด (Affinity Group)

5. การรวมติ�ว (Clustering)

6. การบรรยู่ายู่ (Description)

การที่0า Database Segmentation อาจัใช้� K-Mean Algorithms

ห้ร�ออาจัใช้� Unsupervised Learning Neural Network เช้�น โมเดล Kohonen Neural Net ถ�าเป&นการที่0า Predictive Modeling อาจัใช้� cart (Classification and Regression tree) ห้ร�ออาจัใช้� Supervised Learning Neural Network เช้�น Backpropagation Neural Net ถ�าเป&นการที่0า Link Analysis ม�

Page 8: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

การที่0าอยู่�� 2 ล�กษณะคื�อ Assosication Rule Discovery และ Sequential Pattern Discovery อาจัใช้� Apriori Algorithms

องคื"ประกอบการที่0างานข้อง Data Mining????????

เทำคนิ�คการ้ทำ+าเห่มู!องข้�อมูลั1. Classification & Prediction : เที่คืน�คืในการจั0าแนกกล6�มข้�อม�ลด�วยู่คื6ณล�กษณะติ�างๆที่��ได�ม�การก0าห้นดไว�แล�ว สร�างแบบจั0าลองเพื่��อการพื่ยู่ากรณ"คื�าข้�อม�ล (Predictive Model) ในอนาคืติ เร�ยู่กว�า ......Supervised Learning ม� 2 ร�ปแบบ

• Classification เป&นกระบวนการสร�างโมเดลจั�ดการข้�อม�ลให้�อยู่��ในกล6�มที่��ก0าห้นดไ เช้�น จั�ดกล6�มน�กเร�ยู่นว�า ด�มาก ด� ปานกลาง ไม�ด� กะบวนการ Classification แบ�งออกเป&น 3 ข้�5นติอน1. Model Construction (Learning) เป&นข้�5นการสร�างโมเดลโดยู่การเร�ยู่นร� �จัากข้�อม�ลที่��ได�ก0าห้นดไว�เร�ยู่บร�อยู่ (Training data) ซึ่1�งโมเดลที่��ได�จัะแสดงในร�ปข้อง

1.1 Decistion Tree เป&นว�ธิ�การห้น1�งที่��ส0าคื�ญในเที่คืน�คืน�5 ซึ่1�งจัะม�ล�กษณะเป&น Flow Chart เห้ม�อนโคืรงสร�างติ�นไม�ที่��แติ�ละโห้นดแสดงคื6ณล�กษณะ(attribute) ที่��ใช้�ที่ดสอบข้�อม�ลแติ�ละก��งแสดงผู้ลในการที่ดสอบและล�ฟโห้นด (leaf node) แสดงกล6�มห้ร�อ class ที่��ก0าห้นดไว� ซึ่1�ง decision tree น�5ง�ายู่ติ�อการเปล��ยู่นเป&น Classification Rules

1.2 Neural Network ใช้�ในการคื0านวณคื�าฟ:งช้��นจัากกล6�มข้�อม�ล เป&นว�ธิ�การเร�ยู่นร� �จัากติ�วอยู่�างติ�นแบบแล�วฝึDกให้�ระบบได�ร� �จั�กที่��จัะคื�ดแก�ป:ญห้าที่��กว�างข้15น ประกอบด�วยู่โห้นด input output และการประมวลผู้ลผู้�านโห้นดติ�างๆใน input layer, output layer, hidden layer

Page 9: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

2. Model Evaluation เป&นข้�5นประมาณคืวามถ�กติ�องโดยู่อาศู�ยู่ข้�อม�ลที่��ใช้�ที่ดสอบ(Testing data)

3. Model Usage เป&นโมเดลส0าห้ร�บใช้�ข้�อม�ลที่��ไม�เคืยู่เห้�นมาก�อน (unseen data) โดยู่จัะก0านดคืลาสให้�ก�บออบเจัคืให้ม�ที่��ได�มาห้ร�อที่0านายู่คื�าออกมาติามที่��ติ�องการ

• Prediction การที่0านายู่ห้าคื�าที่��ติ�องการจัากข้�อม�ลที่��ม�อยู่�� เช้�น ห้ายู่อดข้ายู่ข้องเด�อนถ�ดไปจัากข้�อม�ลที่��ม�อยู่��

2. Database Clustering or Segmentation : เที่คืน�คืในการจั0าแนกกล6�มข้�อม�ลให้ม�ที่��ม�ล�กษณะคืล�ายู่ก�นไว�กล6�มเด�ยู่วก�น โดยู่ไม�ม�การจั�ดกล6�มข้�อม�ลติ�วอยู่�างไว�ล�วงห้น�า เร�ยู่กว�า .......Unsupervised

Learning เช้�น บร�ษ�ที่จั0าห้น�ายู่รถยู่นติ"ได�แยู่กข้�อม�ลกล6�มล�กคื�าออกเป&น 3

กล6�ม คื�อ กล6�มผู้��ม�รายู่ได�ส�ง (80,000) กล6�มผู้��ม�รายู่ได�ปานกลาง (25,000-80,000) กล6�มผู้��ม�รายู่ได�ติ0�า (น�อยู่กว�า 25,000)

3. Association rule Discovery : เที่คืน�คืในการคื�นพื่บองคื"คืวามร� �ให้ม� ด�วยู่การเช้��อมโยู่งกล6�มข้องข้�อม�ลที่��เก�ดข้15นในเห้ติ6การณ"เด�ยู่วก�นไว�ด�วยู่ก�น การคื�นห้าคืวามส�มพื่�นธิ"ข้องข้�อม�ลจัากข้�อม�ลข้นาดให้ญ�ที่��ม� เพื่��อน0าไปว�เคืราะห้" ห้ร�อ ที่0านายู่ เช้�น การว�เคืราะห้"การซึ่�5อส�นคื�าข้องล�กคื�า4. Deviation Detection : เที่คืน�คืที่��ใช้�ในการห้าคื�าคืวามแติกติ�างไปจัากมาติรฐาน ห้ร�อคื�าที่��คืาดคื�ดไว�ว�าติ�างไปมากน�อยู่เพื่�ยู่งใด โดยู่ที่��วไปม�กใช้�ว�ธิ�ที่างสถ�ติ�ห้ร�อการแสดงให้�เห้�นภาพื่ (Visualization) เช้�น การติรวจัสอบลายู่เซึ่�นปลอม การติรวจับ�ติรเคืรด�ติปลอม การห้าจั6ดบกพื่ร�องข้องช้�5นงานในโรงงานอ6ติสาห้กรรม5. Link Analysis : จั6ดม6�งห้มายู่ข้อง Link Analysis ก�คื�อ การสร�าง Link ที่��เร�ยู่กว�า “associations” ระห้ว�าง Record เด�ยู่ว ห้ร�อกล6�มข้อง Record ในฐานข้�อม�ล Link Analysis สามารถแบ�งได� 3 ช้น�ด

- associations Discovery- sequential pattern discovery- similar time sequence discovery

ปร้ะโยช้นิ�ข้องเห่มู!องข้�อมูลั1. คื�นห้าข้�อม�ลโดยู่อาศู�ยู่เที่คืโนโลยู่�ข้องเห้ม�องข้�อม�ล2. ใช้�สถาป:ติยู่กรรมแบบ Client/Server

3. ผู้��ใช้�ระบบไม�จั0าเป&นติ�องที่�กษะในการเข้�ยู่นโปรแกรม

Page 10: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

4. ผู้��ใช้�ติ�องก0าห้นดข้อบเข้ติและเป?าห้มายู่ข้องระบบให้�ช้�ดเจัน เพื่��อคืวามรวดเร�วและถ�กติ�องติามคืวามติ�องการ5. การประมวลผู้ลแบบข้นานจัะช้�วยู่เพื่��มประส�ที่ธิ�ภาพื่และคืวามเร�วในการคื�นห้าข้�อม�ล

การ้ปร้ะย�กติ� web mining เพ!,อการ้บิร้�การ้ web

1. การรวมข้�อม�ลติ�วอ�กษรเข้�าก�บข้�อม�ล links บน web เพื่��อสร6ปห้า web

page ที่��จั0าเป&นจัะติ�องได�ร�บอน6ญาติจั1งจัะเข้�าใช้�ได�ภายู่ในห้�วข้�อที่��ก0าห้นด2. การผู้สมข้�อม�ลที่��เก��ยู่วก�บล�กษณะการใช้� ช้�วงระยู่ะเวลาและ link ที่��ม�ผู้��

เข้�าใช้�บร�การ web เพื่��อน0ามาพื่�จัารณาปร�บปร6งการให้�บร�การ3. การน0าข้�อม�ลช้น�ดติ�วอ�กษร และข้�อม�ลข้องร�ปภาพื่ มาผู้สมผู้สานก�นเพื่��อ

ประโยู่ช้น"ในการคื�นห้าข้อง search engines ในกรณ�ที่��ติ�องการคื�นห้าข้�อม�ลที่��เป&นร�ปภาพื่

(web mining ก�บการที่0าธิ6รก�จั e-commerce web mining ก�บการติลาดบนอ�นเที่อร"เน�ติ)

OLAP ยู่�อมาจัาก Online Analytical Processing คื�อ เที่คืโนโลยู่�ที่��ใช้�ข้�อม�ลจัากคืล�งข้�อม�ลเพื่��อใช้�ในการว�เคืราะห้"และติ�ดส�นใจัที่างธิ6รก�จัอยู่�างม�ประส�ที่ธิ�ภาพื่ แก�ป:ญห้าที่��ม�คืวามซึ่�บซึ่�อนโดยู่ใช้�เวลาระยู่ะส�5น ระบบจัะติ�องที่0างานได�รวดเร�ว สามารถคื�นห้าข้�อม�ลจัากฐานข้�อม�ลข้นาดให้ญ�มาคื0านวณได�อยู่�างคืรบถ�วนไม�ติกห้ล�น

Data Mining แลัะ Data Warehouse

ส��งส0าคื�ญที่��จัะติ�องที่0าในการที่0า Data Mining ก�คื�อ การก0าห้นดข้�อม�ลที่��เห้มาะสมในการ mining ด�งน�5น Data mining จั1งติ�องการแห้ล�งข้�อม�ลที่��ม�การจั�ดเก�บและรวบรวมข้�อม�ลไว�อยู่�างด�และม�คืวามม��นคืง

เห้ติ6ผู้ลที่��ติ�องม� Data warehouse ที่��ม�การจั�ดเก�บข้�อม�ลที่��ด�ส0าห้ร�บเติร�ยู่มข้�อม�ลเพื่��อที่0าการ mining ก�คื�อ

- Data warehouse จัะที่0าการจั�ดเก�บข้�อม�ลที่��ม�คืวามม��นคืงและข้�อม�ลที่��ได�ที่0าคืวามสะอาดแล�ว ซึ่1�งการจั�ดเติร�ยู่มและรวบรวมข้�อม�ลเป&นส��งที่��จั0าเป&นส0าห้ร�บการ mining ที่��ติ�องการคืวามแน�ใจัในคืวามแม�นยู่0าข้อง predictive models

- Data warehouse จัะเป&นประโยู่ช้น"ส0าห้ร�บการ mining

ข้�อม�ลจัากแห้ล�งข้�อม�ลห้ลายู่ๆแห้ล�งที่��คื�นพื่บมากมายู่เที่�าที่��จัะ

Page 11: สรุปข้อสอบ คลังข้อมูล เหมืองข้อมูล

เป&นไปได� ซึ่1�ง Data warehouse จัะบรรจั6ข้�อม�ลจัากแห้ล�งข้�อม�ลเห้ล�าน�5น

- ในการเล�อกส�วนยู่�อยู่ๆข้อง record และ fields ที่��ติรงประเด�น Data mining จัะติ�องการคืวามสามรถในการ query ข้�อม�ลข้อง Data warehouse

- การศู1กษาผู้ลที่��ได�จัากการที่0า Data mining จัะเป&นประโยู่ช้น"อยู่�างมาก ถ�าห้ากม�การส�บคื�นข้�อม�ลอยู่�างม�แบบแผู้นติ�อไปในอนาคืติ ซึ่1�ง Data warehouse จัะเป&นแห้ล�งจั�ดเก�บข้�อม�ลภายู่ห้ล�งไว�ให้�

ปกติ�แล�ว Data mining และ Data warehouse จัะเป&นส��งคื��ก�น ผู้��ข้ายู่จั0านวนมากจั1งห้าว�ธิ�ที่��จัะน0าเที่คืโนโลยู่� Data mining และ Data

warehouse มารวมก�น

Difference Analysis Data Mining????????


Top Related