แนะนำการทำเหมืองข้อมูล ( data mining )...
Post on 21-Jan-2016
128 Views
Preview:
DESCRIPTION
TRANSCRIPT
แนะน��ก�รทำ��เหมื�องข้�อมื�ล(Data Mining)ด้�วยซอฟต์�แวร�ว�ก�� (WEKA)
Part 2 : Preprocess
Agenda
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
ARFF
ไฟล� (File)
ARFF = Attribute-Relation File Format ส่�วนประกอบ
@relation name บอกชื่ �อตารางข้�อมู�ลเชื่�งส่�มูพั�นธ์�@attribute บอกชื่ �อล�กษณะประจำ าและชื่น�ด@data เป#นข้�อมู�ลแถวละหน&�งระเบ'ยนคั่��นด�วย
เคั่ร �องหมูายคั่อมูมูา
ARFFแฟ�มืข้�อมื�ลประเภทำ ARFFแฟ�มืข้�อมื�ลประเภทำ ARFF
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
ไฟล� (File)
ARFFก�รเต์ร�ยมืแฟ�มืข้�อมื�ลประเภทำ Arffก�รเต์ร�ยมืแฟ�มืข้�อมื�ลประเภทำ Arff ใชื่�โปรแกรมูในการส่ร�าง text file ใดก,ได� เชื่�น notepad บรรทั�ดแรกให�ใส่�ชื่ �อตารางข้�อมู�ลเชื่�งส่�มูพั�นธ์�
@relation weather บรรทั�ดต�อมูาให�ใส่�แอทัทัร�บ�วทั�เร'ยงตามูล าด�บ
@attribute outlook {sunny, overcast, rainy}@attribute temperature real@attribute windy {TRUE, FALSE}
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
ไฟล� (File)
ARFFก�รเต์ร�ยมืแฟ�มืข้�อมื�ลประเภทำ Arffก�รเต์ร�ยมืแฟ�มืข้�อมื�ลประเภทำ Arff
ใส่�ข้�อมู�ลเร'ยงตามูล าด�บข้องแอทัทัร�บ�วทั�@datasunny,85, FALSEsunny,80, TRUEovercast,83, FALSE
เซฟไฟล�เป#นนามูส่ก1ล .arffwether.arff
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
ไฟล� (File)
ARFFต์"วอย#�งแฟ�มืข้�อมื�ลประเภทำ Arffต์"วอย#�งแฟ�มืข้�อมื�ลประเภทำ Arff
@relation weather
@attribute outlook {sunny, overcast, rainy}@attribute temperature real@attribute humidity real@attribute windy {TRUE, FALSE}@attribute play {yes, no}
@datasunny,85, FALSEsunny,80, TRUEovercast,83, FALSE
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล ไฟล� (File)
CSV = Comma-separated values มู'ข้�อมู�ลเป#นร�ปแบบข้องตารางฐานข้�อมู�ล น ามูาใชื่�ในการถ�ายโอนข้�อมู�ลจำากโปรแกรมูฐาน
ข้�อมู�ลเป#นส่เปรดชื่'ทั (spreadsheet)
แฟ�มืข้�อมื�ลประเภทำ CSVแฟ�มืข้�อมื�ลประเภทำ CSV
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล ไฟล� (File)
ก�รเต์ร�ยมืแฟ�มืข้�อมื�ลประเภทำ CSVก�รเต์ร�ยมืแฟ�มืข้�อมื�ลประเภทำ CSV
ใชื่�โปรแกรมูในการส่ร�าง table file ใดก,ได� เชื่�น excel ใส่�ห�วข้�อลงในแถวแรกข้องตาราง
บรรทั�ดต�อมูาให�ใส่�ข้�อมู�ลตามูห�วข้�อทั'�ก าหนด
เซฟไฟล�เป#นนามูส่ก1ล .csvstudent.csv
ไฟล� (File)
ต์"วอย#�งแฟ�มืข้�อมื�ลประเภทำ CSVต์"วอย#�งแฟ�มืข้�อมื�ลประเภทำ CSV
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
อ�นเทำอร�เน$ต์ (Internet) กรณ'แฟ3มูข้�อมู�ลอย��ในเคั่ร อข้�ายผู้��ใชื่�ส่ามูารถเร'ยกใชื่�โดยอาศั�ย URL กดป16มู ใส่� URL ทั'�เก,บข้�อมู�ลข้องไฟล�ทั'�ต�องการ
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
ฐ�นข้�อมื�ล (Database)
กรณ'แฟ3มูข้�อมู�ลเก,บอย��ในฐานข้�อมู�ล เชื่ �อมูโยงผู้�าน JDBC
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
ฐ�นข้�อมื�ล (Database)
ก�รเชื่�'อมืต์#อฐ�นข้�อมื�ล MySQL ก"บ WEKAก�รเชื่�'อมืต์#อฐ�นข้�อมื�ล MySQL ก"บ WEKA
ข้")นต์อนก�รต์�ด้ต์#อฐ�นข้�อมื�ล1. คั่ล�กป16มู Open DB จำะปรากฏหน�าต�าง SQL-
Viwer1
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
ฐ�นข้�อมื�ล (Database)
ก�รเชื่�'อมืต์#อฐ�นข้�อมื�ล MySQL ก"บ WEKAก�รเชื่�'อมืต์#อฐ�นข้�อมื�ล MySQL ก"บ WEKA
ข้")นต์อนก�รต์�ด้ต์#อฐ�นข้�อมื�ล2. ระบ1ฐานข้�อมู�ลจำากน�8นคั่ล�กป16มู User เพั �อล,อคั่
อ�นเข้�าฐานข้�อมู�ล2 3
4
5
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
ฐ�นข้�อมื�ล (Database)
ก�รเชื่�'อมืต์#อฐ�นข้�อมื�ล MySQL ก"บ WEKAก�รเชื่�'อมืต์#อฐ�นข้�อมื�ล MySQL ก"บ WEKA
ข้")นต์อนก�รต์�ด้ต์#อฐ�นข้�อมื�ล3. Click ทั'�ป16มู Connect เพั �อทั าการเชื่ �อมูต�อก�บ
ฐานข้�อมู�ล
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
6
ก�รสร��งข้�อมื�ลจำ��ลอง (Generate Data) ว�ธ์'การส่ร�างข้�อมู�ลข้&8นเองด�วยฟ9งก�ชื่�น Generate Data กระบวนการ Generate
Classifiers• Classification• Regresstion
Cluseterers
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
ก�รสร��งข้�อมื�ลจำ��ลอง (Generate Data)
ว�ธี�ก�รจำ��ลองข้�อมื�ลว�ธี�ก�รจำ��ลองข้�อมื�ล1. คั่ล�กป16มู Generate จำะปรากฏหน�าต�าง Data
Generate1
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
ก�รสร��งข้�อมื�ลจำ��ลอง (Generate Data)
ว�ธี�ก�รจำ��ลองข้�อมื�ลว�ธี�ก�รจำ��ลองข้�อมื�ล2. คั่ล�กป16มู Choose
เพั �อเล อกกระบวนการทั'�จำะจำ าลอง
ข้�อมู�ล3. หล�งจำากเล อกเส่ร,จำ
กดป16มู Generate โปรแกรมูก,
จำะจำ าลองข้�อมู�ลทั'�เล อกข้&8นมูาให�4. ส่ามูารถแก�ไข้ข้�อมู�ล
ได�ทั'�ป16มู Edit5. ส่ามูารถบ�นทั&กข้�อมู�ล
จำ าลองได�ทั'�ป16มู Save
23
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
ก�รสร��งข้�อมื�ลจำ��ลอง (Generate Data)
ว�ธี�ก�รจำ��ลองข้�อมื�ลว�ธี�ก�รจำ��ลองข้�อมื�ล
4. ส่ามูารถแก�ไข้ข้�อมู�ลได�ทั'�ป16มู Edit
5. ส่ามูารถบ�นทั&กข้�อมู�ลจำ าลองได�ทั'�
ป16มู Save
ว�ธี�ก�รน��เข้��ข้�อมื�ล ว�ธี�ก�รน��เข้��ข้�อมื�ล
แฟ�มื weather.arff แฟ�มื weather.arff
ก�รแสด้งผลข้�อมื�ล ก�รแสด้งผลข้�อมื�ล
12
3
4
ส#วนประกอบทำ�'ส��คั"ญ
1. Current Relation
2. Attributes3. Selected
attributes4. Visualize
ก�รอ#�นผลล"พธี� ก�รอ#�นผลล"พธี�
ก�รแสด้งผลข้�อมื�ล ก�รแสด้งผลข้�อมื�ล
• ข้�อมู�ลทั'�ก าล�งว�เคั่ราะห�คั่ อ weather• จำ านวนแอทัทัร�บ�วทั�ทั'�มู'ทั� 8งหมูด 5 ต�วเร'ยงตามูล าด�บด�งน'8
outlook, temperature, humidity, windy, play• มู'จำ านวนระเบ'ยนทั�8งหมูด 14 ระเบ'ยน• ส่ าหร�บแอทัทัร�บ�วทั� outlook
– เป#นแอทัทัร�บ�วทั�ประเภทั Nominal– ไมู�มู'ข้�อมู�ลในระเบ'ยนทั'�ข้าดหายไป– มู'คั่�าทั'�แตกต�างก�นทั�8งหมูด 3 คั่�า– แต�ละคั่�าไมู�มู'เพั'ยงคั่�าเด'ยวเลย
ก�รอ#�นผลล"พธี� ก�รอ#�นผลล"พธี�
ก�รแสด้งผลข้�อมื�ล ก�รแสด้งผลข้�อมื�ล
• คั่�าข้องแอทัร�บ�วทั� (Attribute value) คั่ อ– sunny มู' 5 ระเบ'ยน– overcast มู' 4 ระเบ'ยน– rainy มู' 5 ระเบ'ยน
แอทำทำร�บ�วทำ�>> temperature แอทำทำร�บ�วทำ�>> temperature
ก�รแสด้งผลข้�อมื�ล ก�รแสด้งผลข้�อมื�ล
แอทำทำร�บ�วทำ�อ�'นๆ >> humidity แอทำทำร�บ�วทำ�อ�'นๆ >> humidity
ก�รแสด้งผลข้�อมื�ล ก�รแสด้งผลข้�อมื�ล
แอทำทำร�บ�วทำ�อ�'นๆ >> windy แอทำทำร�บ�วทำ�อ�'นๆ >> windy
ก�รแสด้งผลข้�อมื�ล ก�รแสด้งผลข้�อมื�ล
สถิ�ต์�หน2'งต์"วแปร (Univariate Statistic) สถิ�ต์�หน2'งต์"วแปร (Univariate Statistic)
เคัร�'องมื�อทำ�งสถิ�ต์�ในซอฟต์�แวร� WEKA เคัร�'องมื�อทำ�งสถิ�ต์�ในซอฟต์�แวร� WEKA
• เป#นการว�เคั่ราะห�ส่ถ�ต�ทั'�ใชื่�เพั'ยงหน&�งแอทัทัร�บ�วทั� = ต�วแปร ประกอบด�วย– ชื่ �อข้องแอทัทัร�บ�วทั�– ชื่น�ดข้องแอทัทัร�บ�วทั�
• Nominal • Numeric
– จำ านวนข้�อมู�ลทั'�ข้าดหายไปเทั'ยบเป#นเปอร�เซ,นต�ก�บจำ านวนข้�อมู�ลทั�8งหมูด
– คั่�าทั'�แตกต�างก�นทั�8งหมูดในแอทัทัร�บ�วทั�– คั่�าทั'�มู'เพั'ยงคั่�าเด'ยว คั่�ดเป#นเปอร�เซ,นต�เทั'ยบก�บคั่�าทั�8งหมูด
ต์"วอย#�งสถิ�ต์�ทำ�'ส��คั"ญ ต์"วอย#�งสถิ�ต์�ทำ�'ส��คั"ญ
เคัร�'องมื�อทำ�งสถิ�ต์�ในซอฟต์�แวร� WEKA เคัร�'องมื�อทำ�งสถิ�ต์�ในซอฟต์�แวร� WEKA
สถิ�ต์�ข้องแอทำทำร�บ�วทำ� SEXสถิ�ต์�ข้องแอทำทำร�บ�วทำ� SEX
• ชื่ �อแอทัทัร�บ�วทั� SEX• ชื่น�ดข้องคั่�าข้องแอทัทัร�บ�วทั�เป#น
Nominal• ในแอทัทัร�บ�วทั�น'8ไมู�มู'คั่�าทั'�หายไป• คั่�าทั'�แตกต�างก�นมู'เพั'ยงส่องคั่�าคั่ อ M
ก�บ F– คั่�าทั'�เป#น M มู'จำ านวน 5 ต�ว– คั่�าทั'�เป#น F มู'จำ านวน 5 ต�ว– คั่�าทั'�ไมู�ซ 8าไมู�มู'
ต์"วอย#�งสถิ�ต์�ทำ�'ส��คั"ญ ต์"วอย#�งสถิ�ต์�ทำ�'ส��คั"ญ
เคัร�'องมื�อทำ�งสถิ�ต์�ในซอฟต์�แวร� WEKA เคัร�'องมื�อทำ�งสถิ�ต์�ในซอฟต์�แวร� WEKA
สถิ�ต์�ข้องแอทำทำร�บ�วทำ� SCOREสถิ�ต์�ข้องแอทำทำร�บ�วทำ� SCORE• ชื่ �อแอทัทัร�บ�วทั� Score• ชื่น�ดข้องคั่�าข้องแอทัทัร�บ�วทั�เป#น Numeric• ในแอทัทัร�บ�วทั�ไมู�มู'ข้�อมู�ลทั'�ข้าดหายไป• จำ านวนคั่�าทั'�แตกต�างก�นทั�8งหมูดมู' 10 ต�ว• คั่�าแต�ละต�วมู'เพั'ยงหน&�งเด'ยว (ไมูมู'คั่�าทั'�ซ 8าก�น
เลย)– คั่�าต �าส่1ด Minimum = 10 – คั่�าส่�งส่1ด Maximum = 89 – คั่�าเฉล'�ยเลข้คั่ณ�ต Mean = 48.728– ส่�วนเบ'�ยงเบนมูาตรฐาน StdDev =
26.585
กร�ฟหน2'งต์"วแปร กร�ฟหน2'งต์"วแปร
กร�ฟแสด้งคัว�มืส"มืพ"นธี�กร�ฟแสด้งคัว�มืส"มืพ"นธี�
กราฟแทั�ง แส่ดงมู1มูมูองข้องแต�ละล�กษณะประจำ า ส่ามูารถด�ได�ทั� 8งหมูดโดยคั่ล�กป16มู Visualize all
กร�ฟสองต์"วแปร กร�ฟสองต์"วแปร
กร�ฟแสด้งคัว�มืส"มืพ"นธี�กร�ฟแสด้งคัว�มืส"มืพ"นธี�
แส่ดงกราฟระหว�างแอทัทัร�บ�วทั�ส่องล�กษณะแถบ Visualize เร'ยกว�า Scatter plot แต�ละจำ1ดแส่ดงระเบ'ยนหน&�งระเบ'ยน แต�ละแกนแทันคั่�าข้องแอทัทัร�บ�วทั�แต�ละคั่�า ส่'ข้องจำ1ดส่ �อแต�ละคั่ลาส่ทั'�ปรากฎในข้�อมู�ล การแก�ไข้กราฟส่องต�วแปร• ปร�บข้นาดข้องกราฟโดยเปล'�ยน PlotSize• เปล'�ยนข้นาดข้องจำ1ด โดยเปล'�ยน PointSize• กดป16มู Update
กร�ฟสองต์"วแปร กร�ฟสองต์"วแปร
กร�ฟแสด้งคัว�มืส"มืพ"นธี�กร�ฟแสด้งคัว�มืส"มืพ"นธี�
ก�รเร�ยกใชื่�ต์"วกรอง (Filter)ก�รเร�ยกใชื่�ต์"วกรอง (Filter)
ต์"วกรอง (Filter) ต์"วกรอง (Filter)
เป#นโมูด�ลทั'�ทั าหน�าทั'�ระบ1ข้�อมู�ลย�อยข้องระเบ'ยนทั'�จำะถ�กแส่ดง แบ�งออกเป#นส่องล�กษณะ คั่ อ• Supervised
– แปลงข้�อมู�ลแบบอ�ตโนมู�ต�– คั่วบคั่1มูด�วยพัารามู�เตอร�ทั'ผู้��ใชื่�ก าหนด
• Unsupervised– แปลงข้�อมู�ลทั'�ผู้��ใชื่�ก าหนดเอง
ก�รเร�ยกใชื่�ต์"วกรอง (Filter)ก�รเร�ยกใชื่�ต์"วกรอง (Filter)
ต์"วกรอง (Filter) ต์"วกรอง (Filter)
ต์"วกรองแบบอ"ต์โนมื"ต์� (Supervised)ต์"วกรองแบบอ"ต์โนมื"ต์� (Supervised)
• แอทัทัร�บ�วทั� (Attribute)– AttributeSelectio
n – ClassOrder– Discretize– NorminalToBinary
• ล�กษณะระเบ'ยน (Instance)– Resample– SpreadSubsample– StratifiedRemove
Folds
ก�รเร�ยกใชื่�ต์"วกรอง (Filter)ก�รเร�ยกใชื่�ต์"วกรอง (Filter)
ต์"วกรอง (Filter) ต์"วกรอง (Filter)
ต์"วกรองทำ�'ผ��ใชื่�ก��หนด้เอง (Unsupervised)ต์"วกรองทำ�'ผ��ใชื่�ก��หนด้เอง (Unsupervised)
• แอทัทัร�บ�วทั� (Attribute)– Add – Discretize
(unsupervised) – Normalize– NumbericToBinary
• ล�กษณะระเบ'ยน (Instance)– Randomize– RemoveFold– ReplaceMissing
Value– Resample
สร5ปสร5ป ว�ธ์'การน าเข้�าข้�อมู�ล มู' 4 ว�ธ์'• ไฟล�• อ�นเทัอร�เน,ต• ฐานข้�อมู�ล• การส่ร�างข้�อมู�ลจำ าลอง
ประเภทัแฟ3มูข้�อมู�ลทั'�ส่ามูารถใชื่�ได�• แฟ3มูข้�อมู�ลประเภทั ARFF• แฟ3มูข้�อมู�ลประเภทั CSV
สร5ปสร5ป การแส่ดงผู้ลข้�อมู�ล แส่ดงได� 2 แบบ• ข้�อคั่วามู• กราฟ
ต�วกรอง (Filter)• ต�วกรองแบบอ�ตโนมู�ต� (Supervised)• ต�วกรองทั'�ผู้��ใชื่�ก าหนดเอง (Unsupervised)
top related