chapter 2 data
TRANSCRIPT
Chapter 2Data
Repository เป็�นที่��เก็บข้�อมู�ลและ process เพื่��อใช้�งานใน RapidMiner Stodio
6 ที่�าให้�ไมู�ต้�องโห้ลดข้�อมู�ลจาก็ไฟล#ให้มู�ที่$ก็ครั้'(ง
องค#ป็รั้ะก็อบในส่�วน Repositoryส่�วนที่�� 1
ส่�าห้รั้'บส่รั้�าง Repository ให้มู� โห้ลดไฟล#ป็รั้ะเภที่ต้�าง ๆ ส่รั้�างโฟลเดอรั้#ให้มู�
ส่�วนที่�� 2 ข้�อมู�ลและ process Sample ที่�� RapidMiner เต้รั้�ยมูไว�ให้� ข้�อมู�ลที่��เก็บอย��ในแต้�ละ Repository
Data management
1
2
ส่รั้�าง Repository ให้มู� คล.ก็ที่�� เล�อก็ New local repository ก็ดป็$/มู Next
Data management
1 2
3
เป็ล��ยนช้��อ Alias เป็�น RapidMinerTraining คล.ก็ที่�� Use standard location เพื่��อเอาออก็ คล.ก็ที่��ไอคอน Folder เพื่��อเล�อก็ Root directory ให้มู�
Data management
45
6
คล.ก็ที่��ไอคอน เพื่��อส่รั้�างโฟลเดอรั้#ให้มู�
Data management
7
ส่รั้�างโฟลเดอรั้#ช้��อ RapidMinerTraining และก็ดป็$/มู OK ก็ด Finish
Data management
8
910
ไฟล#ป็รั้ะเภที่ CSV ย�อมูาจาก็ Comma Separated Value
ใช้�เครั้��องห้มูาย , (comma) ค'�นรั้ะห้ว�างแอต้ที่รั้.บ.วต้#
CSV File
ID outlookhumidi
ty windy play1 sunny high FALSE no2 sunny high TRUE no
3overca
st normal FALSE yes4 rainy high FALSE yesแถวแรั้ก็ค�อ header
ไฟล# CSV ส่ามูารั้ถ export ได�จาก็ Excel ห้รั้�อ database ต้�าง ๆ Export จาก็ Excel
เล�อก็ File > Save As > CSV (Comma delimited)
CSV File
ก็ารั้โห้ลดไฟล# csv เข้�าไป็ใช้�ใน RapidMiner ที่�าได� 2 แบบ ค�อ 1. ใช้�ก็ารั้ import ในส่�วนข้อง Repositories
โห้ลดมูาเก็บไว�ใน Repository และใช้�งานได�ต้ลอด ถ�าข้�อมู�ลในไฟล# csv มู�ก็ารั้เป็ล��ยนแป็ลง ข้�อมู�ลจะไมู� update ต้�อง
ที่�าก็ารั้โห้ลดให้มู� 2. ใช้�โอเป็อรั้#เรั้เต้อรั้# Read CSV
* โห้ลดเข้�ามูาใช้�งานโดยก็ารั้อ�านจาก็ไฟล# csv ที่$ก็ครั้'(ง เมู��อไฟล#อ'พื่เดที่ ข้�อมู�ลจะเป็ล��ยนต้ามู
Load CSV to RapidMiner
1. ใช้�ก็ารั้ import ในส่�วนข้อง Repositories* คล.ก็ Repositories เล�อก็ Import CSV
File…* เล�อก็ไฟล# .csv * คล.ก็ Next
Import CSV
12
3
4
ในส่�วนข้อง Comma Separation เล�อก็ Comma “,”
Import CSV
5
6
เล�อก็แถวแรั้ก็ให้�เป็�น Name
Import CSV
7
8
เป็ล��ยนแอต้ที่รั้.บ.วต้# play ให้�เป็�น label
Import CSV
9
10
Save ช้��อว�า weater_nominal ไว�ที่�� RapidMinerTraining
Import CSV
11
12 13
ข้�อมู�ลที่��โห้ลดเข้�าไป็แส่ดงรั้�ป็แบบข้องต้ารั้าง
Import CSV
labelattribute
ข้�อมู�ลที่��โห้ลดเข้�าไป็แส่ดงรั้�ป็แบบข้องค�าส่ถ.ต้.
Import CSV
ข้�อมู�ลที่��โห้ลดเข้�าไป็แส่ดงรั้�ป็แบบก็รั้าฟต้�างๆ
Import CSV
ในส่�วนข้อง Operators พื่.มูพื่#ค�าว�า Read CSV ในช้�องค�นห้า
ลาก็ โอเป็อเรั้เต้อรั้# Read CSV มูาไว�ในส่�วน Process และเล�อก็ Import Configuration Wizard…
Read CSV
12
3
4
เล�อก็ไฟล# .csv คล.ก็ Next
Read CSV
5
6
ในส่�วนข้อง Comma Separation เล�อก็ Comma “,”
Read CSV
7
8
เล�อก็แถวแรั้ก็ให้�เป็�น Name
Read CSV
9
10
เป็ล��ยนแอต้ที่รั้.บ.วต้# play ให้�เป็�น label
Read CSV
12
11
เช้��อมูผลจาก็พื่อรั้#ต้ out ข้องโอเป็อเรั้เต้อรั้# Read CSV ไป็ย'งพื่อรั้#ต้ res เพื่��อแส่ดงผล
ก็ดป็$/มู play
Read CSV
13
14
ข้�อมู�ลที่��โห้ลดเข้�าไป็แส่ดงรั้�ป็แบบข้องต้ารั้าง
Read CSV
labelattribute
เข้�ยนข้�อมู�ลลงไฟล# CSV ด�วยโอเป็อเรั้เต้อรั้# Write CSV ใช้�ข้�อมู�ลจาก็ Samples เพื่��อเข้�ยนเป็�นไฟล# CSV
1. Operators --> Write CSV --> ลาก็ไป็ที่�� process 2. Repositories --> Sample --> Data --> iris
--> ลาก็ไป็ที่�� process 3. เช้��อมูเส่�น 4. Paramiter --> Column Separator
เป็ล��ยนจาก็ ; เป็�น , (Comma)
Write CSV
1
2
34
บ'นที่2ก็ไฟล#ช้��อ iris.csv
Write CSV
5 6
ไฟล# iris.csv ที่��ส่รั้�างได�
Write CSV
1. ใช้�ก็ารั้ import ในส่�วนข้อง Repositories โห้ลดมูาเก็บไว�ใน Repository และใช้�งานได�ต้ลอด ถ�าข้�อมู�ลในไฟล# Excel มู�ก็ารั้เป็ล��ยนแป็ลง ข้�อมู�ลจะ
ไมู� update ต้�องที่�าก็ารั้โห้ลดให้มู� 2. ใช้�โอเป็อรั้#เรั้เต้อรั้# Read Excel
* โห้ลดเข้�ามูาใช้�งานโดยก็ารั้อ�านจาก็ไฟล# Excel ที่$ก็ครั้'(ง เมู��อไฟล#อ'พื่เดที่ ข้�อมู�ลจะเป็ล��ยนต้ามู
Load Excel to RapidMiner
ในส่�วนข้อง Repositories เล�อก็ Import Excel Sheet…
เล�อก็ไฟล# .xlsx ห้รั้�อ .xls
Import Excel
12
3
4
เล�อก็ Sheet ที่��ต้�องก็ารั้ Import จาก็ไฟล# Excel
Import Excel
5
6
เล�อก็แถวแรั้ก็ให้�เป็�น Name
Import Excel
7
8
เป็ล��ยนแอต้ที่รั้.บ.วต้# play ให้�เป็�น label
Import Excel
9
10
Save ช้��อว�า weater_excel ไว�ที่�� RapidMinerTraining
Import Excel
11 12
ข้�อมู�ลที่��โห้ลดเข้�าไป็แส่ดงรั้�ป็แบบข้องต้ารั้าง
Import Excel
labelattribute
ใช้�ข้�อมู�ลจาก็ Sample เพื่��อเข้�ยนเป็�นไฟล# Excel 1. Repositories --> Iris --> ลาก็ไป็ที่�� process 2. Operators --> write Excel --> ลาก็ไป็ที่�� process 3. เช้��อมูเส่�น 4. คล.ก็ Write Excel 5. file format --> xls 6. คล.ก็
Write Excel
1
2
3
บ'นที่2ก็ไฟล# ช้��อ iris.xls
Write Excel
7 8
ไฟล# iris.xls ที่��ส่รั้�างได�
Write Excel
โห้ลดไฟล# student.csv ไป็ไว�ใน Repositories ด�วยเมูน� Import CSV File…
เป็ล��ยน Column Separation เป็�น Comma “,”
Data exploration
1
2
เป็ล��ยนป็รั้ะเภที่ข้�อมู�ลข้องแอต้ที่รั้.บ.วต้# Study ให้�เป็�นป็รั้ะเภที่ polynpmail
และบ'นที่2ก็ลงใน Repositories
Data exploration
3
แส่ดงข้�อมู�ลที่��โห้ลดเข้�ามูาได�ห้ลายรั้�ป็แบบ 1. ต้ารั้าง (Data) 2. ค�าส่รั้$ป็ที่างส่ถ.ต้. (Statistics) 3. ก็รั้าฟรั้�ป็แบบต้�างๆ (Charts)
Data exploration
123
แส่ดงข้�อมู�ลในรั้�ป็แบบต้ารั้าง ExampleSet แส่ดงจ�านวนข้�อมู�ลที่'(งห้มูดในไฟล# Filter แส่ดงจ�านวนข้�อมู�ลจาก็ก็ารั้ก็รั้อง (filter) ที่�าได� 5 แบบ
all แส่ดงข้�อมู�ลที่'(งห้มูด (ที่'(งที่��มู�ค�าว�างและไมู�ว�าง) no_missing_attributes แส่ดงเฉพื่าะข้�อมู�ลที่��ไมู�มู�ค�าว�างในแอต้ที่รั้.บ.วต้# missing_attributes แส่ดงเฉพื่าะข้�อมู�ลที่��มู�ค�าว�างในแอต้ที่รั้.บ.วต้# no_missing_label แส่ดงเฉพื่าะข้�อมู�ลที่��ไมู�มู�ค�าว�างในแอต้ที่รั้.บ.วต้#ป็รั้ะเภที่
ลาเบล missing_label แส่ดงเฉพื่าะข้�อมู�ลที่��มู�ค�าว�างในแอต้ที่รั้.บ.วต้#ป็รั้ะเภที่ลาเบล
แส่ดงข้�อมู�ลในแต้�ละแอต้ที่รั้.บ.วต้# คล.ก็ที่��ช้��อแอต้ที่รั้.บ.วต้#จะเป็4นก็ารั้เรั้�ยงล�าด'บ ก็ดป็$/มู Ctrl ค�างไว� และคล.ก็ที่��ช้��อแอต้ที่รั้.บ.วต้#จะเป็�นก็ารั้เรั้�ยงล�าด'บมูาก็ก็ว�า
1 แอต้ที่รั้.บ.วต้#
Data exploration
แส่ดงค�าส่รั้$ป็ที่างส่ถ.ต้. มู�คอล'มูน#ต้�าง ๆ ด'งน�( Name แส่ดงช้��อแอต้ที่รั้.บ.วต้# Type แส่ดงป็รั้ะเภที่ข้องข้�อมู�ลในแต้�ละแอต้ที่รั้.บ.วต้# เช้�น
Integer Miss. จ�านวนข้�อมู�ลที่��มู�ค�าว�าง ค�าที่างส่ถ.ต้.อ��น ๆ เช้�น Min, Max, Average,
Deviation, Least, Most, Value
Data exploration
เล�อก็เมูน� Charts แส่ดงข้�อมู�ลข้องแอต้ที่รั้.บ.วส่# ด�วยก็รั้าฟแที่�ง
Data visualization
เล�อก็เมูน� Charts แส่ดงข้�อมู�ลข้องแอต้ที่รั้.บ.วส่# ด�วยก็รั้าฟ Histogram
Data visualization
เล�อก็เมูน� Charts แส่ดงข้�อมู�ลข้องแอต้ที่รั้.บ.วส่# ด�วยก็รั้าฟวงก็ลมู
Data visualization
เล�อก็เมูน� Charts แส่ดงข้�อมู�ลข้องแอต้ที่รั้.บ.วส่# ด�วยก็รั้าฟก็รั้ะจายต้'ว
Data visualization