metadata - sac.or.th · ต าราโหราศาสตร์...
TRANSCRIPT
1
Metadata
กุญแจสู่การจัดการและค้นคืนข้อมูล
ธันวดี สุขประเสริฐ
นักวิชาการเอกสารสนเทศ ศูนย์มานุษยวิทยาสิรินธร
เมทาดาทา (metadata) หมายถึง “ข้อมูลเกี่ยวกับข้อมูล” เป็นข้อมูลที่ใช้ก ากบัและอธิบายข้อมูลหลัก
หรือกลุ่มข้อมูล อธิบายรายละเอียดของข้อมูลหรือสารสนเทศ สิ่งที่อธิบายอยู่ในเมทาดาทาจะช่วยท าให้ทราบ
รายละเอียดและคุณลักษณะของข้อมูล ถือเป็นระบบส าคัญในการจัดการข้อมูลและจัดการความรู้
แตเ่ดิมนั้นเมทาดาทาถูกใช้ในงานห้องสมุด พบเห็นได้บ่อยในรูปแบบของบัตรรายการส าหรับสืบค้น
หนังสือ แต่เมื่อสารสนเทศได้เปลี่ยนมาสู่รูปแบบดิจิทัล เมทาดาทาท่ีใช้อธิบายข้อมูลจึงต้องเปลี่ยนมาอธิบาย
ข้อมูลดิจิทัลด้วยเช่นกัน
ภาพจาก http://www.wisegeek.org/what-is-a-card-catalog.htm
วัตถุประสงค์หลักของเมทาดาทา คือ เพ่ืออ านวยความสะดวกในการค้นคืนข้อมูลที่สัมพันธ์กัน จัดการ
และจัดระบบให้กับแหล่งข้อมูลอิเลคทรอนิก ระบุเอกสารดิจิทัล และช่วยอนุรักษ์และสงวนรักษาแหล่งข้อมูล
เมทาดาทาช่วยให้สามารถค้นพบสารสนเทศได้จากเงื่อนไขหรือคุณสมบัติที่สัมพันธ์กัน นอกจากนี้ยังมี
ประโยชน์ในการระบุสารสนเทศ รวบรวมสารสนเทศที่คล้ายคลึงกัน คัดแยกสารสนเทศที่ต่างกัน เช่น การให้เม
2
ทาดาทาระบุประเภทของเอกสาร ก็จะท าให้ค้นคืนเอกสารประเภทเดียวกันที่กระจายอยู่ตามแหล่งต่าง ๆ ได้
สะดวกขึ้น เงื่อนไขหรือคุณสมบัติของสารสนเทศอาจจะเป็น ประเภททรัพยากร เจ้าของ พ้ืนที่ เป็นต้น อีกท้ัง
ยังช่วยเพิ่มประโยชน์ให้กับแหล่งข้อมูลอิเลคทรอนิก เช่น เวบเพจ
เมทาดาทาเป็นข้อมูลที่ให้สารสนเทศหนึ่งองค์ประกอบขึ้นไป เช่น เครื่องมือในการสร้างข้อมูล
วัตถุประสงค์ของข้อมูล วันและเวลาสร้างข้อมูล ผู้สร้างหรือเขียนข้อมูล พ้ืนที่หรือเครือข่ายคอมพิวเตอร์ที่
ข้อมูลถูกสร้าง มาตรฐานที่ใช้ ตัวอย่างเช่น ภาพดิจิทัลอาจจะมีข้อมูลที่อธิบายความใหญ่ของภาพ ความเข้ม
ของสี ความละเอียดของภาพ ภาพถูกสร้างขึ้นเมื่อไหร่ รวมถึงข้อมูลอื่นๆ ส่วนข้อมูลลายลักษณ์อักษร ก็อาจมี
เมทาดาทาที่อธิบายความยาวของเอกสาร ใครเป็นผู้เขียน เขียนขึ้นเมื่อไหร่ และมีสาระสังเขปอย่างไร หากเป็น
เวบเพจ ก็จะให้ข้อมูลที่อธิบายว่าเวบเพจนั้นใช้ภาษาอะไรในการเขียน ใช้เครื่องมืออะไรในการสร้าง และ
สามารถหาสารสนเทศในหัวเรื่องนั้นได้จากแหล่งใดอีก
เมทาดาทาสามารถเก็บและจัดระบบอยู่ในฐานข้อมูล เรียกว่า metadata registry หรือ metadata
repository เมทาดาทาสามารถสร้างด้วยตัวเองหรือระบบอัตโนมัติเมื่อสารสนเทศเข้าสู่กระบวนการก็ได้ การ
สร้างด้วยตัวเองนั้นมีแนวโน้มที่จะแม่นย ากว่า โดยผู้จัดการข้อมูลจะน าเข้าข้อมูลที่มีความสัมพันธ์หรือมีความ
จ าเป็นในการช่วยอธิบายตัวสารสนเทศ ส่วนเมทาดาทาที่เกิดขึ้นอัตโนมัตินั้น มักเป็นข้อมูลเบื้องต้น เช่น ขนาด
ของไฟล์ ความยาวของไฟล์ ผู้สร้าง วันเวลาที่สร้าง1
เมทาดาทาเกิดขึ้นเนื่องจากสารสนเทศท่ีสร้างข้ึนประกอบด้วยองค์ประกอบ 3 ลักษณะ คือ
1. เนื้อหา (Content) ของงาน เกี่ยวกับชื่อเรื่อง หัวเรื่อง ต้นฉบับ (แหล่งที่มา) ภาษา เรื่องที่เกี่ยวข้อง และ
ขอบเขต
2. บริบท (Context) ของสารสนเทศ เกี่ยวกับทรัพย์สินทางปัญญาของงาน เช่น ผู้เขียน ผู้สร้างสรรค์ผลงาน
ส านักพิมพ์ ผู้มีส่วนร่วมในผลงาน และสิทธิในงานนั้นๆ
1 อ่านเพิ่มเติม http://whatis.techtarget.com/definition/metadata
3
3. โครงสร้าง (Structure) ของข้อมูลเกี่ยวกับ วัน เดือน ปีที่สร้างผลงาน ประเภทของเนื้อหา รูปแบบการ
น าเสนอผลงาน และตัวบ่งชี้หรือตัวระบุถึงทรัพยากร
สาเหตุที่มีการตื่นตัวเรื่องเมทาดาทากันมาก เนื่องจากมีสารสนเทศจ านวนมหาศาลในเวิล์ดไวด์เว็บ
(World Wide Web; WWW) ทั้งท่ีเป็นข้อมูล รูปภาพ เสียง วีดิทัศน์ อีกทั้งรูปแบบและภาษาแตกต่างกัน ซ่ึง
เป็นเอกสารที่เจ้าของผลงานผลิตขึ้นเองโดยใช้เพียงภาษา HTML ในการก าหนดรูปแบบการแสดงผลและ
เชื่อมโยงข้อมูลเท่านั้น ไม่มีโครงสร้างมาตรฐานส าหรับสืบค้นที่ระบุเขตข้อมูลท าให้ search engine สามารถ
สืบค้นได้ในระดับกว้างเท่านั้น และไม่ตรงกับความต้องการเท่าใดนัก2
ประเภทของเมทาดาทา (Metadata types)
เนื่องจากเมทาดาทาครอบคลุมการอธิบายข้อมูลที่หลากหลาย ดังนั้น จึงมีการก าหนดประเภทของเม
ทาดาทา ตัวอย่างเช่น
1. Structural metadata คือ เมทาดาทาส าหรับใช้อธิบายโครงสร้างของฐานข้อมูล เช่น ตาราง คอลัมภ์ ค า
ส าคัญ ดัชนี ให้ค าอธิบายว่าองค์ประกอบต่างๆ ของวัตถุนั้นถูกจัดระบบอย่างไร เช่น หน้าของหนังสือถูก
จัดเรียงอย่างไรในแต่ละบท เช่น meta tag ที่อธิบายเวบเพจ หรือโครงสร้างของฐานข้อมูล
2. Guide metadata คือเมทาดาทาท่ีช่วยผู้ใช้ค้นหาข้อมูลหรือเอกสารที่เฉพาะเจาะจง และมักจะแสดงในรูป
ของชุดค าส าคัญในภาษามนุษย์
3. Descriptive metadata คือเมทาดาทาที่ใช้เพ่ือค้นหาและระบตัุวเนื้อหาข้อมูล เช่น ชื่อเรื่อง หัวเรื่อง ค า
ส าคัญ ส านักพิมพ์
4. Administrative metadata คือเมทาดาทาเพ่ือการจัดการ ให้ข้อมลูเพ่ือช่วยจัดการแหล่งข้อมูล อ้างอิง
ข้อมูลเชิงเทคนิค รวมถึงประเภทของไฟล์ และไฟล์นั้นถูกสร้างเมื่อไหร่ อย่างไร เมทาดาทาประเภทนี้ยังแยก
ย่อยออกเป็น 2 ประเภท คือ rights management metadata and preservation metadata.
2
อ่านเพิ่มเติม http://ladict.asia/พจนานุกรม/metadata-คืออะไร
4
Rights management metadata อธิบายสิทธิในทรัพย์สินทางปัญญา
Preservation metadata ระบุว่าแหล่งข้อมูลนี้จ าเป็นต้องมีการอนุรักษ์และรักษาความปลอดภัย
รูปแบบของข้อมูลและมาตรฐานการให้เมทาดาทา
เมทาดาทานั้นสามารถให้ข้อมูลกับวัสดุทั้งที่จับต้องได้และจับต้องไม่ได้ ข้อมูลของวัสดุที่จับต้องได้ เช่น
หนังสือ ดีวีดี แผนที่ ภาพวาด วัตถุจัดแสดงในพิพิธภัณฑ์ เป็นต้น ส่วนข้อมูลของวัสดุที่จับต้องไม่ได้ คือวัสดุ
ดิจิทัล เช่น ภาพดิจิทัล ไฟล์เอกสาร ชุดข้อมูลในรูปแบบตาราง (excel) เป็นต้น
รูปแบบของข้อมูลแต่ละแบบจะมีเมทาดาทาที่ใช้อธิบายแตกต่างกันไป ซึ่งข้อมูลแต่ละแบบก็จะมี
มาตรฐานทีเ่ป็นเค้าร่าง (schema) เฉพาะที่บันทึกทั้งความหมายและโครงสร้างทางเทคนิคของข้อมูล เพ่ือ
มนุษย์หรือคอมพิวเตอร์จะได้ไม่ใช้แบบคลุมเครือ ตัวอย่างเช่น หากใช้มาตรฐาน Dublin core (DC) ในการ
อธิบายเอกสาร ค าว่า creator ก็ต้องเข้าใจตรงกันว่าหมายถึงชื่อผู้แต่ง/เขียน coverage หมายถึง สถานที่และ
เวลา format หมายถึง รูปแบบของสื่อ เป็นต้น
ตัวอย่างมาตรฐานเมทาดาทา
ในที่นี้ขอยกตัวอย่างมาตรฐานเมทาดาทาที่ศูนย์มานุษยวิทยาสิรินธรใช้ส าหรับให้ข้อมูลสารสนเทศของ
ศูนย์ฯ 3 มาตรฐาน
Marc21 standards
MARC เป็นกลุ่มของรูปแบบดิจิทัลที่ใช้อธิบายสารสนเทศที่จัดระบบโดยห้องสมุด การให้รายละเอียด
ทรัพยากรห้องสมุดก็เป็นการให้เมทาดาทาอย่างหนึ่งเหมือนกัน แต่เดิมพบเห็นได้บ่อยในรูปแบบของ
บัตรรายการส าหรับสืบค้นหนังสือ แต่ปัจจุบันได้พัฒนาระบบการลงรายการและสืบค้นด้วยระบบคอมพิวเตอร์
เป็นการให้ข้อมูลสารสนเทศท่ีเกี่ยวกับ ผู้แต่งหนังสือ ชื่อเรื่อง ส านักพิมพ์ ภาษา ปีที่ตีพิมพ์ ประเภทของ
ทรัพยากร เป็นต้น
5
ส่วน Marc21 เป็นวิวัฒนาการซึ่งมีการพัฒนามาจาก usmarc ซ่ึง marc21 โครงสร้างการท างานก็
คล้ายคลึงกันกับ usmarc แต่เพ่ิมโครงสร้างระเบียนบางอย่างเพ่ิมเข้ามาเพ่ือให้เข้ากับยุคสมัยและรองรับการ
ลงรายการของทรัพยากรใหม่ ๆ ที่เกิดข้ึนด้วย และเพ่ือให้เป็นมาตรฐานเดียวกันทั่วโลก เพื่อการแบ่งปัน
ทรัพยากรและการบ ารุงรักษาระเบียนข้อมูล
ตัวอยา่งการให้เมทาดาทรัพยากรห้องสมุดด้วยระบบ MARC21
6
The Dublin Core metadata
มาตรฐานดับลินคอร์เป็นมาตรฐานที่งานฐานข้อมูลของศูนย์ฯ ใช้มากที่สุด อาทิ ฐานข้อมูลเอกสาร
โบราณภาคตะวันตก ฐานข้อมูลจารักในประเทศไทย ฐานข้อมูลพิพิธภัณฑ์ท้องถิ่น ฐานข้อมูลงานวิจัยชาติพันธุ์
คลังข้อมูลสถาบัน เป็นต้น
หน่วยข้อมูลย่อยดับลินคอร์มี 15 องค์ประกอบ แบ่งได้เป็น 3 กลุ่ม ดังนี้
1. หน่วยข้อมูลย่อยที่เก่ียวกับเนื้อหาของทรัพยากรสารสนเทศ
2. หน่วยข้อมูลย่อยที่เก่ียวข้องกับทรัพย์สินทางปัญญา
3. หน่วยข้อมูลย่อยที่เก่ียวรูปแบบที่ปรากฏให้ใช้งาน
หน่วยข้อมูลย่อยที่เก่ียวกับเนื้อหาของทรัพยากรสารสนเทศ เป็นหน่วยข้อมูลที่ใช้อธิบายเกี่ยวกับ ชื่อ
เรื่อง หัวเรื่อง ต้นฉบับ (แหล่งที่มา) ภาษา เรื่องที่เกี่ยวข้อง และขอบเขต
หน่วยข้อมูลย่อย ที่เก่ียวข้องกับทรัพย์สินทางปัญญา เป็นหน่วยข้อมูลที่ใช้อธิบายเกี่ยวกับ ผู้เขียน ผู้
สร้างสรรค์ผลงาน ส านักพิมพ์ ผู้มีส่วนร่วมในผลงานนั้น ๆ และสิทธิ
หน่วยข้อมูลย่อยที่เก่ียวข้องกับรูปแบบที่ปรากฏให้ใช้งาน เป็นหน่วยข้อมูลที่ใช้อธิบายเกี่ยวกับ วัน
เดือน ปี ที่สร้างผลงาน ประเภทของเนื้อหา รูปแบบของการน าเสนอผลงาน และตัวบ่งชี้หรือตัวระบุถึง
ทรัพยากร
7
ต าราโหราศาสตร์ เอกสารโบราณภูมิภาคตะวันตก
ตัวอยา่งการให้เมทาดาทาตามมาตรฐานดับบลินคอร์ในฐานข้อมูลเอกสารโบราณภาคะตะวันตก
8
การที่ดับลินคอร์เมทาดาทาเป็นที่นิยมใช้ เนื่องจากผู้น าไปใช้ไม่จ าเป็นต้องใช้หน่วยข้อมูลย่อยทั้งหมด
สามารถเลือกใช้เท่าที่จ าเป็นหรือต้องการ สามารถใช้หน่วยข้อมูลซ้ าได้ สามารถเพ่ิมขยายหน่วยข้อมูลได้ตาม
ความจ าเป็น และใช้งานได้หลากหลายระบบและเป็นสากล3
โครงสร้างของดับลินคอร์ สามารถใช้อธิบายแหล่งข้อมูลประเภทเวบรีซอส ที่มีสารสนเทศประเภท
เวบเพจ วิดีโอ ภาพ 4
ISAD(G) : General International Standard Archival Description
เอกสารจดหมายเหตุจะมีลักษณะเฉพาะที่แตกตา่งจากเอกสารประเภทอื่นๆ จึงจ าเป็นต้องมีมาตรฐาน
ในการให้ข้อมูลจดหมายเหตุโดยเฉพาะ กล่าวคือ เอกสารจดหมายเหตุเป็นชุดเอกสารที่รวบรวมสารสนเทศ
หลายๆ ชนิดไว้ด้วยกัน เช่น ในหนึ่งชุดเอกสารอาจประกอบไปด้วย สมุดบันทึก ภาพถ่าย จดหมาย แถบ
บันทึกภาพและเสียง ดังนั้น ก่อนที่จะให้ข้อมูลเอกสารแต่ละชิ้น จะต้องให้ข้อมูลเอกสารรายกลุ่มเสียก่อน โดย
ให้รายละเอียดตามล าดับชั้น จากกลุ่มใหญ่สุดลงไปหากลุ่มที่ย่อยที่สุด ISAD(G) จึงเป็นมาตรฐานการให้ข้อมูลที่
เหมาะสมที่สุด เนื่องจากมีแนวคิดส าคัญคือการอธิบายข้อมูลแบบเป็นช่วงชั้น
3
อ่านเพิ่มเติม http://www.nstda.or.th/nstda-knowledge/480-dublin-core-metadata 4
อ่านเพิ่มเติม http://dublincore.org/documents/usageguide/
9
แนวคิดส าคัญของการสร้างเนื้อหาอธิบายข้อมูลจดหมายเหตุที่มีหลายช่วงชั้น
1. อธิบายจากข้อมูลทั่วไป ไปสู่ข้อมูลที่มีลักษณะเฉพาะ โดยให้ข้อมูลที่เป็นภาพรวมในช่วงชั้นใหญ่
ที่สุด คือ ระดับ collection ส่วนในช่วงชั้นถัดมา ให้ข้อมูลที่ครอบคลุมเฉพาะขอบเขตของชั้นข้อมูลนั้นๆ
ท้ายที่สุดการสร้างเนื้อหาอธิบายข้อมูลจดหมายเหตุลักษณะนี้ จะท าให้เห็นความสัมพันธ์ระหว่างองค์รวมและ
ส่วนย่อยของเอกสารแต่ละชุด
2. ค าอธิบายข้อมูลจดหมายเหตุ ต้องเป็นข้อมูลที่สะท้อนบริบทและเนื้อหาของชั้นข้อมูลได้อย่าง
ถูกต้อง
3. การเชื่อมโยงค าอธิบาย ต้องแสดงให้เห็นอย่างชัดเจนถึงช่วงชั้นของข้อมูล โดยเชื่อมโยงค าอธิบาย
จากระดับที่สูงกว่าลงไปสู่ระดับที่ต่ ากว่า และระบุอย่างชัดเจนว่าค าอธิบายที่สร้างขึ้นนั้น อยู่ในระดับใดของช่วง
ชั้นข้อมูล
4. หลีกเลี่ยงการให้ข้อมูลซ้ าในแต่ละช่วงชั้น โดยในระดับช่วงชั้นใหญ่สุด คือ collection ต้องมีข้อมูล
ที่ครอบคลุมเนื้อหาทั้งระดับ series และระดับ file โดยไม่ต้องอธิบายซ้ าอีกในระดับที่รองลงมาก แต่ให้ข้อมูล
ที่ครอบคลุมเฉพาะขอบเขตของระดับนั้นๆ5
5
อ่านเพิ่มเติม http://www.icacds.org.uk/eng/ISAD%28G%29.pdf
10
ตัวอยา่งการให้เมทาดาทาเอกสารจดหมายเหตุรายชุด (collection) ตามมาตรฐาน ISAD(G) ฐานข้อมูลจดหมายเหตุมานุษยวิทยา
ตัวอยา่งการให้เมทาดาทาเอกสารจดหมายเหตุรายกลุ่ม (series) ตามมาตรฐาน ISAD(G) ฐานข้อมูลจดหมายเหตุมานษุยวิทยา
11
ตัวอยา่งการให้เมทาดาทาเอกสารจดหมายเหตุรายชิ้น (item) ตามมาตรฐาน ISAD(G) ฐานข้อมูลจดหมายเหตุมานษุยวิทยา
เมทาดาทาที่ยกตัวอย่างข้างต้นนั้นเป็นเมทาดาทาทีน่ักจัดการข้อมูลเป็นผู้ระบุ ส่วนเมทาดาทาท่ีระบบ
สามารถสร้างไดโ้ดยอัตโนมัติก็เช่น ภาพจากกล้องถ่ายรูปดิจิทัล ถูกจัดเก็บตามมาตรฐาน EXIF (Exct
angeable image file format) ซึ่งเป็นข้อมูลเฉพาะที่บรรจุลงในภาพที่ถ่ายโดยกล้องดิจิทัลทุกตัว ได้แก่
เจ้าของกล้อง วันเวลาที่ถ่าย ล าดับของภาพ สถานที่ถ่าย รูรับแสง ความยาวโฟกัส ต าแหน่งสถานที่
(Geolocation) ในกรณีที่กล้องมีระบบจีพีเอส (GPS) เชื่อมต่อ เมทาดาทาอีกประเภทที่นิยมใช้ส าหรับให้ข้อมูล
ประเภทไฟล์เสียงประเภทไฟล์ MP3 ก็คือ ID3 เช่น ไฟล์เพลง จะระบุข้อมูลเกี่ยวกับ ชื่อเพลง ชื่อศิลปิน ชื่อ
อัลบั้ม หมายเลขแทรค ผู้สร้าง เจ้าของลิขสิทธิ์ เป็นต้น
เมทาดาทาสามารถให้ข้อมูลกับสารสนเทศทุกรูปแบบ เป็นการสร้างความสัมพันธ์ระหว่างตัว
สารสนเทศและผู้ใช้ผ่านแหล่งข้อมูลหลาย ๆ แหล่งข้อมูล เพ่ือให้สามารถสืบค้นได้จากการระบุเขตข้อมูลหรือ
ประเด็นที่ต้องการจะค้น โดยมีการจัดการข้อมูลที่มรีะบบและโครงสร้างที่เป็นมาตรฐาน มีประโยชน์ในการ
สร้างความเท่ียงตรงให้กับข้อมูลที่ถูกใช้ จัดเก็บ และแบ่งปัน นอกจากนี้เมทาดาทายังช่วยให้ความชัดเจนกับ
แหล่งต้นทางและประวัติความเป็นมาของข้อมูล ซึ่งเป็นการเพิ่มคุณค่าให้แก่ข้อมูลในการที่จะถูกน าไปใช้ และ
เป็นแหล่งอ้างอิงที่เชื่อถือได้ ที่ส าคัญบรรณารักษ์หรือนักจัดการข้อมูล ซึ่งเป็นผู้ให้เมทาดาทาแก่สารสนเทศ
12
ควรมีความเข้าใจในโครงสร้างและเนื้อหาของทรัพยากรสารสนเทศเป็นอย่างดี เพ่ือสามารถวิเคราะห์โครงสร้าง
ของข้อมูลและเนื้อหาก่อนที่จะใส่ข้อมูลลงไปในแต่ละองค์ประกอบหรือเขตข้อมูล เพ่ือผู้ใช้จะสามารถค้นคืน
ข้อมูลได้อย่างถูกต้องมีประสิทธิภาพ
แหล่งอ้างอิง
1. http://whatis.techtarget.com/definition/metadata (สืบค้นเมื่อ 13 กันยายน 2558)
2. http://ladict.asia/พจนานุกรม/metadata-คืออะไร (สืบค้นเมื่อ 13 กันยายน 2558)
3. http://www.nstda.or.th/nstda-knowledge/480-dublin-core-metadata (สืบค้นเมื่อ 15
กันยายน 2558)
4. http://dublincore.org/documents/usageguide/ (สืบค้นเมื่อ 25 สิงหาคม 2558)
5. http://www.icacds.org.uk/eng/ISAD%28G%29.pdf (สืบค้นเมื่อ 25 สิงหาคม 2558)
6. https://en.wikipedia.org/wiki/Metadata (สืบค้นเมื่อ 13 กันยายน 2558)