user name
Data Innovation and Governance Institute, DIGI
265 ยอดรับชม

วิทยาศาสตร์ เทคโนโลยีดิจิทัล และนวัตกรรม

รู้จัก "Data Dictionary" พจนานุกรมข้อมูล คืออะไร?

02 Dec 2022

หลายคนที่เริ่มหันมาสนใจอยากเป็นนักวิทยาศาสตร์ข้อมูล หรือ Data Scientist นั้นมักจะเกิดความสับสนว่าตนเองจะต้องเริ่มเรียนรู้จากเรื่องอะไรก่อน เนื่องจากความรู้ในสายงานนี้มีจำนวนมากตั้งแต่การเขียนโปรแกรม ความรู้ทางด้านสถิติ รวมไปถึงทักษะที่เกี่ยวข้องกับการประยุกต์ใช้ข้อมูลกับการใช้งานจริงในชีวิตประจำวัน 

 

ซึ่งในความเป็นจริงนั้นความรู้พื้นฐานที่นักวิทยาศาสตร์ทุกคนควรจะเริ่มต้นทำความรู้จักและความคุ้นเคยเป็นอันดับแรกเลยก็คือเรื่องของรายละเอียดเกี่ยวกับตัวข้อมูล เนื่องจากข้อมูลเป็นเหมือนทรัพยากรที่นักวิทยาศาสตร์ข้อมูลจำเป็นต้องศึกษาเพื่อเปลี่ยนให้เกิดเป็นโมเดลมาวิเคราะห์แก้ปัญหา

 

โดยพื้นฐานเลยว่าเราจะจัดการข้อมูลได้นั้นเราจำเป็นต้องเริ่มทำความรู้จักกับ “Data Dictionary” หรือเรียกง่าย ๆ ว่า Data Dic กันก่อน หลายคนอาจจะสงสัยแล้วว่า “Data Dictionary” มันคืออะไร

 

ดังนั้นวันนี้ DIGI จะพาทุกคนไปทำความรู้จักกับคำว่า “Data Dictionary” หรือ “Data Dic” คืออะไร แล้วเกี่ยวข้องอะไรกับ Metadata รวมไปถึงตัวอย่างของ Data Dictionary ว่ามีรายละเอียดอย่างไรบ้างครับ

 

“Metadata” และ “Data Dictionary” คืออะไร ต่างกันอย่างไร ? 

 

ก่อนที่จะเริ่มทำความรู้จักกับ Data Dictionary อยากจะพาไปทำความรู้จักกับ Metadata กันก่อนว่าคืออะไรแล้วมีส่วนเกี่ยวข้องอย่างไรกับ Data Dictionary 

Metadata คือข้อมูลของข้อมูล หรือข้อมูลที่ใช้อธิบายข้อมูล หลายคนอ่านแล้วอาจจะงงว่ามันคืออะไร จะอธิบายเพิ่มเติมให้เข้าใจได้ง่ายขึ้นคือเปรียบเทียบสุนัขตัวหนึ่งเป็นข้อมูล ในส่วนของปลอกคอที่มีการบอกว่าสุนัขตัวนี้ชื่ออะไร เป็นเพศอะไร สีอะไร พันธุ์อะไร ซึ่งข้อมูลที่อยู่ในปลอกคอคือ Metadata นั่นเอง 

 

โดยหน้าที่หลักของ Metadata คืออธิบายชุดข้อมูลที่ได้มาว่าคืออะไรให้คนที่ใช้ข้อมูลเกิดความเข้าใจที่ถูกต้อง สามาถรค้นหาข้อมูลได้ง่าย ลดการทำงานที่ซ้ำซ้อนจากการที่ต้องมาอธิบายว่า Data แต่ละตัวคืออะไร ด้วยประโยชน์เหล่านี้ทำให้เวลาเราได้ Dataset มาก็มักจะมี Metadata ติดมาด้วย แล้ว Metadata เกี่ยวข้องอย่างไรกับ Data Dictionary 

 

Data Dictionary คือพจนานุกรมข้อมูลซึ่งเป็น Metadata ประเภทหนึ่งที่จะอธิบายชุดข้อมูลผ่านรูปแบบของตาราง ซึ่ง Data Dictionary อาจจะอยู่ในรูปแบบของไฟล์ CSV Excel JSON หรือ XML ก็ได้ โดยความแตกต่างระหว่าง Metadata กับ Data Dictionary คือ Metadata จะเป็นการอธิบายถึงความเป็นมารวมไปถึงสถานะของข้อมูล แต่ Data Dictionary จะเป็นการอธิบายข้อมูลในเชิงรายละเอียดจนสามารถเชื่อมโยงนำไปใช้ได้กับชุดข้อมูลแหล่งอื่นได้

 

ตัวอย่างของ “Metadata” กับ “Data Dictionary” 

ตัวอย่าง Metadata 

ที่มา : คำอธิบายชุดข้อมูลบัญชียาสำหรับโรงพยาบาลและสถานบริการสาธารณสุข 

 

ตัวอย่างที่เห็นเป็น Metadata จากข้อมูลบัญชียาสำหรับโรงพยาบาลจาก www.data.go.th ซึ่งจะเห็นได้ว่าเป็นการอธิบายถึงที่มาของข้อมูลว่ามาจากบัญชียาหลักแห่งชาติ ใช้สำหรับในโรงพยาบาล โดยมีการจัดทำในปี 2558 ออกโดยกลุ่มนโยบายแห่งชาติด้านยา กระทรวงสาธาารณสุข ซึ่งเป็นข้อมูลทั่วไปที่อธิบายถึงที่มาที่ไปของข้อมูลชุดนี้

 

ตัวอย่าง Data Dictionary

ที่มา : พจนานุกรมข้อมูลการเกิดอัคคีภัยในกรุงเทพมหานครจำแนกรายเดือน

 

ตัวอย่าง Data Dictionary จากข้อมูลการเกิดอัคคีภัยในกรุงเทพมหานครจำแนกรายเดือนนำมากจาก www.data.go.th โดยจะเป็นการอธิบายว่า Data แต่ละตัวมีรายละเอียดอย่างไร เ

 

ช่น id เป็นตัวเลขรหัสข้อมูล ซึ่งจะอยู่ในรูปแบบข้อมูล char คือ character เป็นตัวอักษรที่มีการกำหนดความยาวของข้อความ คำอธิบายคือเป็นรหัสของข้อมูล ส่วน month มีคำอธิบายคือชื่อเดือนโดยข้อมูลจะอยู่ในรูปแบบของ text ซึ่งจะเป็นข้อความที่ไม่กำหนดความยาวของข้อมูล หรือ fire55 ,dead55, injury55 ก็จะมีคำอธิบายว่าเป็นจำนวนอัคคีภัย จำนวนผู้เสียชีวิต และจำนวนผู้บาดเจ็บในปี 2555 ซึ่งข้อมูลจะอยู่ในรูปแบบของ int หรือ integer คือจำนวนเต็มเป็นต้น 

 

สรุป

Data Dictionary เป็นพจนานุกรมที่คอยขยายความว่าข้อมูลที่เราได้รับมานั้นมีคำอธิบายว่าอะไรบ้าง รวมไปถึงชุดข้อมูลนั้นอยู่ในรูปแบบใด ซึ่งจะมีความแตกต่างกับ Metadata เพียงเล็กน้อยตรงที่ Metadata เป็นการอธิบายข้อมูลในภาพรวมทั่วไป แต่ Data Dictionary เป็นการอธิบายลงลึกในเชิงรายละเอียดจนสามารถนำไปใช้กับชุดข้อมูลอื่นได้ 

 

แต่ทั้ง Data Dictionary และ Metadata มีความสำคัญต่อการทำวิเคราะห์ข้อมูลมากเพราะทั้ง 2 สิ่งเป็นตัวช่วยอำนวยความสะดวกในการทำความเข้าใจข้อมูล รวมไปถึงลดระยะเวลาในการเตรียมข้อมูล ดังนั้นการศึกษาเรื่องเหล่านี้จึงถือเป็นพื้นฐานสำคัญในการเป็นนักวิทยาศาสตร์ข้อมูล

 

ที่มา

 

Like 0

user name

คำไม่ถูกต้อง กรุณาลองใหม่อีกครั้ง

ความคิดเห็น (0)