Data Innovation and Governance Institute, DIGI
40 ยอดรับชม
วิทยาศาสตร์ เทคโนโลยีดิจิทัล และนวัตกรรม
Data Warehouse vs Data Lake คืออะไร ต่างกันอย่างไร
02 Dec 2022
ในยุคปัจจุบันที่โลกของเทคโนโลยีมีการเติบโตมากขึ้นอย่างรวดเร็วและไม่มีที่สิ้นสุด หลายคนให้ความสนใจเปลี่ยนแปลงสายงานอาชีพของตนเองมาทำงานที่เกี่ยวข้องกับเทคโนโลยีและระบบ IT กันมากขึ้น
โดยหนึ่งในสายงานที่ได้รับความนิยมมากขึ้นในทุกวันนี้คือการเป็นนักวิทยาศาสตร์ข้อมูล หรือ Data Scientist ซึ่งทำหน้าที่ในการเปลี่ยนแปลงข้อมูลขนาดใหญ่ หรือ “Big Data” ให้อยู่ในรูปแบบของการวิเคราะห์ข้อมูล จนออกมาเป็นโมเดลเพื่อนำไปใช้ต่อยอดในการพัฒนาธุรกิจ
ประกอบกับการเติบโตของข้อมูลที่นับวันยิ่งมีจำนวนมากขึ้นอย่างมีนัยยะสำคัญ การสร้างสถานที่จัดเก็บข้อมูลจึงเป็นสิ่งสำคัญที่หลายบริษัทหันมาให้ความสำคัญจนถึงขั้นลงทุนสร้าง Server จัดเก็บข้อมูลเป็นของตนเอง ทำให้ความรู้ทางด้าน Data Storage มีความสำคัญมากขึ้นตาม
แต่เชื่อว่าหลายคนที่กำลังสนใจจะเป็นนักวิทยาศาสตร์ข้อมูลอาจจะยังไม่ทราบหรือคุ้นเคยกับกระบวนการจัดเก็บข้อมูลมากนัก ซึ่งการจัดเก็บข้อมูลสามารถจัดเก็บให้อยู่รูปแบบของ Database, Data Warehouse ไปจนถึง Data Lake
ดังนั้นวันนี้ DIGI จะพาทุกคนไปทำความรู้จักกับ Database, Data Warehouse กับ Data Lake ว่าคืออะไร แต่ละรูปแบบมีความแตกต่างกันอย่างไร รวมไปถึงตัวอย่างการเปรียบเทียบของ Database, Data Warehouse และ Data Lake
Data Warehouse และ Data Lake คืออะไร?
ก่อนจะเริ่มทำความรู้จักกับ Data Warehouse และ Data Lake เรามาลองทำความรู้จักกับ Database กันก่อน ซึ่ง Database คือที่จัดเก็บข้อมูลทั่วไป โดยข้อมูลจะอยู่ในรูปแบบของ Structure Data หรือข้อมูลที่โครงสร้างชัดเจน เช่น การเก็บอยู่ในรูปแบบของตาราง Excel โดยการเก็บข้อมูลแบบ Database เป็นการเก็บข้อมูลจากแหล่งที่มาเดียวไม่ได้มีความหลากหลาย
ซึ่งผู้ใช้งานสามารถ เขียน อ่าน แก้ไข ลบ ข้อมูลบน Database ปจนถึงนำเอาข้อมูลเหล่านั้นมาทำการวิเคราห์ในรูปแบบง่าย ๆ ได้ตัวอย่างของ Database เช่น ข้อมูลการลงทะเบียนคนไข้ หรือข้อมูลระบบบัญชีของร้านค้า
Data Warehouse คือที่จัดเก็บข้อมูลที่มีขนาดใหญ่มากขึ้นจาก Database โดยข้อมูลจะถูกจัดเก็บมาจากแหล่งข้อมูลที่มีความหลากหลาย รวมไปถึงโครงสร้างของข้อมูลส่วนใหญ่จะถูกจัดอยู่ในรูปแบบของ Structure Data สาเหตุที่ Data Warehouse จัดเก็บข้อมูลจากหลายแหล่งและอยู่ในรูปแบบของ Structure Data เพื่อให้นักวิเคราะห์ข้อมูล (Data Analyst) และนักวิเคราะห์ธุรกิจ (Business Analyst) สามารถดึงข้อมูลเหล่านั้นมาใช้งานวิเคราะห์เพื่อหา Insight ของข้อมูลได้ในทันที
Data Lake คือที่จัดเก็บข้อมูลที่มีขนาดใหญ่ และมีการจัดเก็บมาจากหลายแหล่งที่มาเช่นเดียวกับ Data Warehouse แต่ความแตกต่างกันระหว่าง Data Warehouse และ Data Lake คือ Data Lake สามารถจัดเก็บข้อมูลได้ทุกรูปแบบตั้งแต่ Structure Data, Semi-Structure Data จนไปถึง Unstructure Data ซึ่งการเก็บข้อมูลในลักษณะนี้เหมาะกับบริษัทที่ต้องการจะเก็บข้อมูลทุกประเภทโดยคาดการร์ว่าจะใช้ประโยชน์จากข้อมูลเหล่านี้ในอนาคต ซึ่ง Data Lake เหมาะสำหรับเก็บข้อมูลไว้สำหรับนักวิทยาศาสตร์ข้อมูล (Data Scientist) เพื่อนำมาสร้างโมเดลและวิเคราะห์ข้อมูลได้ในแบบทันที
Data Warehouse VS Data Lake มีความแตกต่างกันอย่างไร
ข้อแตกต่างระหว่าง Data Warehouse และ Data Lake สามารถแบ่งออกเป็น 3 ประเด็ฯใหญ่ได้แก่
- รูปแบบของข้อมูล
เหมือนที่ได้กล่าวไปในส่วนที่แล้วว่า Database และ Data Warehouse ข้อมูลส่วนใหญ่จะถูกเปลี่ยนให้ไปอยู่ในรูปแบบของ Structure Data เนื่องจากผู้ใช้งาน Data ส่วนใหญ่จะเป็นคนทั่วไปจนถึง Business Analyst โดยกลุ่มคนเหล่านี้ต้องการข้อมูลที่จัดรูปแบบเรียบร้อยแล้วนำมาหา Insight ของข้อมูล โดยจะแตกต่างจาก Data Lake ที่เก็บข้อมูลทุกรูปแบบเหมาะสำหรับ Data Scientist ในการนำไปสร้างโมเดลต่อ
- วัตถุประสงค์ในการใช้งาน
สำหรับ Database และ Data Warehouse ผู้ใช้งานมีวัตถุประสงค์ชัดเจนในการใช้ Data ทำให้ต้องมีการปรับข้อมูลให้อยู่ในรูปแบบตามวัตถุประสงค์เพื่อความสะดวกในการใช้งาน ต่างกับ Data Lake ที่เก็บข้อมูลทุกรูปแบบโดยยังไม่ทรายวัตถุประสงค์ในการใช้ข้อมูล
- การเข้าถึงข้อมูล
การเข้าถึงข้อมูล Data Lake สามารถเข้าถึงข้อมูลได้ง่ายกว่า Data Warehouse เพราะการเก็บข้อมูลใน Data Lake เก็บในรูปแบบทีมีความหลากหลายมากกว่า Data Warehouse
สรุป
โดยสรุปแล้วนอกจากกระบวนวิเคราะห์ข้อมูลจะเป็นส่วนสำคัญสำหรับงานด้าน Data Science แล้ว ความเข้าใจในการเลือกใช้ส่วนของการเก็บข้อมูลก็มีส่วนสำคัญเช่นกันเพราะหากเราเลือกใช้งานการเก็บข้อมูลไม่เหมาะสมกับจุดประสงค์ของการทำงานจะส่งผลให้เกิดความล่าช้าในกระบวนการทำงาน จนนำไปสู่ต้นทุนในการทำงานที่สูงขึ้น ดังนั้นความรู้ความเข้าใจและวสามารถแยกความต่างของ Data Warehouse กับ Data Lake ได้จึงเหมาะสำหรับคนที่ต้องการจะเป็นนักวิทยาศาสตร์ข้อมูลในอนาคต
ที่มา
- https://reportingengineer.com/2021/10/28/database-datawarehouse-datalake/
- https://blog.datath.com/database-data-warehouse-data-lake/
- https://yuthakarn.medium.com/data-lake-vs-data-warehouse-do-you-need-both-6b402ca2991a
- https://medium.com/ingrammicroth/data-warehouse-%E0%B9%81%E0%B8%A5%E0%B8%B0-database-%E0%B8%95%E0%B9%88%E0%B8%B2%E0%B8%87%E0%B8%81%E0%B8%B1%E0%B8%99%E0%B8%AD%E0%B8%A2%E0%B9%88%E0%B8%B2%E0%B8%87%E0%B9%84%E0%B8%A3-9d2cb822da3f
- https://techsauce.co/tech-and-biz/understanding-data-solutions-data-warehouses-data-lake
- https://www.google.com/search?q=data+warehouse+architecture&rlz=1C1CHBF_enTH924TH924&sxsrf=ALiCzsYWThdOnqY4OiGCJOlCgCSBC_hQIQ:1657477529363&tbm=isch&source=iu&ictx=1&vet=1&fir=oXCBhxDokSKgPM%252C3gkUKT8jwh42HM%252C_%253BQq_EDUwm4ngp_M%252CteKKqZ6ZiqEqcM%252C_&usg=AI4_-kRXOIpzMS48sc5dJhuuFr0xjaYuCw&sa=X&ved=2ahUKEwjvhvH6-O74AhUO7zgGHdQ7CnQQ_h16BAgeEAE&biw=1536&bih=722&dpr=1.25#imgrc=Qq_EDUwm4ngp_M
- https://reportingengineer.com/2021/10/28/database-datawarehouse-datalake/
- https://blog.datath.com/database-data-warehouse-data-lake/
- https://yuthakarn.medium.com/data-lake-vs-data-warehouse-do-you-need-both-6b402ca2991a
Like 0
คำไม่ถูกต้อง กรุณาลองใหม่อีกครั้ง
ความคิดเห็น (0)