Skip to main content

รูปแบบโครงสร้างข้อมูลร่วมมาตรฐาน CMKL v1.0

CMKL Common Dataset Schema Standard version 1.0

เอกสารนี้เป็นผลผลิตส่วนหนึ่งของ โครงการ แพลตฟอร์มข้อมูลเพื่องานด้านปัญญาประดิษฐ์ในสถานการณ์โควิด-19 (National Data Platform for AI in Covid-19) ภายใต้แผนงาน แพลตฟอร์ม IoT เพื่อการขับเคลื่อนเศรษฐกิจ BCG

และได้รับการสนับสนุนจาก หน่วยบริหารและจัดการทุนด้านการเพิ่มความสามารถในการแข่งขันของประเทศ (บพข.)

เอกสารนี้ถูกจัดทำขึ้นโดย มหาวิทยาลัยซีเอ็มเคแอล

วัตถุประสงค์#

เอกสารรูปแบบโครงสร้างข้อมูลร่วม (Common Protocol / Schema) ชิ้นนี้ จัดทำขึ้นเพื่อใช้เป็นแนวทางในการรองรับการแลกเปลี่ยนและวิเคราะห์ชุดข้อมูลขนาดใหญ่ ทั้งในปริมาณมากและมีความหลากหลาย ซึ่งรวมไปถึงชุดข้อมูลที่มาจากระบบและเซนเซอร์ในแผนงาน BCG และโครงการด้านโควิด-19 จากหน่วยงานวิจัยด้านต่างๆ ทั่วประเทศอีกด้วย

หลักการและเหตุผล#

เนื่องจากหนึ่งในวัตถุประสงค์หลักของ โครงการแพลตฟอร์มข้อมูลเพื่องานด้านปัญญาประดิษฐ์ในสถานการณ์โควิด-19 (National Data Platform for AI in Covid-19) คือการเป็นแพลตฟอร์มศูนย์กลางการแลกเปลี่ยนชุดข้อมูลของนักวิจัยทั่วประเทศ คณะผู้จัดทำโครงการจึงต้องการออกแบบระบบให้ตอบสนองต่อความต้องการของผู้ใช้งานให้มากที่สุด

จากการศึกษาความต้องการของผู้ใช้ (User Research) กับนักวิจัยจากมหาวิทยาลัยและองค์กรต่างๆ ทั้งหมด 12 คน พบว่าผู้ใช้มักมีความต้องการในการนำชุดข้อมูลจากหลายแหล่งมาใช้งานร่วมกัน เพื่อให้งานวิจัยเกิดความหลากหลายรอบด้านมากขึ้น แต่อุปสรรคสำคัญคือ ชุดข้อมูลที่ใช้แต่ละชุดมีรูปแบบข้อมูลที่ต่างกัน ทั้งในเชิงโครงสร้างข้อมูล (Schema) และรูปแบบชนิดข้อมูล (Data Type and Format) เช่น ข้อมูลตัวเลขจากชุดข้อมูลหนึ่ง อาจได้รับการบันทึกเป็นชนิด number ในขณะที่จากอีกชุดหนึ่ง ถูกบันทึกเป็นชนิด string หรือข้อมูลวันที่กลับถูกเรียงลำดับต่างกัน เป็นต้น

ปัญหานี้ทำให้เกิดความไม่สะดวกในการแลกเปลี่ยนชุดข้อมูลกันระหว่างนักวิจัย ผู้จัดทำโครงการจึงต้องการจัดทำมาตรฐานโครงสร้างของชุดข้อมูลฉบับนี้ เพื่อทำให้การแลกเปลี่ยนชุดข้อมูลนี้เป็นไปได้โดยสะดวกยิ่งขึ้น