Please use this identifier to cite or link to this item: http://nuir.lib.nu.ac.th/dspace/handle/123456789/5754
Title: วิธีเชิงความหมายสำหรับสร้างโครงสร้างข้อมูลแบบหลายมิติโดยอัตโนมัติ
A Semantic Approach to Automate Multidimensional Schema Construction
Authors: Non Sanprasit
นนท์ แสนประสิทธิ์
Kraisak Kesorn
ไกรศักดิ์ เกษร
Naresuan University
Kraisak Kesorn
ไกรศักดิ์ เกษร
kraisakk@nu.ac.th
kraisakk@nu.ac.th
Keywords: คลังข้อมูล
โครงสร้างข้อมูลแบบหลายมิติ
ออนโทโลยี
Data warehouse
Multidimensional schema
Ontology
Issue Date: 2565
Publisher: Naresuan University
Abstract: Data warehouse (DW) is a leading technology for Decision Support Systems, providing data structures that are useable for data analytics to support strategic decision-making by policymakers in various domains. DWs can be integrated with data mining techniques for forecasting trends based on the data in the DW. However, DWs usually store data in the form of a multidimensional schema, which is a significantly more complex data structure than in the traditional Relational schema. As a consequence, it is a time-consuming and high-cost designing process to develop a DW, even by experts. In this research, a framework is proposed that exploits a knowledgebase model that uses an ontology to assist the development of the framework used for generating a DW star schema. The main contributions of this research include 1) Attribute metadata extraction and analysis 2) Multidimensional schema construction, and 3) Data extraction and loading phase, tables that will be used to support Online Analytical Processing for decision-making. The current version of the presented framework will support the generation of a multidimensional schema from semi-structured data e.g., .CSV file. The main challenge of these data structures is they do not explicitly provide structural data or semantics that identify the primary key, foreign keys, or relationships between tables, which are important for a star schema in a DW. We first introduce the use of the Probability Density Function and Arithmetic coding to handle the uncertainty when the column names in the data source are missing and data Type Inference Techniques with Ontology. Our proposed approach has been validated by comparison using data from three different domains: the medical domain (dengue fever epidemiology data), the agricultural domain (rice production data), and the business domain (sales information). The results show that our framework can efficiently construct a star schema and effectively predict the missing column names and data types.
คลังข้อมูล (Data warehouse) เป็นเทคโนโลยีที่มีความสามารถในการสนับสนุนการตัดสินใจซึ่งมีโครงสร้างที่เหมาะสมสำหรับการวิเคราะห์ข้อมูลเพื่อสนับสนุนการตัดสินใจเชิงกลยุทธ์สำหรับผู้ที่มีหน้าที่กำหนดนโยบายในฝ่ายต่าง ๆ ของหน่วยงาน และยังสามารถทำงานร่วมกับเทคนิคเหมืองข้อมูล (Data mining) เพื่อการพยากรณ์แนวโน้มจากข้อมูลที่อยู่ในคลังข้อมูลได้ คลังข้อมูลมีการเก็บข้อมูลในรูปแบบโครงสร้างข้อมูลแบบหลายมิติ (Multidimensional schema) ซึ่งมีโครงสร้างที่ซับซ้อนกว่าโครงสร้างในฐานข้อมูลเชิงสัมพันธ์ ส่งผลให้กระบวนการในการสร้างคลังข้อมูลต้องใช้ระยะเวลานาน  มีค่าใช้จ่ายที่สูง และต้องใช้ผู้ที่มีความเชี่ยวชาญในการสร้าง ดังนั้นงานวิจัยนี้จึงเสนอกรอบแนวคิดในการนำฐานความรู้ที่อยู่ในรูปแบบออนโทโลยี (Ontology) มาช่วยในการสร้างโครงสร้างแบบดาว (Star schema) กระบวนการทำงานของงานวิจัยนี้ประกอบ 3 ส่วนได้แก่ 1) การสกัดและวิเคราะห์ข้อมูล 2) การสร้างโครงสร้างแบบดาว และ 3) การสกัดและโหลดข้อมูล เพื่อสนับสนุนการประมวลผลเชิงวิเคราะห์ออนไลน์ (Online analytical processing) ผู้วิจัยเสนอการสร้างโครงสร้างข้อมูลแบบหลายมิติจากข้อมูลแบบกึ่งโครงสร้างในรูปแบบไฟล์ .CSV ความท้าทายของโครงสร้างข้อมูลประเภทนี้คือข้อมูลไม่ได้มีโครงสร้างที่ชัดเจน ไม่มีการระบุคีย์หลัก (Primary key) คีย์นอก (Foreign key) และไม่ได้ระบุความสัมพันธ์ระหว่างตารางไว้ซึ่งสำคัญสำหรับการสร้างโครงสร้างแบบดาว ผู้วิจัยได้เสนอเทคนิคการอนุมานชื่อคอลัมน์โดยใช้ฟังก์ชันความหนาแน่นของความน่าจะเป็น (Probability density function) และการเข้ารหัสเลขคณิต (Arithmetic coding) ในกรณีที่ชื่อคอลัมน์ไม่ปรากฏในแหล่งข้อมูลและเทคนิคการอนุมานชนิดข้อมูลด้วยออนโทโลยี การประเมินประสิทธิภาพของกรอบแนวคิดได้นำข้อมูลใน 3 โดเมนที่ต่างกันมาเปรียบเทียบกัน คือโดเมนทางการแพทย์ (ข้อมูลการระบาดของโรคไข้เลือดออก) โดเมนการเกษตร (ข้อมูลผลผลิตข้าว) และโดเมนธุรกิจ (ข้อมูลการขาย) ผลการวิจัยพบว่ากรอบแนวคิดนี้สามารถสร้างโครงสร้างแบบดาวและอนุมานชนิดข้อมูลและชื่อคอลัมน์ได้อย่างมีประสิทธิภาพ
URI: http://nuir.lib.nu.ac.th/dspace/handle/123456789/5754
Appears in Collections:คณะวิทยาศาสตร์

Files in This Item:
File Description SizeFormat 
NonSanprasit.pdf3.95 MBAdobe PDFView/Open


Items in NU Digital Repository are protected by copyright, with all rights reserved, unless otherwise indicated.