Please use this identifier to cite or link to this item: http://nuir.lib.nu.ac.th/dspace/handle/123456789/5754
Full metadata record
DC FieldValueLanguage
dc.contributorNon Sanprasiten
dc.contributorนนท์ แสนประสิทธิ์th
dc.contributor.advisorKraisak Kesornen
dc.contributor.advisorไกรศักดิ์ เกษรth
dc.contributor.otherNaresuan Universityen
dc.date.accessioned2023-09-25T02:26:33Z-
dc.date.available2023-09-25T02:26:33Z-
dc.date.created2565en_US
dc.date.issued2565en_US
dc.identifier.urihttp://nuir.lib.nu.ac.th/dspace/handle/123456789/5754-
dc.description.abstractData warehouse (DW) is a leading technology for Decision Support Systems, providing data structures that are useable for data analytics to support strategic decision-making by policymakers in various domains. DWs can be integrated with data mining techniques for forecasting trends based on the data in the DW. However, DWs usually store data in the form of a multidimensional schema, which is a significantly more complex data structure than in the traditional Relational schema. As a consequence, it is a time-consuming and high-cost designing process to develop a DW, even by experts. In this research, a framework is proposed that exploits a knowledgebase model that uses an ontology to assist the development of the framework used for generating a DW star schema. The main contributions of this research include 1) Attribute metadata extraction and analysis 2) Multidimensional schema construction, and 3) Data extraction and loading phase, tables that will be used to support Online Analytical Processing for decision-making. The current version of the presented framework will support the generation of a multidimensional schema from semi-structured data e.g., .CSV file. The main challenge of these data structures is they do not explicitly provide structural data or semantics that identify the primary key, foreign keys, or relationships between tables, which are important for a star schema in a DW. We first introduce the use of the Probability Density Function and Arithmetic coding to handle the uncertainty when the column names in the data source are missing and data Type Inference Techniques with Ontology. Our proposed approach has been validated by comparison using data from three different domains: the medical domain (dengue fever epidemiology data), the agricultural domain (rice production data), and the business domain (sales information). The results show that our framework can efficiently construct a star schema and effectively predict the missing column names and data types.en
dc.description.abstractคลังข้อมูล (Data warehouse) เป็นเทคโนโลยีที่มีความสามารถในการสนับสนุนการตัดสินใจซึ่งมีโครงสร้างที่เหมาะสมสำหรับการวิเคราะห์ข้อมูลเพื่อสนับสนุนการตัดสินใจเชิงกลยุทธ์สำหรับผู้ที่มีหน้าที่กำหนดนโยบายในฝ่ายต่าง ๆ ของหน่วยงาน และยังสามารถทำงานร่วมกับเทคนิคเหมืองข้อมูล (Data mining) เพื่อการพยากรณ์แนวโน้มจากข้อมูลที่อยู่ในคลังข้อมูลได้ คลังข้อมูลมีการเก็บข้อมูลในรูปแบบโครงสร้างข้อมูลแบบหลายมิติ (Multidimensional schema) ซึ่งมีโครงสร้างที่ซับซ้อนกว่าโครงสร้างในฐานข้อมูลเชิงสัมพันธ์ ส่งผลให้กระบวนการในการสร้างคลังข้อมูลต้องใช้ระยะเวลานาน  มีค่าใช้จ่ายที่สูง และต้องใช้ผู้ที่มีความเชี่ยวชาญในการสร้าง ดังนั้นงานวิจัยนี้จึงเสนอกรอบแนวคิดในการนำฐานความรู้ที่อยู่ในรูปแบบออนโทโลยี (Ontology) มาช่วยในการสร้างโครงสร้างแบบดาว (Star schema) กระบวนการทำงานของงานวิจัยนี้ประกอบ 3 ส่วนได้แก่ 1) การสกัดและวิเคราะห์ข้อมูล 2) การสร้างโครงสร้างแบบดาว และ 3) การสกัดและโหลดข้อมูล เพื่อสนับสนุนการประมวลผลเชิงวิเคราะห์ออนไลน์ (Online analytical processing) ผู้วิจัยเสนอการสร้างโครงสร้างข้อมูลแบบหลายมิติจากข้อมูลแบบกึ่งโครงสร้างในรูปแบบไฟล์ .CSV ความท้าทายของโครงสร้างข้อมูลประเภทนี้คือข้อมูลไม่ได้มีโครงสร้างที่ชัดเจน ไม่มีการระบุคีย์หลัก (Primary key) คีย์นอก (Foreign key) และไม่ได้ระบุความสัมพันธ์ระหว่างตารางไว้ซึ่งสำคัญสำหรับการสร้างโครงสร้างแบบดาว ผู้วิจัยได้เสนอเทคนิคการอนุมานชื่อคอลัมน์โดยใช้ฟังก์ชันความหนาแน่นของความน่าจะเป็น (Probability density function) และการเข้ารหัสเลขคณิต (Arithmetic coding) ในกรณีที่ชื่อคอลัมน์ไม่ปรากฏในแหล่งข้อมูลและเทคนิคการอนุมานชนิดข้อมูลด้วยออนโทโลยี การประเมินประสิทธิภาพของกรอบแนวคิดได้นำข้อมูลใน 3 โดเมนที่ต่างกันมาเปรียบเทียบกัน คือโดเมนทางการแพทย์ (ข้อมูลการระบาดของโรคไข้เลือดออก) โดเมนการเกษตร (ข้อมูลผลผลิตข้าว) และโดเมนธุรกิจ (ข้อมูลการขาย) ผลการวิจัยพบว่ากรอบแนวคิดนี้สามารถสร้างโครงสร้างแบบดาวและอนุมานชนิดข้อมูลและชื่อคอลัมน์ได้อย่างมีประสิทธิภาพth
dc.language.isothen_US
dc.publisherNaresuan Universityen_US
dc.rightsNaresuan Universityen_US
dc.subjectคลังข้อมูลth
dc.subjectโครงสร้างข้อมูลแบบหลายมิติth
dc.subjectออนโทโลยีth
dc.subjectData warehouseen
dc.subjectMultidimensional schemaen
dc.subjectOntologyen
dc.subject.classificationComputer Scienceen
dc.subject.classificationEducationen
dc.subject.classificationComputer scienceen
dc.titleวิธีเชิงความหมายสำหรับสร้างโครงสร้างข้อมูลแบบหลายมิติโดยอัตโนมัติth
dc.titleA Semantic Approach to Automate Multidimensional Schema Constructionen
dc.typeThesisen
dc.typeวิทยานิพนธ์th
dc.contributor.coadvisorKraisak Kesornen
dc.contributor.coadvisorไกรศักดิ์ เกษรth
dc.contributor.emailadvisorkraisakk@nu.ac.then_US
dc.contributor.emailcoadvisorkraisakk@nu.ac.then_US
dc.description.degreenameDoctor of Philosophy (Ph.D.)en
dc.description.degreenameปรัชญาดุษฎีบัณฑิต (ปร.ด.)th
dc.description.degreelevelDoctoral Degreeen
dc.description.degreelevelปริญญาเอกth
dc.description.degreedisciplineDepartment of Computer Science and Information Technologyen
dc.description.degreedisciplineภาควิชาวิทยาการคอมพิวเตอร์และเทคโนโลยีสารสนเทศth
Appears in Collections:คณะวิทยาศาสตร์

Files in This Item:
File Description SizeFormat 
NonSanprasit.pdf3.95 MBAdobe PDFView/Open


Items in NU Digital Repository are protected by copyright, with all rights reserved, unless otherwise indicated.