Please use this identifier to cite or link to this item: http://nuir.lib.nu.ac.th/dspace/handle/123456789/5317
Title: Data Classification Improvement using Semantic Decision Tree
การปรับปรุงประสิทธิภาพการจำแนกข้อมูลโดยใช้เทคนิคต้นไม้ตัดสินใจเชิงความหมาย
Authors: Sirichanya Chanmee
ศิริจรรยา จันทร์มี
Kraisak Kesorn
ไกรศักดิ์ เกษร
Naresuan University
Kraisak Kesorn
ไกรศักดิ์ เกษร
kraisakk@nu.ac.th
kraisakk@nu.ac.th
Keywords: การจำแนกข้อมูล
ID3
เกนสารสนเทศ
วิธีการเชิงความหมาย
ฐานความรู้
Classification
ID3
Information Gain
Semantic
Knowledge-base
Issue Date: 2565
Publisher: Naresuan University
Abstract: Decision trees are a well-known algorithm for classification tasks. The performance of a decision tree depends on the quality of the learning data and the efficiency of the decision construction process with information gain. With the multi-valued bias that is introduced by the use of information gain, the algorithm favors selecting the attribute with multiple values as a node of the decision tree rather than selecting the attributes with fewer values, although the selected attributes may be less important. To deal with this problem, we proposed a new decision tree algorithm which we titled “Semantic Decision Tree (SDT)”, which is based on the Iterative Dichotomiser 3 (ID3) algorithm. The proposed algorithm exploits knowledge in an ontology to assist the decision tree construction process. The concepts and relationships between concepts are used to determine the attribute importance values. These values are used to adjust the information gain to revise the decision tree. The knowledge in the ontology is also applied during the data preparation process to improve the data quality, which enhances the classification performance. Four publicly available datasets: Soybean, Heart Disease, COVID-19 and Dengue fever, were applied to evaluate the proposed algorithm. The experimental results demonstrated that using the knowledge in the ontology enhances the decision tree construction performance. The proposed algorithm also achieved better accuracy than other decision tree algorithms, e.g., the ID3, CART, C4.5 and the Mutual Information Decision Tree (MIDT).
เทคนิคต้นไม้ตัดสินใจเป็นอัลกอริทึมสำหรับการจำแนกข้อมูลที่ได้รับความนิยม ซึ่งประสิทธิภาพในการจำแนกข้อมูลของเทคนิคนี้จะขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ในการเรียนรู้รวมถึงประสิทธิภาพของกระบวนการในการพิจารณาแอตทริบิวต์สำหรับทำหน้าที่เป็นโหนดของต้นไม้ตัดสินใจด้วยค่าเกนสารสนเทศ อย่างไรก็ตามการใช้ค่าเกนสารสนเทศในการพิจารณาโหนดสำหรับต้นไม้ตัดสินใจยังคงมีข้อจำกัดเรื่องความลำเอียงในการพิจารณาโหนดสำหรับต้นไม้ตัดสินใจ โดยแอตทริบิวต์ที่มีค่าข้อมูลที่หลากหลายจะมีโอกาสถูกเลือกเป็นโหนดสำหรับต้นไม้ตัดสินใจมากกว่าแอตทริบิวต์อื่น ๆ เพื่อลดปัญหาดังกล่าวในการวิจัยนี้จึงได้นำเสนออัลกอริทึมต้นไม้ตัดสินใจ เชิงความหมาย ซึ่งจะใช้อัลกอริทึม ID3 (Iterative Dichotomiser 3) เป็นพื้นฐาน อัลกอริทึมต้นไม้ตัดสินใจเชิงความหมายที่นำเสนอจะนำองค์ความรู้ในออนโทโลยีมาใช้ช่วยสนับสนุนกระบวนการสร้างต้นไม้ตัดสินใจ โดยแนวความคิดและความสัมพันธ์ของแนวความคิดในออนโทโลยีจะถูกนำมาใช้ในการระบุค่าระดับความสำคัญของแอตทริบิวต์ในชุดข้อมูล และนำค่าระดับความสำคัญที่ได้ไปใช้ในการปรับปรุงค่าเกนสารสนเทศเพื่อให้สามารถพิจารณาแอตทริบิวต์สำหรับเป็นโหนดของต้นไม้ตัดสินใจได้อย่างเหมาะสมมากยิ่งขึ้น รวมถึงนำองค์ความรู้ในออนโทโลยีมาใช้ในการสนับสนุนการจัดเตรียมข้อมูลเพื่อช่วยเพิ่มประสิทธิภาพในการจำแนกข้อมูลอีกด้วย ในการวิจัยครั้งนี้ได้ทำการทดสอบวิธีการที่นำเสนอกับชุดข้อมูลจำนวน 4 ชุดข้อมูล ได้แก่ ชุดข้อมูลการเกิดโรคของถั่วเหลือง ชุดข้อมูลผู้ป่วยโรคหัวใจ ชุดข้อมูลผู้ป่วยโรคติดเชื้อไวรัสโคโรนา 2019 และชุดข้อมูลผู้ป่วยโรคไข้เลือดออก ผลการวิจัยพบว่าการนำองค์ความรู้ที่อยู่ในรูปแบบของออนโทโลยีสามารถช่วยเพิ่มประสิทธิภาพในการจำแนกข้อมูลของต้นไม้ตัดสินใจ โดยช่วยให้ความถูกต้องในการจำแนกข้อมูลมีค่าเพิ่มขึ้น และมีค่าความถูกต้องในการจำแนกข้อมูลมากกว่าอัลกอริทึมต้นไม้ตัดสินใจอื่น ๆ เช่น ID3  CART (Classification and Regression Tree)  C4.5 และMIDT (Mutual Information Decision Tree)
URI: http://nuir.lib.nu.ac.th/dspace/handle/123456789/5317
Appears in Collections:คณะวิทยาศาสตร์

Files in This Item:
There are no files associated with this item.


Items in NU Digital Repository are protected by copyright, with all rights reserved, unless otherwise indicated.