Please use this identifier to cite or link to this item: http://nuir.lib.nu.ac.th/dspace/handle/123456789/5332
Title: การเปรียบเทียบเทคนิคการเรียนรู้ของเครื่องเพื่อสร้างตัวแบบการจำแนก ด้วยการปรับปรุงชุดข้อมูลอสมดุล
Comparison of machine learning techniques for classification model construction with modifying imbalanced data
Authors: WARITPON SAENGTHONGRATTANACHOT
วริทธิ์พล แสงทองรัตนโชติ
Anamai Na-udom
อนามัย นาอุดม
Naresuan University
Anamai Na-udom
อนามัย นาอุดม
anamain@nu.ac.th
anamain@nu.ac.th
Keywords: การวิเคราะห์จำแนกกลุ่มเชิงเส้นโดยวิธีของฟิชเชอร์
ต้นไม้ตัดสินใจด้วยอัลกอริทึม C4.5
เทคนิคป่าสุ่ม
โครงข่ายประสาทเทียม
การสุ่มตัวอย่างแบบง่าย
การแบ่งกลุ่มข้อมูลแบบเคมีน
เทคนิคนาอีฟเบย์
Fisher's linear discriminant analysis
Naive Bayes
Decision trees with C4.5 algorithm
Random Forest
k-mean segmentation
Simple random sampling technique
Artificial Neural Network
Issue Date: 2565
Publisher: Naresuan University
Abstract: The purpose of this research was to study the performance of classification techniques on 3 different datasets, which are Bank dataset with an equal number of qualitative and quantitative independent variables; Data Scientist dataset with a greater number of qualitative than quantitative independent variables; and Rice Species dataset with a greater number of quantitative than qualitative. Since these datasets are imbalanced, two under sampling techniques were applied here, which are simple random sampling and k-mean clustering, to enhance the equilibrium of the data set. 5-Fold cross validation concept was applied for constructing the classification models, when designing a training dataset and test dataset. Each dataset was used to build the classification models based on 5 selected techniques including Discriminant Analysis, Naive Bayes, Decision Tree C4.5, Random Forest and Artificial Neural Network. The results indicated that Random Forest outperformed when the dataset with the same number of independent and quantitative variables. Discriminant Analysis worked well when a greater number of quantitative variables and Artificial Neural Network performed well when datasets with a greater number of qualitative variables. Moreover, the result has also shown that balancing the dataset with simple random sampling yielded a more efficient classification model than k-mean clustering. The last notice from this study, the study confirmed that measuring the performance of imbalanced classification model with only accuracy was probably not so effective. Therefore, the precision, recall and F-measure should be considered when selecting the most appropriate classification models for making an application.
งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาประสิทธิภาพเทคนิคการจำแนกกับชุดข้อมูลที่มีจำนวนของตัวแปรอิสระเชิงคุณภาพและเชิงปริมาณแตกต่างกันทั้งหมด 3 ชุดข้อมูลได้แก่ ชุดข้อมูลสถาบันการเงินซึ่งเป็นชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงคุณภาพและเชิงปริมาณเท่ากัน ชุดข้อมูลสายพันธุ์ข้าวซึ่งเป็นชุดข้อมูลที่มีตัวแปรอิสระเชิงปริมาณเท่านั้นและชุดข้อมูลนักวิทยาศาสตร์ข้อมูลซึ่งเป็นชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงคุณภาพมากกว่าเชิงปริมาณ โดยปรับปรุงชุดข้อมูลอสมดุลให้สมดุลด้วยวิธีสุ่มลด 2 เทคนิคได้แก่ การสุ่มตัวอย่างแบบง่ายและการแบ่งกลุ่มข้อมูลแบบเคมีน แบ่งชุดข้อมูลเรียนรู้และชุดข้อมูลทดสอบด้วยหลักการ 5-Fold โดยนำชุดข้อมูลแต่ละชุดมาสร้างตัวแบบการจำแนกด้วยเทคนิคการจำแนกทั้งหมด 5 เทคนิคได้แก่ การวิเคราะห์จำแนกกลุ่มเชิงเส้นโดยวิธีของฟิชเชอร์ เทคนิคนาอีฟเบย์ ต้นไม้ตัดสินใจด้วยอัลกอริทึม C4.5 เทคนิคป่าสุ่มและโครงข่ายประสาทเทียม ผลจากการศึกษาพบว่า เทคนิคป่าสุ่มสามารถทำงานได้ดีภายใต้ชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงคุณและปริมาณเท่ากัน เทคนิคการจำแนกการวิเคราะห์จำแนกกลุ่มเชิงเส้นโดยวิธีของฟิชเชอร์สามารถทำงานได้ดีภายใต้ชุดข้อมูลที่มีตัวแปรอิสระเชิงปริมาณทุกตัวและโครงข่ายประสาทเทียมสามารถทำงานได้ดีภายใต้ชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงคุณภาพมากกว่าปริมาณและพบว่าการปรับปรุงชุดข้อมูลให้สมดุลด้วยการสุ่มตัวอย่างแบบง่ายให้ตัวแบบการจำแนกที่มีประสิทธิภาพสูงกว่าการแบ่งกลุ่มข้อมูลแบบเคมีน อีกทั้งยังพบว่าการวัดประสิทธิภาพตัวแบบการจำแนกที่สร้างจากชุดข้อมูลอสมดุล โดยใช้เพียงค่าความแม่นอย่างเดียวอาจไม่เพียงพอต่อการประเมินประสิทธิภาพ ดังนั้นควรนำค่าความเที่ยง ค่าการเรียกคืนและค่าประสิทธิภาพ มาพิจารณาประกอบการสินใจด้วย
URI: http://nuir.lib.nu.ac.th/dspace/handle/123456789/5332
Appears in Collections:คณะวิทยาศาสตร์

Files in This Item:
File Description SizeFormat 
WaritponSaengthongrattanachot.pdf2.72 MBAdobe PDFView/Open


Items in NU Digital Repository are protected by copyright, with all rights reserved, unless otherwise indicated.