Please use this identifier to cite or link to this item: http://nuir.lib.nu.ac.th/dspace/handle/123456789/5332
Full metadata record
DC FieldValueLanguage
dc.contributorWARITPON SAENGTHONGRATTANACHOTen
dc.contributorวริทธิ์พล แสงทองรัตนโชติth
dc.contributor.advisorAnamai Na-udomen
dc.contributor.advisorอนามัย นาอุดมth
dc.contributor.otherNaresuan Universityen
dc.date.accessioned2023-04-18T02:56:15Z-
dc.date.available2023-04-18T02:56:15Z-
dc.date.created2565en_US
dc.date.issued2565en_US
dc.identifier.urihttp://nuir.lib.nu.ac.th/dspace/handle/123456789/5332-
dc.description.abstractThe purpose of this research was to study the performance of classification techniques on 3 different datasets, which are Bank dataset with an equal number of qualitative and quantitative independent variables; Data Scientist dataset with a greater number of qualitative than quantitative independent variables; and Rice Species dataset with a greater number of quantitative than qualitative. Since these datasets are imbalanced, two under sampling techniques were applied here, which are simple random sampling and k-mean clustering, to enhance the equilibrium of the data set. 5-Fold cross validation concept was applied for constructing the classification models, when designing a training dataset and test dataset. Each dataset was used to build the classification models based on 5 selected techniques including Discriminant Analysis, Naive Bayes, Decision Tree C4.5, Random Forest and Artificial Neural Network. The results indicated that Random Forest outperformed when the dataset with the same number of independent and quantitative variables. Discriminant Analysis worked well when a greater number of quantitative variables and Artificial Neural Network performed well when datasets with a greater number of qualitative variables. Moreover, the result has also shown that balancing the dataset with simple random sampling yielded a more efficient classification model than k-mean clustering. The last notice from this study, the study confirmed that measuring the performance of imbalanced classification model with only accuracy was probably not so effective. Therefore, the precision, recall and F-measure should be considered when selecting the most appropriate classification models for making an application.en
dc.description.abstractงานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาประสิทธิภาพเทคนิคการจำแนกกับชุดข้อมูลที่มีจำนวนของตัวแปรอิสระเชิงคุณภาพและเชิงปริมาณแตกต่างกันทั้งหมด 3 ชุดข้อมูลได้แก่ ชุดข้อมูลสถาบันการเงินซึ่งเป็นชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงคุณภาพและเชิงปริมาณเท่ากัน ชุดข้อมูลสายพันธุ์ข้าวซึ่งเป็นชุดข้อมูลที่มีตัวแปรอิสระเชิงปริมาณเท่านั้นและชุดข้อมูลนักวิทยาศาสตร์ข้อมูลซึ่งเป็นชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงคุณภาพมากกว่าเชิงปริมาณ โดยปรับปรุงชุดข้อมูลอสมดุลให้สมดุลด้วยวิธีสุ่มลด 2 เทคนิคได้แก่ การสุ่มตัวอย่างแบบง่ายและการแบ่งกลุ่มข้อมูลแบบเคมีน แบ่งชุดข้อมูลเรียนรู้และชุดข้อมูลทดสอบด้วยหลักการ 5-Fold โดยนำชุดข้อมูลแต่ละชุดมาสร้างตัวแบบการจำแนกด้วยเทคนิคการจำแนกทั้งหมด 5 เทคนิคได้แก่ การวิเคราะห์จำแนกกลุ่มเชิงเส้นโดยวิธีของฟิชเชอร์ เทคนิคนาอีฟเบย์ ต้นไม้ตัดสินใจด้วยอัลกอริทึม C4.5 เทคนิคป่าสุ่มและโครงข่ายประสาทเทียม ผลจากการศึกษาพบว่า เทคนิคป่าสุ่มสามารถทำงานได้ดีภายใต้ชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงคุณและปริมาณเท่ากัน เทคนิคการจำแนกการวิเคราะห์จำแนกกลุ่มเชิงเส้นโดยวิธีของฟิชเชอร์สามารถทำงานได้ดีภายใต้ชุดข้อมูลที่มีตัวแปรอิสระเชิงปริมาณทุกตัวและโครงข่ายประสาทเทียมสามารถทำงานได้ดีภายใต้ชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงคุณภาพมากกว่าปริมาณและพบว่าการปรับปรุงชุดข้อมูลให้สมดุลด้วยการสุ่มตัวอย่างแบบง่ายให้ตัวแบบการจำแนกที่มีประสิทธิภาพสูงกว่าการแบ่งกลุ่มข้อมูลแบบเคมีน อีกทั้งยังพบว่าการวัดประสิทธิภาพตัวแบบการจำแนกที่สร้างจากชุดข้อมูลอสมดุล โดยใช้เพียงค่าความแม่นอย่างเดียวอาจไม่เพียงพอต่อการประเมินประสิทธิภาพ ดังนั้นควรนำค่าความเที่ยง ค่าการเรียกคืนและค่าประสิทธิภาพ มาพิจารณาประกอบการสินใจด้วยth
dc.language.isothen_US
dc.publisherNaresuan Universityen_US
dc.rightsNaresuan Universityen_US
dc.subjectการวิเคราะห์จำแนกกลุ่มเชิงเส้นโดยวิธีของฟิชเชอร์th
dc.subjectต้นไม้ตัดสินใจด้วยอัลกอริทึม C4.5th
dc.subjectเทคนิคป่าสุ่มth
dc.subjectโครงข่ายประสาทเทียมth
dc.subjectการสุ่มตัวอย่างแบบง่ายth
dc.subjectการแบ่งกลุ่มข้อมูลแบบเคมีนth
dc.subjectเทคนิคนาอีฟเบย์th
dc.subjectFisher's linear discriminant analysisen
dc.subjectNaive Bayesen
dc.subjectDecision trees with C4.5 algorithmen
dc.subjectRandom Foresten
dc.subjectk-mean segmentationen
dc.subjectSimple random sampling techniqueen
dc.subjectArtificial Neural Networken
dc.subject.classificationMathematicsen
dc.subject.classificationEducationen
dc.subject.classificationStatisticsen
dc.titleการเปรียบเทียบเทคนิคการเรียนรู้ของเครื่องเพื่อสร้างตัวแบบการจำแนก ด้วยการปรับปรุงชุดข้อมูลอสมดุลth
dc.titleComparison of machine learning techniques for classification model construction with modifying imbalanced dataen
dc.typeThesisen
dc.typeวิทยานิพนธ์th
dc.contributor.coadvisorAnamai Na-udomen
dc.contributor.coadvisorอนามัย นาอุดมth
dc.contributor.emailadvisoranamain@nu.ac.then_US
dc.contributor.emailcoadvisoranamain@nu.ac.then_US
dc.description.degreenameMaster of Science (M.S.)en
dc.description.degreenameวิทยาศาสตรมหาบัณฑิต (วท.ม.)th
dc.description.degreelevelMaster's Degreeen
dc.description.degreelevelปริญญาโทth
dc.description.degreedisciplineDepartment of Mathematicsen
dc.description.degreedisciplineภาควิชาคณิตศาสตร์th
Appears in Collections:คณะวิทยาศาสตร์

Files in This Item:
File Description SizeFormat 
WaritponSaengthongrattanachot.pdf2.72 MBAdobe PDFView/Open


Items in NU Digital Repository are protected by copyright, with all rights reserved, unless otherwise indicated.