Please use this identifier to cite or link to this item: http://nuir.lib.nu.ac.th/dspace/handle/123456789/6004
Full metadata record
DC FieldValueLanguage
dc.contributorJiranan Pongthaoen
dc.contributorจีรนันท์ ป้องท้าวth
dc.contributor.advisorAnamai Na-udomen
dc.contributor.advisorอนามัย นาอุดมth
dc.contributor.otherNaresuan Universityen
dc.date.accessioned2024-05-08T02:14:39Z-
dc.date.available2024-05-08T02:14:39Z-
dc.date.created2566en_US
dc.date.issued2566en_US
dc.identifier.urihttp://nuir.lib.nu.ac.th/dspace/handle/123456789/6004-
dc.description.abstractThe purpose of this research is to study and compare the performance of four classification techniques, including logistic regression, decision tree, random forest, and support vector machine, by using three health datasets with different numbers of quantitative and qualitative independent variables, namely the cardiovascular disease dataset, with a similar number of quantitative and qualitative independent variables; the diabetes dataset, which consists of smaller number of quantitative than qualitative independent variables; and the smoking dataset, which includes larger number of quantitative than qualitative independent variables. The independent variables were selected using logistic regression and the correlation coefficient. The performance of the models was evaluated using the 10-fold cross-validation technique, by considering various criteria, which are sensitivity, specificity, accuracy, weighted balance accuracy, and f1weight. The results show that in the case of the cardiovascular disease dataset and the diabetes dataset, the most effective classification technique is support vector machines using all independent variables, which provides a weighted balanced accuracy value of 73.76% and 75.39%, respectively. For the smoking dataset, the most effective classification technique is the support vector machine with independent variables selection using the logistic regression techniques based on the total dataset, which has a weighted balanced accuracy value of 75.41%. It is also found that, the selection of independent variables enhances the logistic regression and the decision tree classifier in terms of better classification performance. Whereas the performances of the random forest and support vector machine classifiers decrease when some independent variables are selected.en
dc.description.abstractงานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาการทำงานและเปรียบเทียบประสิทธิภาพการจำแนกของเทคนิคการจำแนกทั้ง 4 เทคนิค ประกอบด้วย เทคนิคการถดถอยลอจิสติก เทคนิคต้นไม้ตัดสินใจ เทคนิคป่าสุ่ม และเทคนิคซัพพอร์ตเวกเตอร์แมชชีน โดยใช้ข้อมูลด้านสุขภาพที่มีจำนวนตัวแปรอิสระเชิงปริมาณและตัวแปรอิสระเชิงคุณภาพแตกต่างกันทั้งหมด 3 ชุด ได้แก่ ชุดข้อมูลโรคหัวใจและหลอดเลือดซึ่งเป็นชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงปริมาณใกล้เคียงตัวแปรอิสระเชิงคุณภาพ ชุดข้อมูลโรคเบาหวานซึ่งเป็นชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงปริมาณน้อยกว่าตัวแปรอิสระเชิงคุณภาพ และชุดข้อมูลการเลิกสูบบุหรี่ซึ่งเป็นชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงปริมาณมากกว่าตัวแปรอิสระเชิงคุณภาพ และคัดเลือกตัวแปรอิสระด้วยเทคนิคการถดถอยลอจิสติก และค่าสัมประสิทธิ์สหสัมพันธ์ โดยทดสอบประสิทธิภาพของตัวแบบการจำแนกด้วยหลักการ 10 – Fold Cross-Validation จากนั้นวัดประสิทธิภาพของตัวแบบการจำแนกด้วยค่าความไว ค่าความจำเพาะ ค่าความแม่น ค่าความแม่นที่สมดุลแบบปรับน้ำหนักถ่วง และค่าประสิทธิภาพโดยรวมแบบปรับน้ำหนักถ่วง จากการศึกษาพบว่า ชุดข้อมูลโรคหัวใจและหลอดเลือด และชุดข้อมูลโรคเบาหวาน เทคนิคการจำแนกที่มีประสิทธิภาพมากที่สุดคือ เทคนิคซัพพอร์ตเวกเตอร์แมชชีนโดยใช้ตัวแปรอิสระทั้งหมด ซึ่งมีค่าความแม่นที่สมดุลแบบปรับถ่วงน้ำหนักเท่ากับ 73.76% และ 75.39% ตามลำดับ และชุดข้อมูลการเลิกสูบบุหรี่ เทคนิคการจำแนกที่มีประสิทธิภาพมากที่สุด คือ เทคนิคซัพพอร์ตเวกเตอร์แมชชีนที่มีการคัดเลือกตัวแปรอิสระด้วยเทคนิคการถดถอยลอจิสติกโดยใช้ข้อมูลทั้งหมด ซึ่งมีค่าความแม่นที่สมดุลแบบปรับน้ำหนักถ่วงเท่ากับ 75.41%  อีกทั้งยังพบว่า การคัดเลือกตัวแปรอิสระทำให้ตัวแบบการจำแนกด้วยเทคนิคการถดถอยลอจิสติก และเทคนิคต้นไม้ตัดสินใจมีประสิทธิภาพในการจำแนกดีขึ้น ในขณะที่เทคนิคป่าสุ่มและเทคนิคซัพพอร์ตเวกเตอร์แมชชีนมีประสิทธิภาพในการจำแนกลดลงth
dc.language.isothen_US
dc.publisherNaresuan Universityen_US
dc.rightsNaresuan Universityen_US
dc.subjectเทคนิคการถดถอยลอจิสติกth
dc.subjectเทคนิคต้นไม้ตัดสินใจth
dc.subjectเทคนิคป่าสุ่มth
dc.subjectเทคนิคซัพพอร์ตเวกเตอร์แมชชีนth
dc.subjectเทคนิคการคัดเลือกตัวแปรอิสระth
dc.subjectข้อมูลด้านสุขภาพth
dc.subjectLogistic Regressionen
dc.subjectDecision Treeen
dc.subjectRandom Foresten
dc.subjectSupport Vector Machineen
dc.subjectVariable Selectionen
dc.subjectHealth Dataen
dc.subject.classificationMathematicsen
dc.subject.classificationHuman health and social work activitiesen
dc.subject.classificationStatisticsen
dc.titleการเปรียบเทียบประสิทธิภาพของตัวแบบการจำแนกข้อมูลด้านสุขภาพth
dc.titleEfficiency comparison of classification model for health dataen
dc.typeThesisen
dc.typeวิทยานิพนธ์th
dc.contributor.coadvisorAnamai Na-udomen
dc.contributor.coadvisorอนามัย นาอุดมth
dc.contributor.emailadvisoranamain@nu.ac.then_US
dc.contributor.emailcoadvisoranamain@nu.ac.then_US
dc.description.degreenameMaster of Science (M.S.)en
dc.description.degreenameวิทยาศาสตรมหาบัณฑิต (วท.ม.)th
dc.description.degreelevelMaster's Degreeen
dc.description.degreelevelปริญญาโทth
dc.description.degreedisciplineDepartment of Mathematicsen
dc.description.degreedisciplineภาควิชาคณิตศาสตร์th
Appears in Collections:คณะวิทยาศาสตร์

Files in This Item:
File Description SizeFormat 
JirananPongthao.pdf2.95 MBAdobe PDFView/Open


Items in NU Digital Repository are protected by copyright, with all rights reserved, unless otherwise indicated.