Please use this identifier to cite or link to this item: http://nuir.lib.nu.ac.th/dspace/handle/123456789/6004
Title: การเปรียบเทียบประสิทธิภาพของตัวแบบการจำแนกข้อมูลด้านสุขภาพ
Efficiency comparison of classification model for health data
Authors: Jiranan Pongthao
จีรนันท์ ป้องท้าว
Anamai Na-udom
อนามัย นาอุดม
Naresuan University
Anamai Na-udom
อนามัย นาอุดม
anamain@nu.ac.th
anamain@nu.ac.th
Keywords: เทคนิคการถดถอยลอจิสติก
เทคนิคต้นไม้ตัดสินใจ
เทคนิคป่าสุ่ม
เทคนิคซัพพอร์ตเวกเตอร์แมชชีน
เทคนิคการคัดเลือกตัวแปรอิสระ
ข้อมูลด้านสุขภาพ
Logistic Regression
Decision Tree
Random Forest
Support Vector Machine
Variable Selection
Health Data
Issue Date: 2566
Publisher: Naresuan University
Abstract: The purpose of this research is to study and compare the performance of four classification techniques, including logistic regression, decision tree, random forest, and support vector machine, by using three health datasets with different numbers of quantitative and qualitative independent variables, namely the cardiovascular disease dataset, with a similar number of quantitative and qualitative independent variables; the diabetes dataset, which consists of smaller number of quantitative than qualitative independent variables; and the smoking dataset, which includes larger number of quantitative than qualitative independent variables. The independent variables were selected using logistic regression and the correlation coefficient. The performance of the models was evaluated using the 10-fold cross-validation technique, by considering various criteria, which are sensitivity, specificity, accuracy, weighted balance accuracy, and f1weight. The results show that in the case of the cardiovascular disease dataset and the diabetes dataset, the most effective classification technique is support vector machines using all independent variables, which provides a weighted balanced accuracy value of 73.76% and 75.39%, respectively. For the smoking dataset, the most effective classification technique is the support vector machine with independent variables selection using the logistic regression techniques based on the total dataset, which has a weighted balanced accuracy value of 75.41%. It is also found that, the selection of independent variables enhances the logistic regression and the decision tree classifier in terms of better classification performance. Whereas the performances of the random forest and support vector machine classifiers decrease when some independent variables are selected.
งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาการทำงานและเปรียบเทียบประสิทธิภาพการจำแนกของเทคนิคการจำแนกทั้ง 4 เทคนิค ประกอบด้วย เทคนิคการถดถอยลอจิสติก เทคนิคต้นไม้ตัดสินใจ เทคนิคป่าสุ่ม และเทคนิคซัพพอร์ตเวกเตอร์แมชชีน โดยใช้ข้อมูลด้านสุขภาพที่มีจำนวนตัวแปรอิสระเชิงปริมาณและตัวแปรอิสระเชิงคุณภาพแตกต่างกันทั้งหมด 3 ชุด ได้แก่ ชุดข้อมูลโรคหัวใจและหลอดเลือดซึ่งเป็นชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงปริมาณใกล้เคียงตัวแปรอิสระเชิงคุณภาพ ชุดข้อมูลโรคเบาหวานซึ่งเป็นชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงปริมาณน้อยกว่าตัวแปรอิสระเชิงคุณภาพ และชุดข้อมูลการเลิกสูบบุหรี่ซึ่งเป็นชุดข้อมูลที่มีจำนวนตัวแปรอิสระเชิงปริมาณมากกว่าตัวแปรอิสระเชิงคุณภาพ และคัดเลือกตัวแปรอิสระด้วยเทคนิคการถดถอยลอจิสติก และค่าสัมประสิทธิ์สหสัมพันธ์ โดยทดสอบประสิทธิภาพของตัวแบบการจำแนกด้วยหลักการ 10 – Fold Cross-Validation จากนั้นวัดประสิทธิภาพของตัวแบบการจำแนกด้วยค่าความไว ค่าความจำเพาะ ค่าความแม่น ค่าความแม่นที่สมดุลแบบปรับน้ำหนักถ่วง และค่าประสิทธิภาพโดยรวมแบบปรับน้ำหนักถ่วง จากการศึกษาพบว่า ชุดข้อมูลโรคหัวใจและหลอดเลือด และชุดข้อมูลโรคเบาหวาน เทคนิคการจำแนกที่มีประสิทธิภาพมากที่สุดคือ เทคนิคซัพพอร์ตเวกเตอร์แมชชีนโดยใช้ตัวแปรอิสระทั้งหมด ซึ่งมีค่าความแม่นที่สมดุลแบบปรับถ่วงน้ำหนักเท่ากับ 73.76% และ 75.39% ตามลำดับ และชุดข้อมูลการเลิกสูบบุหรี่ เทคนิคการจำแนกที่มีประสิทธิภาพมากที่สุด คือ เทคนิคซัพพอร์ตเวกเตอร์แมชชีนที่มีการคัดเลือกตัวแปรอิสระด้วยเทคนิคการถดถอยลอจิสติกโดยใช้ข้อมูลทั้งหมด ซึ่งมีค่าความแม่นที่สมดุลแบบปรับน้ำหนักถ่วงเท่ากับ 75.41%  อีกทั้งยังพบว่า การคัดเลือกตัวแปรอิสระทำให้ตัวแบบการจำแนกด้วยเทคนิคการถดถอยลอจิสติก และเทคนิคต้นไม้ตัดสินใจมีประสิทธิภาพในการจำแนกดีขึ้น ในขณะที่เทคนิคป่าสุ่มและเทคนิคซัพพอร์ตเวกเตอร์แมชชีนมีประสิทธิภาพในการจำแนกลดลง
URI: http://nuir.lib.nu.ac.th/dspace/handle/123456789/6004
Appears in Collections:คณะวิทยาศาสตร์

Files in This Item:
File Description SizeFormat 
JirananPongthao.pdf2.95 MBAdobe PDFView/Open


Items in NU Digital Repository are protected by copyright, with all rights reserved, unless otherwise indicated.