Please use this identifier to cite or link to this item: http://nuir.lib.nu.ac.th/dspace/handle/123456789/3943
Title: การเปรียบเทียบตัวแบบการถดถอยลอจิสติกและเทคนิคเหมืองข้อมูลสำหรับพยากรณ์การเป็นโรคเบาหวาน
A Comparison of Logistic Regression Model and Data Mining Techniques for Predicting Diabetes  
Authors: RATCHANEEWAN PAISANWARAKIAT
รัชนีวรรณ ไพศาลวรเกียรติ
Anamai Na-udom
อนามัย นาอุดม
Naresuan University. Faculty of Science
Keywords: โรคเบาหวาน การถดถอยลอจิสติกทวิภาค ต้นไม้ตัดสินใจ โครงข่ายประสาทเทียม ค่าความถูกต้อง ค่าความถูกต้องในการจำแนกแบบสมดุล
Diabetes Binary Logistic Regression Decision Tree Artificial Neural Network Accuracy Balance Classification Accuracy
Issue Date: 2564
Publisher: Naresuan University
Abstract: This research aims to analyze factors affecting diabetes and to compare the predictive model for predicting diabetes using a binary logistic regression model, a decision tree with algorithms J48, LMT and an artificial neural network. The dataset obtained from the patients who visited to Naresuan University Hospital, consists of 5,081 cases. The dataset is divided into the training and testing dataset with two ratios, 70:30 and 80:20, respectively. The performance of a predictive model is measured on the testing dataset with the accuracy and balance classification accuracy. The results showed that the factors affecting diabetes are systolic blood pressure, diastolic blood pressure, heart rate, body weight, height and fasting blood sugar. Moreover, the predictive model from artificial neural network performs best in both datasets with the accuracy and balanced classification accuracy 81.7824% and 73.9704% on the dataset (70:30) and 81.4159% and 73.7482% on the second dataset (80:20). The second-best performance and later are the decision tree with algorithm J48 and LMT and the binary logistic regression, respectively. The results of this study indicate that, although the binary logistic regression model did not provide the most effective predictive model compared with those models from the data mining technique. However, the application of independent variable selection based on the binary logistic regression can be used to improve and increase the accuracy of the predictive model with data mining techniques.
งานวิจัยนี้มีวัตถุประสงค์เพื่อวิเคราะห์ปัจจัยที่ส่งผลต่อการเป็นโรคเบาหวานและเปรียบเทียบตัวแบบพยากรณ์การเป็นโรคเบาหวานด้วยวิธีการถดถอยลอจิสติกทวิภาค ต้นไม้ตัดสินใจด้วยอัลกอริทึม J48 และ LMT และเทคนิคโครงข่ายประสาทเทียม โดยใช้ข้อมูลผู้ป่วยที่เข้ามารับบริการในโรงพยาบาลมหาวิทยาลัยนเรศวร จำนวน 5,081 ชุด โดยแบ่งข้อมูลเป็นข้อมูลเรียนรู้ และข้อมูลทดสอบด้วยสัดส่วน 70:30 และ 80:20 ทำการเปรียบเทียบประสิทธิภาพตัวแบบพยากรณ์บนข้อมูลทดสอบด้วยค่าความถูกต้อง และค่าความถูกต้องในการจำแนกแบบสมดุล จากการศึกษาพบว่าปัจจัยที่ส่งผลต่อการเป็นโรคเบาหวาน คือ ค่าความดันขณะหัวใจบีบตัว ค่าความดันขณะหัวใจคลายตัว อัตราการเต้นของหัวใจ น้ำหนัก ความสูง และระดับน้ำตาลในเลือด นอกจากนี้จากผลการศึกษาพบว่า เทคนิคโครงข่ายประสาทเทียมมีประสิทธิภาพในการพยากรณ์ดีที่สุดในชุดข้อมูลทั้ง 2แบบ โดยในชุดข้อมูลแบบที่1 (70:30) ให้ค่าความถูกต้อง และค่าความถูกต้องในการจำแนกแบบสมดุล เท่ากับ 81.7824%และ73.9704% ตามลำดับ และในชุดข้อมูลแบบที่ 2 (80:20) ให้ค่าความถูกต้อง และค่าความถูกต้องในการจำแนกแบบสมดุล เท่ากับ 81.4159%และ 73.7482% ตามลำดับ โดยเทคนิคที่มีประสิทธิภาพรองลงมา คือเทคนิคต้นไม้ตัดสินใจด้วยอัลกอริทึม J48 และ LMT และเทคนิคการถดถอยลอจิสติกทวิภาค ตามลำดับ จากการศึกษาพบว่าแม้เทคนิคการถดถอยลอจิสติกทวิภาคไม่ได้ให้ตัวแบบพยากรณ์ที่มีประสิทธิภาพเมื่อเปรียบเทียบกับตัวแบบพยากรณ์ทางเทคนิคเหมืองข้อมูล แต่การประยุกต์ใช้การคัดเลือกตัวแปรอิสระตามเทคนิคการถดถอยลอจิสติกทวิภาคสามารถนำมาปรับปรุงและเพิ่มประสิทธิภาพให้กับตัวแบบพยากรณ์ด้วยเทคนิคเหมืองข้อมูลได้
Description: Master of Science (M.S.)
วิทยาศาสตรมหาบัณฑิต (วท.ม.)
URI: http://nuir.lib.nu.ac.th/dspace/handle/123456789/3943
Appears in Collections:คณะวิทยาศาสตร์

Files in This Item:
File Description SizeFormat 
62060149.pdf3.86 MBAdobe PDFView/Open


Items in NU Digital Repository are protected by copyright, with all rights reserved, unless otherwise indicated.