Please use this identifier to cite or link to this item:
http://nuir.lib.nu.ac.th/dspace/handle/123456789/6050
Title: | การเปรียบเทียบวิธีประมาณค่าพารามิเตอร์ในตัวแบบถดถอยลอจิสติก เมื่อข้อมูลไม่สมดุล A Comparison of Parameter Estimation Methods in Logistic Regression with Unbalanced Data |
Authors: | Sudarut Boontam สุดารัตน์ บุญธรรม Katechan Jampachaisri เกตุจันทร์ จำปาไชยศรี Naresuan University Katechan Jampachaisri เกตุจันทร์ จำปาไชยศรี katechanj@nu.ac.th katechanj@nu.ac.th |
Keywords: | การถดถอยลอจิสติก ข้อมูลไม่สมดุล วิธีภาวะน่าจะเป็นสูงสุด วิธีฟังก์ชันสกอร์ที่ปรับปรุง วิธีเบส์เซียน Logistic regression model Unbalanced data Maximum likelihood method Modified score function method Bayesian method |
Issue Date: | 2566 |
Publisher: | Naresuan University |
Abstract: | The objective of this research is to study and compare predictive efficiency of logistic regression using three parameter estimation methods: Maximum likelihood method (MLE), Bayesian method and Modified score function method (SCORE) in combination with unbalanced data handling using Random Under-Sampling (RUS), Random Over-Sampling (ROS), and Synthetic and Minority Over-sampling (SMOTE) techniques. The study is performed on 2 levels of sample size: 100 and 500, with one and three predictors. The ratios of unbalanced data for group 0 and 1 are 60:40, 70:30, 80:20 and 90:10 respectively. The ratios between Training : Validation are 70:30 and 80:20. In each situation, the simulation is conducted iteratively 1,000 times. The criteria for comparison are accuracy, sensitivity, specificity, and balanced accuracy.
The research results revealed that, for all ratios of unbalanced data, sample sizes and ratios between Training : Validation, when considering the accuracy of correct classification, it was found that, for one predictor, the Bayesian method with Informative prior in combination with SMOTE and, for three predictors, the modified score function method combined with SMOTE yielded the highest accuracy. When considering the sensitivity, for one predictor, the maximum likelihood method combined with RUS or ROS and, for three predictors, the Bayesian method with Informative prior combined with RUS or ROS are the most efficient in most cases and provide similar values. When considering the specificity, for one predictor, the Bayesian method with Informative prior combined with SMOTE and, for three predictors, the modified score function method combined with SMOTE are the most efficient in most cases. When considering the balanced accuracy, for one and three predictors, the maximum likelihood method and the modified score function method combined with RUS, ROS and SMOTE yielded the highest balanced accuracy with similar values. In addition, as the ratio of unbalanced data increases, the maximum likelihood method and the modified score function method combined with RUS, ROS and SMOTE tended to lower the accuracy of correct classification in most cases. งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบประสิทธิภาพการพยากรณ์ของตัวแบบถดถอยลอจิสติก เมื่อประมาณค่าพารามิเตอร์ในตัวแบบ 3 วิธี ได้แก่ วิธีภาวะน่าจะเป็นสูงสุด (MLE) วิธีเบส์เซียน และวิธีฟังก์ชันสกอร์ที่ปรับปรุง (SCORE) ร่วมกับการจัดการความไม่สมดุลของข้อมูลด้วยวิธีการสุ่มลด (RUS) วิธีการสุ่มเกิน (ROS) และวิธีการสังเคราะห์ข้อมูลใหม่ (SMOTE) กำหนดขนาดตัวอย่างที่ใช้ในการศึกษาเท่ากับ 100 และ 500 จำนวนตัวแปรอิสระเท่ากับ 1 และ 3 ตัว อัตราส่วนความไม่สมดุลของข้อมูลในกลุ่ม 0 และ 1 เป็น 60:40, 70:30, 80:20 และ 90:10 ตามลำดับ และอัตราส่วนของข้อมูลระหว่าง Training : Validation เป็น 70:30 และ 80:20 ทำการจำลองข้อมูลโดยกระทำซ้ำ 1,000 ครั้ง ในแต่ละสถานการณ์ที่กำหนด ใช้ค่าความแม่นยำ ความไว ความจำเพาะ และค่าความแม่นที่สมดุล เป็นเกณฑ์ในการเปรียบเทียบ ผลการวิจัยพบว่า ในทุกระดับอัตราส่วนความไม่สมดุลของข้อมูล ขนาดตัวอย่าง และอัตราส่วนระหว่าง Training : Validation เมื่อพิจารณาความแม่นยำของการจำแนกกลุ่มถูกต้อง พบว่ากรณีที่มีตัวแปรอิสระ 1 ตัว วิธีเบส์เซียน กรณีทราบความรู้ก่อนร่วมกับ SMOTE และกรณีที่มีตัวแปรอิสระ 3 ตัว วิธีฟังก์ชันสกอร์ที่ปรับปรุงร่วมกับ SMOTE ให้ความแม่นยำสูงสุด เมื่อพิจารณาค่าความไว พบว่ากรณีที่มีตัวแปรอิสระ 1 ตัว วิธีภาวะน่าจะเป็นสูงสุดร่วมกับ RUS หรือ ROS และกรณีที่มีตัวแปรอิสระ 3 ตัว วิธีเบส์เซียน กรณีทราบความรู้ก่อนหน้าร่วมกับ RUS หรือ ROS มีประสิทธิภาพสูงสุดเป็นส่วนใหญ่และมีค่าใกล้เคียงกัน เมื่อพิจารณาความจำเพาะ พบว่ากรณีที่มีตัวแปรอิสระ 1 ตัว วิธีเบส์เซียน กรณีทราบความรู้ก่อนร่วมกับ SMOTE และกรณีที่มีตัวแปรอิสระ 3 ตัว วิธีฟังก์ชันสกอร์ที่ปรับปรุงร่วมกับ SMOTE มีประสิทธิภาพสูงสุดเป็นส่วนใหญ่ และเมื่อพิจารณาค่าความแม่นที่สมดุล กรณีที่มีตัวแปรอิสระ 1 และ 3 ตัว พบว่าวิธีภาวะน่าจะเป็นสูงสุดและวิธีฟังก์ชันสกอร์ที่ปรับปรุงร่วมกับ RUS, ROS และ SMOTE ให้ความแม่นยำที่สมดุลสูงสุดใกล้เคียงกัน นอกจากนี้ยังพบว่าเมื่ออัตราส่วนความไม่สมดุลของข้อมูลเพิ่มขึ้น ค่าความแม่นยำของการจำแนกกลุ่มถูกต้องด้วยวิธีภาวะน่าจะเป็นสูงสุดและวิธีฟังก์ชันสกอร์ที่ปรับปรุงร่วมกับ RUS, ROS และ SMOTE มีแนวโน้มลดลงเป็นส่วนใหญ่ |
URI: | http://nuir.lib.nu.ac.th/dspace/handle/123456789/6050 |
Appears in Collections: | คณะวิทยาศาสตร์ |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
SudarutBoontam.pdf | 4.92 MB | Adobe PDF | View/Open |
Items in NU Digital Repository are protected by copyright, with all rights reserved, unless otherwise indicated.