การเปรียบเทียบประสิทธิภาพในการจำแนกเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล

Main Article Content

พนิดา สมบัติมาก
ภัสสร จันทร์หอม
ศุภกร รัศมี
โอฬาร รุ่งมณีธรรมคุณ
สายชล สินสมบูรณ์ทอง

Abstract

Abstract


The objectives of this study were to evaluate and compare the performances of 5 classification methods: Naïve Bayes, k-nearest neighbors, decision tree, artificial neural network, and support vector machine and to compare the sampling methods by SPSS and WEKA. The performance measures were prediction accuracy, mean squared error, and mean absolute deviation. In sampling methods comparison, the data sets used were a data set on the prevalence of breast cancer in Wisconsin, USA, another data set on the prevalence of diabetes in Pima people, India, and another one on Taiwanese customer’s payment through credit card. Each of these data sets were divided into three smaller sets: training, validating, and testing sets at a proportion of 70 : 20 : 10. Using Highlight Exceptions add-in to examine outliers. For the prevalence of breast cancer data set, the best classification method was the artificial neural network method in combination with the SPSS sampling method. For both the prevalence of diabetes and payment through credit card data sets, the best classification method was the k-nearest neighbors’ method in combination with either SPSS or WEKA sampling method. The data sets that had a moderate to high number of outliers favored the same classification method while the data set that had a low number of outliers did not favor the same classification method as those two mentioned above. 


Keywords: outlier; naïve Bayes; k-nearest neighbors; decision tree; artificial neural network; support vector machine

Article Details

Section
Physical Sciences
Author Biographies

พนิดา สมบัติมาก

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

ภัสสร จันทร์หอม

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

ศุภกร รัศมี

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

โอฬาร รุ่งมณีธรรมคุณ

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

สายชล สินสมบูรณ์ทอง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

References

[1] วรพรรณ เจริญขำ, 2556, การตรวจสอบค่านอกเกณฑ์ในตัวอย่างสุ่มจากประชากรปรกติ, วิทยานิพนธ์ปริญญาโท, สถาบันบัณฑิตพัฒนบริหารศาสตร์, กรุงเทพฯ.
[2] นิเวศ จิระวิชิตชัย, 2553, การค้นหาเทคนิคเหมืองข้อมูลเพื่อสร้างโมเดลการวิเคราะห์โรคอัตโนมัติ, มหาวิทยาลัยราชภัฏสวนสุนันทา, กรุงเทพฯ.
[3] Sriwiboon, N., 2016, A comparative efficiency of data mining algorithms for analysis of factors affecting the cancer, SNRU J. Sci. Technol. 8: 344-352.
[4] Priya, R. and Aruna, P., 2012, SVM and neural network based diagnosis of diabetic retinopathy, Int. J. Comp. Appl. 41: 6-12.
[5] กิตติพล วิแสง, สิรภัทร เชี่ยวชาญวัฒนา และคำรณ สุนัติ, 2552, การวิเคราะห์ปัจจัยเสี่ยงของโรคเบาหวาน, การประชุมวิชาการแห่งชาติทาง ด้านคอมพิวเตอร์และเทคโนโลยีสารสนเทศ ครั้งที่ 5, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, กรุงเทพฯ.
[6] เดช ธรรมศิริ, วาทินี นุ้ยเพียร, ภัทราวุฒิ แสงศิริ, ภรัณยา อำมฤครัตน์, ณรงค์ โพธิ และพยุง มีสัจ, 2552, การให้คะแนนสินเชื่อโดยวิธีการทำเหมืองข้อมูลด้วยเทคนิคซับพอร์ตเวกเตอร์แมชชีนรวมทั้งการเลือกใช้ลักษณะที่เหมาะสมร่วมกับการหาค่าพารามิเตอร์ที่เหมาะสมด้วยวิธีค้นหาแบบกริช, การประชุมวิชาการระดับชาติด้านคอมพิวเตอร์และเทคโนโลยีสารสนเทศ ครั้งที่ 5, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, กรุงเทพฯ.
[7] ทิพย์ธิดา วงศ์พิพันธ์, 2555, การใช้เหมืองข้อมูลช่วยในการตัดสินใจการให้สินเชื่อ, วิทยานิพนธ์ปริญญาโท, มหาวิทยาลัยธุรกิจบัณฑิตย์, กรุงเทพฯ.
[8] วรรณสิริ ธุระชน, วรพจน์ สุเมธาวัฒนพงศ์ และณัฐวิภา ส่งสุข, 2557, ระบบการจำแนกพันธุ์ยางพาราโดยใช้ตัวจำแนกนาอีฟเบย์, สาขาวิชาวิทยาการคอมพิวเตอร์และเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์ มหาวิทยาลัยราชภัฏอุดรธานี, อุดรธานี.
[9] Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R., Botstein, D. and Altman, R.B., 2001, Missing values estimation methods for DNA microarrays, Bioinformatics 17: 520-525.
[10] รุจิรา ธรรมสมบัติ, 2554, ระบบสนับสนุนการตัดสินใจในการเลือกใช้แพคเกจอินเทอร์เน็ตมือถือโดยใช้ต้นไม้ตัดสินใจ, สาขาคอมพิวเตอร์ธุรกิจ คณะบริหารธุรกิจ วิทยาลัยราชพฤกษ์, กรุงเทพฯ.
[11] วาทินี นุ้ยเพียร, พยุง มีสัจ และเดช ธรรมศิริ, 2553, การเปรียบเทียบประสิทธิภาพและวิเคราะห์การจำแนกข้อมูลด้วยโครงข่ายประสาทเทียม ซัพพอร์ตเวกเตอร์แมชชีน นาอีฟเบย์ และแครเนียรเรสต์เนเบอร์, การประชุมวิชาการระดับชาติด้านคอมพิวเตอร์และเทคโนโลยีสารสนเทศ ครั้งที่ 5, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, กรุงเทพฯ.
[12] จิรา แก้วสุวรรณ์, 2549, การตรวจจับและการแก้ไขการวางตัวของภาพโดยใช้ซัพพอร์ตเวกเตอร์แมชชีน, วิทยานิพนธ์ปริญญาโท, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, กรุงเทพฯ.
[13] สายชล สินสมบูรณ์ทอง, 2558, การทำเหมืองข้อมูล Data Mining, จามจุรี โปรดัก (จำกัด), กรุงเทพฯ.