การเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มการเป็นโรคไตเรื้อรัง : กรณีศึกษาโรงพยาบาลแห่งหนึ่งในประเทศอินเดีย

สุรวัชร ศรีเปารยะ; สายชล สินสมบูรณ์ทอง

Keywords:

ความใกล้เคียงกันมากที่สุด ต้นไม้ตัดสินใจ โครงข่ายประสาทเทียม ซัพพอร์ตเวกเตอร์แมชชีน ฐานกฎ การถดถอยลอจิสติก นาอีฟเบย์ K-nearest neighbor decision tree artificial neural network support vector machine rule-based logistic regression Naïve Bayes

สุรวัชร ศรีเปารยะ

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

สายชล สินสมบูรณ์ทอง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

Abstract

บทคัดย่อ

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของวิธีการจำแนกกลุ่ม โดยเลือกใช้วิธีความใกล้เคียงกันมากที่สุด วิธีต้นไม้ตัดสินใจ วิธีโครงข่ายประสาทเทียม วิธีซัพพอร์ตเวกเตอร์แมชชีน วิธีฐานกฎ วิธีการถดถอยลอ-จิสติก และวิธีนาอีฟเบย์ เพื่อวัดประสิทธิภาพการจำแนกกลุ่ม โดยใช้ข้อมูลผู้ป่วยโรคไตเรื้อรังของโรงพยาบาลอพอลโล ประเทศอินเดีย โดยแบ่งข้อมูลเป็นชุดสร้างตัวแบบ และชุดทดสอบตัวแบบ ในอัตราส่วน 70 และ 30 ตามลำดับ จากการเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มผู้ป่วยโรคไตเรื้อรัง โดยเปรียบเทียบจากค่าความถูกต้องและค่าความคลาดเคลื่อนกำลังสองเฉลี่ย วิธีการจำแนกกลุ่มที่มีประสิทธิภาพการจำแนกดีที่สุดคือ วิธีต้นไม้ตัดสินใจ ซึ่งให้ค่าความถูกต้อง คือ 100 % และค่าความคลาดเคลื่อนกำลังสองเฉลี่ยคือ 0.0059

คำสำคัญ : ความใกล้เคียงกันมากที่สุด; ต้นไม้ตัดสินใจ; โครงข่ายประสาทเทียม; ซัพพอร์ตเวกเตอร์แมชชีน; ฐานกฎ การถดถอยลอจิสติก; นาอีฟเบย์

Abstract

The objective of this research was to compare the efficiency of several data mining classification methods–K-nearest neighbor, decision tree, artificial neural network, support vector machine, rule-based, logistic regression and Naïve Bayes–for chronic kidney disease from data obtained from Apollo Hospital, India, that are archived in a UCI machine learning database repository. This dataset were divided into a training dataset and a testing dataset at 70 : 30 respectively. The efficiency measures used were accuracy and mean square error. Based on these measures and the Apollo Hospital dataset, the best classification method for chronic kidney disease was the decision tree method that achieved an accuracy of 100 % and a mean square error of 0.0059.

Keywords: K-nearest neighbor; decision tree; artificial neural network; support vector machine; rule-based, logistic regression; Naïve Bayes

Issue

Vol.25 No.5 (September - October 2017)

Section

Medical Sciences

Article Sidebar

Main Article Content

Abstract

Article Details