Effect of Outliers on the Robustness of Correlation Coefficients(ผลของข้อมูลที่มีค่าผิดปกติจากกลุ่มต่อความแกร่งของสัมประสิทธิ์สหสัมพันธ์)

Authors

  • นพดล พิมพ์จันทร์ (Noppadol Pimchan) Khon Kaen University
  • ดร.จิราพร เขียวอยู่ (Dr. Jiraporn Khiewyoo) Khon Kaen University
  • นิคม ถนอมเสียง (Nikom Thanomsieng) Khon Kaen University
  • ยุภาพร ตงประสิทธิ์ (Yuparporn Tongprasit) Khon Kaen University

Keywords:

Outliers(ค่าผิดปกติจากกลุ่ม), Robustness(ความแกร่ง), Correlation coefficients(สัมประสิทธิ์สหสัมพันธ์)

Abstract

การวิจัยครั้งนี้เป็นการวิจัยเชิงจำลอง มีวัตถุประสงค์เพื่อศึกษาความแกร่งของสัมประสิทธิ์สหสัมพันธ์เมื่อพบข้อมูลมีค่าผิดปกติจากกลุ่ม ของตัวประมาณค่าสัมประสิทธิ์สหสัมพันธ์ จำนวน 4 แบบ คือ สหสัมพันธ์แบบเพียร์สัน สหสัมพันธ์แบบสเปียร์แมน สหสัมพันธ์แบบเคนดอลล์ และ สหสัมพันธ์แบบถ่วงน้ำหนัก ศึกษาความแกร่งของสัมประสิทธิ์สหสัมพันธ์ในสถานการณ์ต่างๆ ที่แตกต่างกันดังนี้ ขนาดตัวอย่างมี 3 ระดับ คือ 20, 50 และ 100 กำหนดระดับความสัมพันธ์ที่ใช้ในการทดสอบ 5 ระดับคือ 0, 0.20, 0.50, 0.80 และ 1.0 กำหนดจำนวนของค่าผิดปกติจากกลุ่มซึ่งเป็นค่าผิดปกติจากกลุ่มระดับปานกลางด้านบวก เท่ากับ 0%, 5%, 10%, 20% และ 30% ของขนาดตัวอย่าง ตามลำดับ โดยแยกศึกษาการเกิดค่าผิดปกติจากกลุ่มทีละตัวแปร ระดับนัยสำคัญในการทดสอบคือ 0.05 ทำการจำลองข้อมูลด้วยเทคนิคมอนติคาร์โล พัฒนาโปรแกรมจำลองแบบด้วยภาษาซีชาร์บ (C#) ในแต่ละสถานการณ์ทำการทดลองซ้ำ 1,000 ครั้ง เกณฑ์ที่ใช้ในการเปรียบเทียบความแกร่งของสัมประสิทธิ์สหสัมพันธ์มี 2 แบบ คือ 1) ความแกร่งในการทดสอบทางสถิติ ได้แก่ ความสามารถในการควบคุมความคลาดเคลื่อนประเภทที่ 1 และอำนาจการทดสอบ 2) ความแกร่งในการประมาณค่า ได้แก่ ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง ผลการศึกษาพบว่า เมื่อไม่มีค่าผิดปกติจากกลุ่ม และตัวอย่างมีขนาดเล็ก ตัวประมาณค่าสัมประสิทธิ์สหสัมพันธ์แบบสเปียร์แมนมีความแกร่งที่สุด แต่ถ้าตัวอย่างมีขนาดใหญ่ตัวประมาณค่าสหสัมพันธ์แบบเพียร์สันมีความแกร่งที่สุด เมื่อมีค่าผิดปกติจากกลุ่มไม่เกิน 10% ของขนาดตัวอย่าง ตัวประมาณค่าสหสัมพันธ์แบบถ่วงน้ำหนัก และตัวประมาณค่าสัมประสิทธิ์สหสัมพันธ์แบบสเปียร์แมน มีความแกร่งใกล้เคียงกัน ถ้าค่าผิดปกติจากกลุ่มมากกว่า 10% ของขนาดตัวอย่าง ตัวประมาณค่าสหสัมพันธ์แบบสเปียร์แมนจะมีความแกร่งที่สุด ดังนั้น ตัวประมาณค่าสัมประสิทธิ์สหสัมพันธ์แบบสเปียร์และตัวประมาณค่าสัมประสิทธิ์สหสัมพันธ์แบบถ่วงน้ำหนัก เป็นตัวประมาณค่าสัมประสิทธิ์สหสัมพันธ์ที่มีความแกร่งเมื่อมีค่าผิดปกติจากกลุ่มในตัวอย่าง 

This simulation research aimed to investigate the robustness of correlation coefficients with detected outliers. Four estimators of correlation coefficient were considered in the study. These included Pearson product moment correlation coefficient (rxy), Spearman rank correlation coefficient (rs), Kendall rank correlation coefficient (τ) and Biweight Midcorrelation (rb). Robustness of statistical test and estimation were determined. The simulation was performed under all combination of following conditions. A first condition was 3 levels of sample size; n equal 20, 50, and 100 respectively. A second condition was 5 levels of strength of association; ρ equal 0.0, 0.20, 0.50, 0.80, and 1.00 respectively. A third condition was 5 levels, 0.0, 0.05, 0.10, 0.20 and 0.30 of proportion of positive outliers in sample on both variable X and Y. The data were generated through simulation using Monte Carlo technique and the experiment was repeated 1,000 times for each situation. The program for the simulation was developed by C# language. Indicators for assessing the robustness of statistical test were ability in controlling for type I error and power of test. Indicator for assessing the robustness of estimator was mean square error. Findings shown that in case of no outlier with small sample size (n=20), the robust correlation coefficient was rs, but with large sample size, the robust correlation coefficient was rxy. In case of outliers occurred less than 10% of sample size, the rb and rs had the same robustness properties but when outliers occurred more than 10% of sample size rs was the robust correlation coefficient. In conclusion, when there were outliers in sample both rs and rb were robust correlation coefficients.

Downloads

Published

2014-11-17

Issue

Section

วิทยาศาสตร์สุขภาพ