ตัวกรองคัดเลือกลักษณะเฉพาะสำหรับการจำแนกข้อมูลเพื่อการประยุกต์ ใช้บนระบบอินเทอร์เน็ตของทุกสิ่ง

พาสน์ ปราโมกข์ชน, พันธุ์ปิติ เปี่ยมสง่า

Abstract


ระบบอินเตอร์เน็ตที่เชื่อมต่อในทุกสิ่งเป็นเทคโนโลยีที่ถูกนำมาใช้ในชีวิตประจำวันด้านต่างๆ
อยา่ งกวา้ งขวาง ซงึ่ ระบบไดก้ อ่ ใหเ้ กิดขอ้ มูลดิจทิ ลั ปริมาณมหาศาลซงึ่ มีสารสนเทศทมี่ ปี ระโยชนซ์ อ่ นอยู ่ เทคนิค
ด้านเหมืองข้อมูลจึงถูกนำมาประยุกต์ใช้เพื่อวิเคราะห์และค้นหาสารสนเทศเหล่านี้ การจำแนกข้อมูล
เป็นเทคนิคด้านเหมืองข้อมูลที่ถูกประยุกต์ใช้กับการพัฒนระบบอัจฉริยะ การคัดเลือกลักษณะเฉพาะเป็น
การเตรียมชุดข้อมูลตัวอย่างที่เหมาะสมสำหรับการพัฒนาตัวจำแนกข้อมูลอย่างมีประสิทธิภาพในด้าน
การเรียนรูข้ อ้ มูลเพอื่ สรา้ งโมเดลและการจำแนกขอ้ มูลใหม ่ บทความนนี้ าํ เสนอตัวกรองคัดเลือกลักษณะเฉพาะ
เพื่อการจำแนกข้อมูลกรณีที่มีจำนวนลักษณะเฉพาะจำนวนมาก ซึ่งเป็นธรรมชาติของข้อมูลที่ได้จากระบบ
อินเตอร์เน็ตที่เชื่อมต่อในทุกสิ่ง ด้วยการประยุกต์ใช้เทคนิคทางสถิติเพื่อประเมินค่าขีดแบ่งเพื่อเลือกกลุ่ม
ของลักษณะเฉพาะที่ดีที่สุดต่อการจำแนกข้อมูล วิธีการที่นำเสนอสามารถหลีกเลี่ยงการวนทำซํ้าหลายครั้ง
และช่วยทำให้ขั้นตอนการวิจัยและพัฒนาระบบอัจฉริยะสามารถทำได้อย่างรวดเร็วและแม่นยำมากยิ่งขึ้น
บทความได้ทดลองเปรียบเทียบการคัดเลือกลักษณะเฉพาะที่ได้นำเสนอกับวิธีการที่มีอยู่เดิมและชุดข้อมูล
มาตรฐานที่มีจำนวนลักษณะเฉพาะจำนวนมากและมีหลายกลุ่มคำตอบ ผลการทดลองแสดงให้เห็นว่า
ขั้นตอนวิธีการที่ได้นำเสนอสามารถคัดเลือกลักษณะเฉพาะจำนวนน้อยและมีนัยสำคัญต่อประสิทธิภาพ
การจำแนกข้อมูลและสามารถใช้ทดแทนวิธีการคัดเลือกแบบเดิมได้อย่างมีประสิทธิภาพ

The Internet of Things (IoT) is a new important technology that is widely used in various
fields today. This technology has generated and captured an enormous amount of data. Several
techniques of data mining have been applied to analyze and search for valuable information hidden
from these data in order to improve IoT smarter. Data Classification is one of mining techniques
which has played a role in the development of intelligent systems by using valuable information
from IoT. Feature selection is an important process for improving the efficiency of classification both
in terms of data learning to construct the model and of classifying a new instance. This paper
presents a filter-based feature selection method for analysis highly dimensional data which is the
particular characteristic of IoT data. The proposed feature selection effectively estimates the
statistical cut-off to select the optimal feature subset for classification. This proposed method can
avoid iterative empirical process, thus, this will help the tasks of research and development of
intelligent systems in terms of speed-up and correctness. The classification performance of the
proposed feature selection method on the highly dimensional dataset is compared with the existing
method. The results show that the proposed method can select a small feature subset which has
effective performance. It means that the intelligent system in IoT can use the proposed feature
selection method instead of the traditional feature selection.


Keywords


ระบบอัจฉริยะ; ระบบเหมืองข้อมูล; การจำแนกข้อมูล; การคัดเลือกลักษณะเฉพาะ ตัวกรอง; Intelligent System; Data Mining; Data Classification; Feature Selection; Filtering

Full Text:

PDF

References


Chun-Wei Tsai, Chin-Feng Lai, Ming-Chao Chiang, Laurence T. Yang. (2014). Data Mining for Internet of Things: A Survey. IEEE Communications surveys & tutorials. 16(1), 77-97.

Feng Chen, Pan Deng, Jiafu Wan, Daqiang Zhang, Athanasios V. Vasilakos, and Xiaohui Rong. (2015). Data Mining for the Internet of Things: Literature Review and Challenges. International Journal of Distributed Sensor Networks. 15, 1-14.

Jayavardhana Gubbi, Rajkumar Buyya, Slaven Marusic, Marimuthu Palaniswami. (2013). Internet of Things (IoT): A vision, architectureal elements, and future directions. Future Generation Computer Systems. 13(29), 1645-1660.

L. Yu and H. Liu. (2004). Efficient Feature Selection via Analysis of Relevance and Redundancy. J. Mach. Learn. Res. 5, 1205-1224.

H. Liu and L. Yu. (2005). Toward integrating feature selection algorithms for classification and clustering. IEEE Transactions on Knowledge and Data Engineering. 17, 491-502.

E. F. Combarro, E. Montanes, I. Diaz, J. Ranilla, and R. Mones. (2005). Introducing a family of linear measures for feature selection in Text categorization. IEEE Transactions on Knowledge and Data Engineering. 17, 1223-1232.

J. Yang, Y. Liu, X. Zhu, Z. Liu, and X.Zhang. (2012). A new feature selection based on Comprehensive measurement both in inter-category and intra-category for text categorization. Information Processing & Management. 48, 741-754.

C. leys, C. Ley, O. Klein, P. Bernard, and L. Licata. (2013). Detecting Outliers: Do not use standard deviation around the mean, use absolute deviation around the median. Journal of Experimental Social Psychology. 49, 764-766.

S. Seo. (2006). A Review and Comparision of Methods for Detecting Outliers in Univariate Data Sets. Master of Science, Graduate School of Public Health University of Pittsburgh.




Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

footer_265
 

ISSN: 1905-9590

http://journal.feu.ac.th

Last updated: 10 January 2015