ระบบจำแนกและค้นคืนข้อมูลเว็บกระทู้ข่าว ด้วยโครงข่ายประสาทเทียมเปอร์เซ็ปตรอนแบบหลายชั้น

Main Article Content

สุภะ จันทา
นลินภัสร์ ปรวัฒน์ปรียกร

Abstract

งานวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาระบบจำแนกและ ค้นคืนข้อมูลเว็บกระทู้ข่าว โดยใช้โครงข่ายประสาทเทียม เปอร์เซ็ปตรอนแบบหลายชั้น (Multilayer Perceptron) ซึ่งใช้ 3 เครื่องมือหลักในการจำแนกข้อมูลกระทู้ข่าวจากเว็บไซต์ พันทิป ได้แก่ 1) Rapidminer ใช้ในการพัฒนาโมเดลของ โครงข่ายประสาทเทียม 2) Javascript และ jQuery ใช้ในการ พัฒนาระบบเก็บรวบรวมข้อมูล (Crawler) จากเว็บไซต์ พันทิป และ 3) คลาสไลบรารีเล็กซ์โต (Thai Lexeme To­kenizer : LexTo) ใช้ในการตัดคำภาษาไทยและคำนวณหา ค่าน้ำหนัก (Weight) ของคำนั้นๆ เพื่อใช้เป็นชุดข้อมูลสำหรับ เรียนรู้ของโครงข่ายประสาทเทียมในการจำแนกข้อมูล และ ใช้ 4 เครื่องมือหลักในการค้นคืนข้อมูล ได้แก่ 1) Vector Space Model (VSM) ใช้ในการค้นคืนข้อมูลเพื่อเปรียบเทียบความ คล้ายของคำค้นกับเอกสาร 2) Apache Solr ใช้ในการสร้าง ดัชนีข้อมูล (Index) ของเอกสารเพื่อใช้ในการค้นคืนข้อมูล อย่างมีประสิทธิภาพ 3) N-Gram ใช้ในการแนะนำชุดคำถาม ที่ถูกต้องแบบอัตโนมัติ และ 4) LexTo ใช้ในการตัดคำเพื่อ ขยายชุดคำถาม (Query Expansion) ให้ได้ผลลัพธ์ที่ตรงตาม ความต้องการมากที่สุด พร้อมทั้งตัดคำหยุดหรือคำที่ไม่มี ความหมาย (Stop-Word) เพื่อให้ได้ผลลัพธ์ที่ตรงกับความ ต้องการของผู้สืบค้นมากที่สุด จากการทดสอบประสิทธิภาพ ของการจำแนกข้อมูล และการค้นคืนข้อมูลได้ค่าความ แม่นยำ (Precision) เท่ากับ 74.51% และ 86.30% และค่า ความระลึก (Recall) เท่ากับ 75.36% และ 100% ตามลำดับ ซึ่งเป็นค่าที่น่าพอใจ จึงสรุปได้ว่างานวิจัยนี้สามารถจำแนก และค้นคืนข้อมูลได้ในระดับที่ดีมาก

 

A Web News Information Classification and Retrieval System using Multilayer Perceptron Neural Network

Supa Chanta and Nalinpat Porrawatpreyakorn

This paper proposes a web news information retrieval and classification system, using multilayer perceptron neural network. In the part of web news information classification, Rapidminer was used to model an artificial neural network (ANN). Javascript and jQuery was used to develop web Crawler for downloading data from www.pantip.com; while LexTo was used to cut stop-words and calculate word weights. The results of this serve as learning data for the ANN model. In the part of web news information retrieval, a vector space model was used to compare word similarity between words in query and documents. Apache Solr was used to create indexes in documents for improving the retrieval performance. N-Gram was also used for automatic suggestion on a set of queries; while LexTo was used for query expansion in order to get the most accurate results. The testing results of this system reveal the precision values of information classification and retrieval which are 74.51% and 86.30% respectively, and the recall values of information classification and retrieval which are 75.36% and 100% respectively. This shows that the system can be used effectively.

Article Details

Section
บทความวิจัย