Data Regions Extraction for Semi-Structured Web Pages Using Bottom-up Approach(การสกัดพื้นที่ข้อมูลจากหน้าเว็บกึ่งโครงสร้าง โดยใช้วิธีการแบบล่างขึ้นบน)

Authors

  • Wachirawut Thamviset (วชิราวุธ ธรรมวิเศษ) Khon Kaen University
  • Dr.Sartra Wongthanavasu (ดร.ศาสตรา วงศ์ธนวสุ) Khon Kaen University

Keywords:

Information extraction(การสกัดสารสนเทศ), Bottom-up approach(กระบวนการแบบล่างขึ้นบน), Semi-structured web pages(หน้าเว็บแบบกึ่งโครงสร้าง)

Abstract

 

 In this paper, we propose an unsupervised information extraction system called Bottom-up Wrapper (BUW) for automatic extracting the data regions from the semi-structured web pages such as search result pages, product catalog pages, etc. Although, data records in a semi-structured web page are generated from backend databases and encoded into the HTML with fixed templates from server-side scripts, but these data records are represented without the structural information. Moreover, the complexity of the website is increasing, that make it difficult to automatically identify the correct data region and extract the relevant data records. While, many existing techniques use a top-down approach that starts to identify the data regions before the data records and data items. In another way, we figured out the stated problem in a bottom-up way that starts to analyze the repetitive patterns of data items, which can be used for identifying the relevant data records and data regions. This technique is completely unsupervised and maintenance-free wrapper. For performance evaluation purpose, it is empirically tested on the real world websites. Consequently, it provides the outstanding result that the proposed technique is robust and in many cases outperforms existing wrappers such as RSP and SDE (based onDEPTA). 

 บทความนี้ผู้วิจัยได้นำเสนอระบบการสกัดข้อมูลแบบไร้ผู้สอน ที่เรียกว่า Bottom-up Wrapper (BUW) สำหรับใช้สกัดพื้นที่ข้อมูลแบบอัตโนมัติจากหน้าเว็บแบบกึ่งโครงสร้าง เช่น หน้าแสดงผลการค้นหา, หน้าแสดงรายการสินค้า ฯลฯ ซึ่งแม้ว่าระเบียนข้อมูลในหน้าเว็บแบบกึ่งโครงสร้างจะถูกนำมาจากระบบฐาน ข้อมูล และ ถูกเข้ารหัสเป็นภาษา HTML ตามรูปแบบที่ถูกกำหนดไว้โดยโปรแกรมในฝั่งผู้ให้บริการ แต่ระเบียน ข้อมูลเหล่านี้ถูกนำเสนอโดยปราศจากสารสนเทศเชิงโครงสร้าง ยิ่งไปกว่านั้นข้อมูลในหน้าเว็บมีความซับซ้อนของเพิ่มขึ้นเป็นอย่างมากทำให้เป็นการยากที่จะจำแนกพื้นที่ของข้อมูลหลักแบบอัตโนมัติได้ ซึ่งเทคนิคการสกัดข้อมูลที่อยู่แล้วส่วนใหญ่จะใช้กระบวนการแบบบนลงล่าง ที่เริ่มจากการจำแนกหาพื้นที่ของข้อมูลหลัก (main data region) ก่อนจะหาระเบียนข้อมูล (data record) และ ชิ้นส่วนข้อมูลย่อย (data item) ที่อยู่ในระเบียนข้อมูล แต่ในทางตรงข้ามผู้วิจัยได้นำเสนอเทคนิคที่ใช้กระบวนการแบบล่างขึ้นบน โดยเริ่มจากการวิเคราะห์หารูปแบบที่ซ้ำซ้อนของชิ้นส่วนย่อยสุดในระเบียนข้อมูลก่อน แล้วจึงใช้รูปแบบที่พบมาใช้ในการจำแนกตำแหน่งของระเบียนข้อมูล และ หาตำแหน่งของพื้นที่ข้อมูลหลัก ตามลำดับ ซึ่งเทคนิคที่นำเสนอนี้เป็นวิธีการแบบไร้ผู้สอนและสามารถสะกัดข้อมูลจากหน้าเว็บที่ไม่เคยพบมาก่อน สำหรับการทดสอบประสิทธิภาพนั้นได้ทดสอบกับเว็บไซต์จริงโดยมีการเปรียบเทียบประสิทธิภาพกับเทคนิค RSP และ SDE (ซึ่งพัฒนาจากเทคนิค DEPTA) และผลที่ได้พบว่าเทคนิคที่นำเสนอมีความเสถียรและในหลายกรณีได้ผลการสกัดข้อมูลที่มีประสิทธิภาพสูงกว่าเทคนิค RSP และ SDE

Downloads

Published

2015-02-14

Issue

Section

วิทยาศาสตร์และเทคโนโลยี