การสำรวจและคัดเลือกตัวบทสำหรับคลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติ (Survey and Selection of Texts for Thai National Historical Corpus)

เนื้อหาบทความหลัก

พิทยาวัฒน์ พิทยาภรณ์ วิภาส โพธิแพทย์ ธานีรัตน์ จัตุทะศรี นพรัฐ เสน่ห์ พงศ์พัฒน์ เมธีธรรมวัฒน์ สิรีมาศ มาศพงศ์ จักรภพ เอี่ยมดะนุช พลวัฒน์ ไหลมนู

บทคัดย่อ

บทความวิชาการฉบับนี้เป็นรายงานผลการจัดทำโครงการนำร่องเพื่อสำรวจและคัดเลือกตัวบทภาษาไทยที่จะรวบรวมไว้เป็นเสมือนตัวแทนภาษาไทยสมัยต่างๆในคลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติจากผลของโครงการนำร่องได้มีการกำหนดแนวทางการจัดทำคลังข้อมูลที่สำคัญ 3 ประการประการแรกคือได้กำหนดให้การคัดเลือกข้อมูลเป็นไปตามแนวทางของBritish National Corpus  และคลังข้อมูลภาษาไทยแห่งชาติโดยจะพยายามควบคุมให้มีตัวบทเชิงให้ข้อมูลประมาณร้อยละ 75 และตัวบทเชิงจินตนาการร้อยละ 25 ประการที่สองได้กำหนดให้มีการกำกับข้อมูลตัวบทแต่ละตัวบทด้วยสมัยประวัติศาสตร์และปีพุทธศักราชที่แต่งควบคู่กันไปทั้งนี้เพราะตัวบทจำนวนมากไม่สามารถระบุปีที่แต่งได้ชัดเจนประการสุดท้ายได้กำหนดให้มีการกำกับลักษณะพิเศษของตัวบทประเภทร้อยกรองเช่นชื่อเพลงหน้าพาทย์บทบาทของผู้แสดงฯลฯด้วยเนื่องจากลักษณะเหล่านี้ล้วนเป็นส่วนหนึ่งของตัวบทที่ผู้แต่งตั้งใจกำหนดไว้ในโครงการคลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติระยะต่อไปจะดำเนินการประมวลผลตัวบทที่คัดเลือกไว้จำนวนประมาณ 2.0 ล้านคำเป็นตัวบทเชิงจินตนาการจำนวน 0.7 ล้านคำและตัวบทเชิงให้ข้อมูลจำนวน 1.3 ล้านคำคาดว่าจะสามารถเริ่มเผยแพร่คลังข้อมูลให้สาธารณชนทดลองใช้ได้ภายในเดือนเมษายนพ.ศ. 2559

This article reports on the pilot project for the Thai National Historical Corpus, a diachronic corpus that represents the different stages of the Thai language. Three important decisions were made as a result of the project. First, the texts will be selected according to the criteria designed for the British National Corpus and also adopted by the Thai National Corpus. To keep the data balanced, approximately 25% and 75% of the texts in the corpus will be imaginative and informative respectively. Second, the texts will be tagged for both the historical era and the year of composition. This is because exact dates cannot be specified for a great number of texts. Last but not least, special features found in poetic texts will also be tagged as they are considered part of the text as intended by the authors. In the next phase of the Thai National Historical Corpus, 2.0 million words of texts, including 0.7 million words of imaginative texts and 1.3 million words of informative texts will be processed. The corpus is expected to be launched by April 2016.

รายละเอียดบทความ

ประเภทบทความ
Articles
ประวัติผู้แต่ง

นพรัฐ เสน่ห์

อักษรศาสตร์มหาบัณฑิต ภาควิชาภาษาไทย คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

พงศ์พัฒน์ เมธีธรรมวัฒน์

อักษรศาสตร์มหาบัณฑิต ภาควิชาภาษาไทย คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

สิรีมาศ มาศพงศ์

นิสิตปริญญามหาบัณฑิต ภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

จักรภพ เอี่ยมดะนุช

นิสิตปริญญาดุษฎีบัณฑิต ภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

พลวัฒน์ ไหลมนู

นิสิตปริญญามหาบัณฑิต ภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย