Comparison of Gene Classification Methods for Dengue Virus Type Based on Codon Usage

Main Article Content

Panuwat Mekha
Khukrit Osathanunkul
Nutnicha Teeyasuksaet

Abstract

การติดเชื้อไวรัสเด็งกีหรือโรคไข้เลือดออกมีสาเหตุจากเชื้อเด็งกีไวรัส ซึ่งเชื้อไวรัสสามารถถ่ายทอด
สู่มนุษย์โดยมียุงเป็นพาหะนำโรค เชื้อเด็งกีไวรัสแบ่งได้ 4 ซีโรไทป์ ตามประเภทผิวแอนติเจนแต่ละซีโรไทป์
สามารถสร้างภูมิคุ้มกันแบบเฉพาะเจาะจงและสามารถสร้างภูมิคุ้มกันระยะสั้นระหว่างซีโรไทป์ในมนุษย์
ได้มีงานวิจัยหลายเรื่องที่ได้มกี ารตรวจสอบการจำแนกประเภทโมเลกุลของเชอื้ เด็งกีไวรัสออกเปน็ 4 กลุม่ หลัก
โดยใช้กระบวนการทางการเรียนรู้ด้วยเครื่องจักร รวมถึงใช้โคดอนยูสเอสเป็นตัวแยกคุณสมบัติ ในงานวิจัย
นี้ได้จำแนกประเภทโมเลกุลของเชื้อเด็งกีไวรัสด้วยข้อมูลสายลำดับ ทั้งนี้ได้เปรียบเทียบความถูกต้องในการ
จำแนกประเภทโมเลกุลของเชื้อเด็งกีไวรัสด้วยวิธีการต่างๆ จากสายลำดับโมเลกุลของเชื้อเด็งกีไวรัสที่นำมา
ทดสอบทั้งหมด 372 สาย และมีการวัดประสิทธิภาพของโมเดล แบบ 10-การตรวจสอบไขว้ ซึ่งวิธีการแบบ
นิวรอลเน็ตเวิร์ก ให้ผลความถูกต้องสูงสุดเท่ากับร้อยละ 96.22 ในการจำแนกประเภทโมเลกุลของเชื้อเด็งกีไวรัส

The Dengue virus infection or dengue fever is caused by the dengue virus (DENV).
It is transmitted to humans by mosquitoes. There are four serotypes classified together based on
their surface antigens. Each serotype can provide specific immunity and short-term cross-immunity in
human. Several studies have examined the classification of dengue molecules into four major
classes including methods such as machine learning using codon usage as features. In this work
we directly classify dengue molecules using their primary sequences. Thus, we have compared
different methods for data classification to classify sequences of dengue molecules. The method
was tested on 372 dengue sequences from the major classes. Using ten-fold cross-validation,
the neural network yields a prediction accuracy of 96.22% for classifying dengue classes.

Article Details

Section
Research Articles

References

Martina, B. E., Koraka, P., & Osterhaus, A. D. (2009). Dengue virus pathogenesis: an integrated view. Clinical microbiology reviews, 22(4), 564-581.

Azhar, E. I., Hashem, A. M., El-Kafrawy, S. A., Abol-Ela, S., Abd-Alla, A. M., Sohrab, S. S., ... & Madani, T. A. (2015). Complete genome sequencing and phylogenetic analysis of dengue type 1 virus isolated from Jeddah, Saudi Arabia. Virology journal, 12(1), 1.

Aziz, B. A. A., Hassanien, S. E. A., & Abdou, A. M. (2016). Clinical and Hematological Effects of Dengue Viruses Infection. American Journal of Infectious Diseases and Microbiology, 4(4), 74-78.

Laue, T., Emmerich, P., & Schmitz, H. (1999). Detection of dengue virus RNA in patients after primary or secondary dengue infection by using the TaqMan automated amplification system. Journal of clinical microbiology, 37(8), 2543-2547.

Rehm, B. (2001). Bioinformatic tools for DNA/protein sequence analysis, functional assignment of genes and protein classification. Applied microbiology and biotechnology, 57(5-6), 579-592.

Ma, J., Nguyen, M. N., & Rajapakse, J. C. (2009). Gene classification using codon usage and support vector machines. IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), 6(1), 134-143.

Gubler, D. J. (2002). Epidemic dengue/dengue hemorrhagic fever as a public health, social and economic problem in the 21st century. Trends in microbiology, 10(2), 100-103.

Nguyen, M. N., Ma, J., Fogel, G. B., & Rajapakse, J. C. (2009, September). Di-codon usage for gene classification. In IAPR International Conference on Pattern Recognition in Bioinformatics (pp. 211-221). Springer Berlin Heidelberg.

Lin, N., Wu, B., Jansen, R., Gerstein, M., & Zhao, H. (2004). Information assessment on predicting protein-protein interactions. BMC bioinformatics, 5(1), 154.

Shoombuatong, W., Mekha, P., Waiyamai, K., Cheevadhanarak, S., & Chaijaruwanicha, J. (2013). Prediction of human leukocyte antigen gene using k-nearest neighbour classifier based on spectrum kernel. ScienceAsia, 39, 42-49.

Lodhi, H., Saunders, C., Shawe-Taylor, J., Cristianini, N., & Watkins, C. (2002). Text classification using string kernels. Journal of Machine Learning Research, 2(Feb), 419-444.

Saunders, C., Tschach, H., & Shawe-Taylor, J. (2002). Syllables and other string kernel extensions. In Proceedings of the Nineteenth International Conference on Machine Learning (ICML'02).

Andrew, A. M. (2000). An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods by Nello Christianini and John Shawe-Taylor, Cambridge University Press, Cambridge, 2000, xiii+ 189 pp., ISBN 0-521-78019-5 (Hbk,£ 27.50).

Vapnik, V. N. (1998). Statistical learning theory. J (Vol. 3). Wiley, New York.

Amaratunga, D., Cabrera, J., & Lee, Y. S. (2008). Enriched random forests. Bioinformatics, 24(18), 2010-2014.

Milhon, J. L., & Tracy, J. W. (1995). Updated codon usage in Schistosoma. Experimental parasitology, 80(2), 353-356.

Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.

Yang, Y., & Liu, X. (1999, August). A re-examination of text categorization methods. In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval (pp. 42-49). ACM.

Touretzky, D. S., Mozer, M. C., & Hasselmo, M. E. Learning with Ensembles: How over-fitting can be useful.

Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.