Klasifikasi Artikel Ilmiah Dengan Berbagai Skenario Preprocessing

Hidayatul Ma'rifah, Aji Prasetya Wibawa, Muhammad Iqbal Akbar

Abstract


Penelitian ini bertujuan untuk menemukan kombinasi dan urutan preprocessing dalam text mining yang paling maksimal untuk klasifikasi bidang jurnal berbahasa Indonesia berdasarkan judul dan abstraknya. Tahap-tahap preprocessing yang akan diterapkan terdiri dari case folding, stemming, stopwords removal, transformasi VSM (Vector Space Model), dan SMOTE. Namun, pengamatan tiap skenario berfokus pada stemming dan dua teknik stopwords removal, yaitu stopwords removal berbasis kamus, dan berbasis document frequency setelah melewati proses transformasi ke dalam bentuk VSM dengan pembobotan TF-IDF (Term Trequency–Inverse Document Frequency). Proses klasifikasi mengadopsi algoritma k-NN (K-Nearest Neighbour), yang menentukan kelas suatu data tes dengan melihat tetangga terdekatnya. Dalam penelitian ini, metrik untuk menemukan jarak tetangga terdekat adalah Cosine Similarity. Pengujian klasifikasi menggunakan 10-Fold Cross Validation untuk menghasilkan confusion matrix sebagai hasil akhir. Kinerja klasifikasi terbaik dicapai dengan persentase accuracy sebesar 72.91% dan precision mencapai 73,36%.


Keywords


klasifikasi; text mining; preprocessing; stemming; stopwords removal; k-Nearest Neighbour

Full Text:

PDF

References


Adriani, M., Nazief, B., Asian, J., & Williams, H. E. (2007). Stemming Indonesian: A confix-stripping approach. ACM Transactions on Asian Language Information Processing, 6(4). https://doi.org/10.1145/1316457.1316459

Agus, F., Hatta, H. R., & Mahyudin. (2017). Pengklasifikasian Dokumen Berbahasa Arab Menggunakan K-Nearest Neighbor. JSM STMIK Mikroskil, 18(1), 43–56.

Agusta, L. (2009). Perbandingan Algoritma Stemming Porter Dengan Algoritma Nazief & Adriani Untuk Stemming Dokumen Teks Babahasa Indonesia. 196–201.

Amrizal, V. (2019). Penerapan Metode Term Frequency Inverse Document Frequency (Tf-Idf) Dan Cosine Similarity Pada Sistem Temu Kembali Informasi Untuk Mengetahui Syarah Hadits Berbasis Web (Studi Kasus: Hadits Shahih Bukhari-Muslim). Jurnal Teknik Informatika, 11(2), 149–164. https://doi.org/10.15408/jti.v11i2.8623

Barro, R. A., Sulvianti, I. D., & Afendi, F. M. (2013). Penerapan Synthetic Minority Oversampling Technique (Smote) Terhadap Data Tidak Seimbang Pada Pembuatan Model Komposisi Jamu. Xplore: Journal of Statistics, 1(1).

Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 16(January), 321–357. https://doi.org/10.1613/jair.953

Crone, S. F., Lessmann, S., & Stahlbock, R. (2006). The impact of preprocessing on data mining: An evaluation of classifier sensitivity in direct marketing. European Journal of Operational Research, 173(3), 781–800. https://doi.org/10.1016/j.ejor.2005.07.023

Librian, A. (2017). High quality stemmer library for Indonesian Language (Bahasa). Retrieved from https://github.com/sastrawi/sastrawi

Maarif, A. A. (2015). Penerapan Algoritma TF-IDF untuk Pencarian Karya Ilmiah. Universitas Dian Nuswantoro Semarang, (5), 4. Retrieved from mahasiswa.dinus.ac.id/docs/skripsi/jurnal/15309.pdf

Nurfadila, P. D. (2019). Klasifikasi Jurnal Menggunakan Metode Cosine Similarity dengan Pengurangan Konten pada Judul dan Abstrak Berbasis Frequency.

Qaiser, S., & Ali, R. (2018). Text Mining: Use of TF-IDF to Examine the Relevance of Words to Documents. International Journal of Computer Applications, 181(1), 25–29. https://doi.org/10.5120/ijca2018917395

Rahutomo, F., Kitasuka, T., & Aritsugi, M. (2012). Semantic Cosine Similarity. Semantic Scholar, 2(4), 4–5.

Refaeilzadeh, P., Tang, L., & Liu, H. (2011). Cross-Validation. In Advances in Oto-Rhino-Laryngology (Vol. 71). https://doi.org/10.1159/000323569

Sun, W., Cai, Z., Li, Y., Liu, F., Fang, S., & Wang, G. (2018). Data Processing and Text Mining Technologies on Electronic Medical Records: A Review. Journal of Healthcare Engineering, 2018, 1–9. https://doi.org/10.1155/2018/4302425

Suyanto. (2018). Machine Learning Tingkat Dasar dan Lanjut (1st ed.). Bandung: Informatika Bandung.

Tala, F. Z. (2003). A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. M.Sc. Thesis, Appendix D, pp, 39–46.

Tan, P.-N., Steinbach, M., & Vipin, K. (2006). Introduction to data mining. In Library of Congress. https://doi.org/10.1016/0022-4405(81)90007-8

Wahyuni, R. T., Prastiyanto, D., & Supraptono, E. (2017). Jurnal Teknik Elektro. Jurnal Teknik Elektro, 9(1), 18–23. Retrieved from https://journal.unnes.ac.id/nju/index.php/jte/article/view/10955/6659




DOI: http://dx.doi.org/10.30872/jsakti.v2i2.2681

Refbacks

  • There are currently no refbacks.


Copyright (c) 2020 Sains, Aplikasi, Komputasi dan Teknologi Informasi

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

 

2nd Floor, Faculty of Computer Science and Information Technology
Jl. Panajam Kampus Gn. Kelua Universitas Mulawarman Samarinda-Kalimantan Timur 75123
Phone: +62 813 31112002 (Haviluddin) +62 811 8207777 (Reza)
E-Mail: jurnal.sakti.fkti@gmail.com; sakti@unmul.ac.id

Creative Commons License
Sains, Aplikasi, Komputasi dan Teknologi Informasi by http://e-journals.unmul.ac.id/index.php/jsakti eISSN: 2684-8473 is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.