Klasifikasi Dokumen Berita Menggunakan Algoritma Enhanced Confix Stripping Stemmer dan Naïve Bayes Classifier

Erwin Yudi Hidayat(1*), Muhammad Aditya Rizqi(2)
(1) Fakultas Ilmu Komputer, Universitas Dan Nuswantoro
(2) Fakultas Ilmu Komputer, Universitas Dan Nuswantoro
(*) Corresponding Author



Abstrak


Berita adalah salah satu sarana informasi bagi masyarakat umum, dengan media online sebagai salah satu sarana untuk mengaksesnya. Di Indonesia, media online memiliki presentase paling besar dalam penyebarluasan berita. Dibutuhkan mekanisme yang dapat mengklasifikasikan setiap topik berita secara akurat. Klasifikasi adalah proses yang krusial, karena memerlukan tahap preprocessing untuk mengubah data tidak terstruktur menjadi informasi yang bermakna. Preprocessing diawali dengan case folding, tokenizing, stemming, dan filtering, diahiri dengan klasifikasi. Penelitian ini menggunakan Enhanced Confix Stripping Stemmer untuk memisahkan kata dasar dari partikel awalan dan imbuhan, yang sebelumnya sulit dilakukan. Algoritma Naïve Bayes Classifier kemudian diterapkan untuk proses klasifikasi. Dataset dari portal www.jawapos.com yang digunakan berjumlah 600 dokumen berita. Data tersebut digunakan sebagai data training, terbagi merata ke dalam kategori Olahraga, Teknologi, Ekonomi, dan Lain-lain. Dari 40 data testing yang diuji, akurasi tiap kategori diperoleh 90%, 90%, 100%, dan 100%, yang menghasilkan rata-rata akurasi keseluruhan kategori sebesar 95%.


Kata Kunci


berita, klasifikasi, Enhanced Confix Stripping Stemmer, Naïve Bayes Classifier, text mining


Teks Lengkap:

PDF


Referensi


[1] K. Nikoloski, “The Role of Information Technology in the Business Sector,” Int. J. Sci. Res., vol. 3, no. 12, pp. 303–309, 2014.

[2] A. Berisha-Shaqiri, “Impact of Information Technology and Internet in Businesses,” Acad. J. Business, Adm. Law Soc. Sci., vol. 1, no. 1, pp. 73–79, 2015.

[3] A. F. Malkawi, “The Impact of the Use of Information Technology in Improving the Quality of Services: A Field Study of Fast-Food Restaurants in Jordan,” Eur. Sci. J. August, vol. 13, no. 23, pp. 359–376, 2017.

[4] J. E. M. Peñalba, G. M. Guzmán, and E. G. de Mojica, “The Effect of Information and Communication Technology in Innovation Level: The Panama SMEs Case,” J. Bus. Econ. Policy, vol. 2, no. 2, pp. 124–131, 2015.

[5] A. S. Kümpel, V. Karnowski, and T. Keyling, “News Sharing in Social Media: A Review of Current Research on News Sharing Users, Content, and Networks,” Soc. Media Soc., vol. 1, no. 2, pp. 1–14, 2015.

[6] S. Cortesi and U. Gasser, “Youth Online and News: A Phenomenological View on Diversity,” Int. J. Commun., vol. 9, no. 1, pp. 1425–1448, 2015.

[7] N. Newman, R. Fletcher, A. Kalogeropoulos, and R. K. Nielsen, “Reuters Institute Digital News Report 2019,” 2019.

[8] J. Hillgaertner, “Current Trends in the History of News,” Reformation, vol. 20, no. 1, pp. 68–76, 2015.

[9] C. E. Everett, “Transformation of Newspapers in the Technology Era,” Elon J. Undergrad. Res. Commun., vol. 2, no. 2, pp. 102–115, 2011.

[10] R. Mesquita, “The Transition of a Traditional Newspaper to the Internet Age: An Historical Account of Le Monde’s Case,” Observatorio, vol. 11, no. 1, pp. 54–60, 2017.

[11] M. S. Weber, “The Tumultuous History of News on the Web,” in The Web as History. Using Web Archives to Understand the Past and the Present, N. Brügger and R. Schroeder, Eds. London: UCL Press, 2017, pp. 83–100.

[12] N. Ahmad, “The Decline of Conventional News Media and Challenges of Immersing in New Technology,” no. 25, pp. 71–82, 2016.

[13] Nurkinan, “Dampak Media Online Terhadap Perkembangan Media Konvensional,” J. Polit. Indones., vol. 2, no. 2, pp. 28–42, 2017.

[14] M. Rustam, “Internet dan Penggunaannya (Survei di Kalangan Masyarakat Kabupaten Takalar Provinsi Sulawesi Selatan ),” J. Stud. Komun. Dan Media, vol. 21, no. 1, pp. 13–24, 2017.

[15] L. P. Supratman, “Penggunaan Media Sosial oleh Digital Native,” J. Ilmu Komun., vol. 15, no. 1, pp. 47–60, 2018.

[16] C. Juditha, “Akurasi Berita dalam Jurnalisme Online (Kasus Dugaan Korupsi Mahkamah Konstitusi di Portal Berita Detiknews),” Pekommas, vol. 16, no. 3, pp. 145–154, 2013.

[17] I. A. Setiawan, T. H. Pudjiantoro, and D. Nursantika, “Klasifikasi Artikel Berita Menggunakan Metode Text Mining dan Naive Bayes Classifier,” in Seminar Nasional Inovasi Dan Aplikasi Teknologi Di Industri, 2017, pp. 1–6.

[18] P. Widodo, J. A. Putra, S. Afiadi, A. Z. Arifin, and D. Herumurti, “Klasifikasi Kategori Dokumen Berita Berbahasa Indonesia dengan Metode Kategorisasi Multilabel Berbasis Domain Specific Ontology,” J. Ilm. Teknol. Inf. Terap., vol. 2, no. 2, pp. 126–137, 2016.

[19] A. Singh and S. K. Chhillar, “A Survey on Machine Learning Techniques for Text Classification,” Int. J. Comput. Sci. Technol., vol. 8, no. 2, pp. 205–209, 2017.

[20] B. Kurniawan, S. Effendi, and O. S. Sitompul, “Klasifikasi Konten Berita Dengan Metode Text Mining,” J. Dunia Teknol. Inf., vol. 1, no. 1, pp. 14–19, 2012.

[21] S. Andini, “Klasifikasi Dokumen Teks Menggunakan Algoritma Naive Bayes dengan Bahasa Pemprograman Java,” J. Teknol. Inf. Pendidik., vol. 6, no. 2, pp. 140–147, 2013.

[22] M. N. Khidfi, Isnawaty, and Jayanti Yusma Sari, “Rancang Bangun Aplikasi Pendeteksian Kesamaan pada Dokumen Teks Menggunakan Algoritma Enhaced Confix Stripping dan Algoritma Winnowing,” Semant. Tek. Inf., vol. 4, no. 2, pp. 1–10, 2018.

[23] H. Shimodaira, “Text Classification using Naive Bayes,” Learn. Data Note, vol. 7, pp. 1–9, 2015.

[24] D. Xhemali, C. J. Hinde, and R. G. Stone, “Naive Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages,” Int. J. Comput. Sci., vol. 4, no. 1, pp. 16–23, 2009.

[25] W. Jang, J. K. Lee, J. Lee, and S. H. Han, “Naive Bayesian Classifier for Selecting Good/Bad Projects during the Early Stage of International Construction Bidding Decisions,” Math. Probl. Eng., vol. 2015, pp. 1–12, 2015.

[26] D. N. Chandra, G. Indrawan, and I. N. Sukajaya, “Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes dengan Fitur N-Gram,” J. Ilm. Teknol. Inf. Asia, vol. 10, no. 1, pp. 11–19, 2016.

[27] F. Z. Tala, “A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia,” University of Amsterdam, 2003.


Artikel Statistik

Abstrak telah dilihat : 1389 kali
PDF telah dilihat : 676 kali

Refbacks

  • Saat ini tidak ada refbacks.


Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

 

Alamat Redaksi :
Departemen Sistem Informasi, Fakultas Teknologi Informasi
Universitas Andalas
Kampus Limau Manis, Padang 25163, Sumatera Barat

email: teknosi@fti.unand.ac.id

  Jumlah Pengunjung :

 

Creative Commons License
This work by JSI-Unand and licensed under a CC BY-SA 4.0 International License.