Penerapan seleksi fitur dan rekayasa fitur pada metode decision tree untuk klasifikasi bahasa kasar dan ujaran kebencian pada twitter

Jurnal Teknologi dan Sistem Komputer

View Publication Info
 
 
Field Value
 
Title Penerapan seleksi fitur dan rekayasa fitur pada metode decision tree untuk klasifikasi bahasa kasar dan ujaran kebencian pada twitter
 
Creator Ihsan, Fauzi
Agustian, Surya
 
Subject ujaran kebencian; bahasa kasar; decision tree; twitter; word embeddings;
 
Description Hate speech and abusive language are easily found in written communications in social media like twitter. They often generate a dispute between both parties, the victims and the first who write the tweet. However, it is almost difficult to distinguish a tweet contains hate speech and/or abusive language, for ones who take sides. This research is to build a system to classify the tweets into class of abusive and/or contain hate speech. If hate speech detected, then the hardness level of hatred will be measured. The dataset contains13,126 real tweets data. Word embeddings are used for featuring text.For classification, we use decision tree algorithm. Features engineering and parameters tuning show that performance of the classes of hate speech, abusive, and levelshas improved.The average accuracy from 69.95 to 71.28 for composition of training-testing 90:10, and from 68.74 to 70.56 for 80:20 respectively.This is a significant achievement in raising accuracy of three classes altogether.  Ujaran kebencian dan bahasa kasar mudah ditemukan di dalam komunikasi tertulis di social media seperti twitter. Ia juga dapat memicu terjadinya persengketaan di antara korban dan pengujarnya. Bagaimanapun, akan sulit juga memeriksa apakah suatu tweet mengandung ujaran kebencian dan/atau bahasa kasar bila seseorang berpihak. Penelitian ini bertujuan untuk mengem-bangkan metode untuk mengklasifikasi tweet apakah mengandung ujaran kebencian dan kata-kata kasar. Apabila terdeteksi mengandung ujaran kebencian, maka akan diukur seberapa tinggi level ujaran kebenciannya. Dataset yang digunakan terdiri dari 13.126 cuitanasli twitter. Word Embedding digunakan sebagai fitur dari teks. Untuk klasifikasi, digunakan algoritma decision tree. Dengan beberapa rekayasa fitur dan pengaturan parameter, nilai klasifikasi dari ujaran kebencian, bahasa kasar dan levelnya dapat meningkat. Akurasi rata-rata dari ketiga kelas ujaran kebencian, kata-kata kasar dan level meningkat dari 69.95 menjadi 71.28 untuk komposisi data training-testing 90:10, dan dari 68.74 menjadi 70.56 untuk komposisi 80:20. Hasil ini adalah capaian yang signifikan dalam menaikkan akurasi dari ketiga kelas secara sekaligus.
 
Publisher Departemen Teknik Komputer, Fakultas Teknik, Universitas Diponegoro
 
Date 2021-10-31
 
Type info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion

 
Identifier https://jtsiskom.undip.ac.id/article/view/13907
10.14710/jtsiskom.2021.13907
 
Source Jurnal Teknologi dan Sistem Komputer; 2021: Publication In-Press
Jurnal Teknologi dan Sistem Komputer; 2021: Publication In-Press
2338-0403
 
Language id
 
Rights Copyright (c) 2021 Jurnal Teknologi dan Sistem Komputer
http://creativecommons.org/licenses/by-sa/4.0
 

Contact Us

The PKP Index is an initiative of the Public Knowledge Project.

For PKP Publishing Services please use the PKP|PS contact form.

For support with PKP software we encourage users to consult our wiki for documentation and search our support forums.

For any other correspondence feel free to contact us using the PKP contact form.

Find Us

Twitter

Copyright © 2015-2018 Simon Fraser University Library