Gambaran Umum Sistem Akurasi Data

36

3. BAB III

PERANCANGAN SISTEM

3.1 Gambaran Umum Sistem

Sistem yang dibangun dalam penelitian ini adalah sistem pengujian akurasi dari penggunaan metode Multinomial Naïve Bayes pada klasifikasi data teks lirik lagu. Lirik lagu yang digunakan adalah lirik lagu dari beberapa situs website salah satunya adalah lirik.kapanlagi.com dan liriklaguanak.com. Proses klasifikasi yang akan dilakukan pada sistem ini menggunakan metode Multinomial Naïve Bayes sebagai klasifikasi. User dalam sistem ini adalah pihak yang menggunakan sistem. Data yang digunakan dalam penelitian adalah data dengan format ekstensi .txt yang diimport dari direktori kemudian hasil teks akan dieksekusi kedalam proses indexing. Proses klasifikasi tersebut dapat dilihat pada Gambar 3.1. Data Training Tentukan Kategori Tokenazing Normalization Stop Word Stemming Sorting dan Grouping Indexing Hitung Prior Porbabilitas Hitung Conditional Probabilites Laplace Smoothing Training Data Testing Tokenazing Normalization Stop Word Stemming Sorting dan Grouping Indexing Matching Pangkatkan Nilai Conditional Probabilites Hitung Probabilitas Tiap Kelas Testing Hasil Klasifikasi Model Index Index Classification Modelling Gambar 3.1 Diagram Block Proses Klasifikasi 37 Pada Gambar 3.1 proses indexing menghasilkan kumpulan kata beserta nilai frekuensi kata dari masing - masing yang telah diseleksi. Kumpulan kata ini akan diolah menggunakan metode Multinomial Naïve Bayes sehingga menghasilkan model yang digunakan untuk proses klasifikasi. Proses klasifikasi, akan melalui proses indexing yang sama pada proses training tanpa diketahui kelas atau kategorinya yang menghasilkan kumpulan kata. Hasil kumpulan kata digunakan untuk proses matching agar mendapatkan daftar kata yang sama pada kumpulan kata dan data model. Hasil proses matching digunakan untuk melakukan klasifikasi menggunakan metode Multinomial Naïve Bayes.

3.2 Teknik Analisis Data

3.2.1 Metode Pengumpulan Data

Data yang diperoleh merupakan data yang melalui beberapa tahapan. Adapaun tahapan yang dilalui untuk melakukan pengumpulan data dalam penelitian ini sebagai berikut: 1. Studi Pustaka Penggunaan studi pustaka pada penelitian ini adalah untuk mencari sumber – sumber mengenai metode Multinomia Naive Bayes untuk mengklasifikasikan data teks. 2. Observasi Penggunaan observasi pada penelitian adalah untuk melakukan pencarian data teks lirik lagu dari berbagai macam situs website. 38 3. Wawancara Metode wawancara digunakan untuk pengelompokan data sebagai acuan pemberian label terhadap data dari seorang ahli. Dalam kasus penelitian ahli dipilih dari dosen psikologi untuk menentukan klasifikasi data yang baik dan tidak baik untuk anak.

3.2.1 Pengolahan Data

Dalam penelitian data yang digunakan sebanyak 500. Data yang digunakan diperoleh melalui beberapa situs website. Pembagian data dapat dilihat pada tabel 3.1 berikut: Tabel 3.1 Tabel Data Training dan Testing Jumlah Data Data Training Data Testing Klasifikasi Lagu Baik 200 50 Lagu Tidak Baik 200 50 Total 400 100 Sebanyak 400 data sebagai data training akan melalui tahap preprocessing untuk mendapatkan sebuah model dan 100 data sebagai data testing akan melalui tahap preprocessing untuk mencocokan data testing dengan model untuk mengetahui hasil klasifikasi. Sampai pada akhirnya perhitungan akurasi dengan menggunakan confusion matrix. 39

3.2.2 Preprocessing Data

Preprocessing akan dilalui oleh data sebelum proses klasifikasi. Proses ini dilakukan untuk meminimalisir permasalahan yang timbul dalam data diantaranya mengurangi jumlah kata yang tidak berarti atau tidak memiliki makna dalam data dalam dokumen. Proses yang berlangsung pada setiap data dilakukan melalui tahapan sebagai berikut : 1 Tokenizing Tahapan ini, menghilangkan karakter yang tidak memiliki arti pada kumpulan kata. 2 Normalization Tahapan ini, mengembalikan bentuk kata dari huruf besar menjadi huruf kecil. 3 Stop Word Tahapan ini, menghilangkan kata yang tidak memiliki arti atau tidak mempengaruhi pemerolehan informasi. 4 Stemming Tahapan ini, mengembalikan bentuk kata menjadi bentuk kata dasar 5 Sorting dan Grouping Tahapan ini, mengurutkan kata dari abjad a sampai z serta menggabungkan kata yang sama. 40

3.2.3 Klasifikasi Data

Proses klasifikasi data yang telah melalui tahapan menghitung frekuensi kata yang akan diklasifikasikan berdasarkan klasifikasi yang telah ditentukan. Klasifikasi data ini menggunakan metode Multinomial Naïve Bayes, adapun tahapan dalam proses klasifikasi data adalah sebagai berikut : 1. Menghitung Prior Probabilitas Pada proses ini , hitung prior probabilitas pada data training dalam kelas dengan menggunakan rumus: � � = � � � 2. Menghitung Conditional Probabilitas Pada proses ini , hitung nilai conditional probabilitas pada setiap data baik data training atau testing dengan menggunakan rumus berikut: � |� = � � ∑ ′ ∈ � � � Untuk menghilangkan nilai nol pada sebuah dokumen, digunakan laplace smoothing sebagai proses penambahan nilai 1 pada setiap nilai T ct pada perhitungan conditional probabilities dan dinyatakan dengan rumus: � � � |� = � � + ∑ ′ ∈ � � � + ′ 41 3. Hasil proses matching antara model dan data testing Pada proses ini, untuk data testing akan dicari hasil matching melalui pengecekan ada atau tidak kata yang dicari pada model. 4. Hasil matching beserta dengan nilai conditional probabilitas-nya Pada proses ini, setelah proses matching antara model dan data testing maka nilai dari kata yang sama pada data testing dan model, maka nilai dari kata pada model akan diambil dan dimasukkan dalam data testing. 5. Hasil perkalian conditional probabilitas dengan frekuensi kata Pada proses ini, nilai yang diperoleh dari masing – masing kata pada data testing akan dipangkatkan sesuai dengan jumlah frekuensi kata yang dicari.

3.3 Akurasi Data

Confusion matrix Paskianti, 2011 adalah sebuah tabel yang menyatakan jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang salah diklasifikasikan. Confusion matrix ditunjukan pada tabel berikut: Tabel 3.2 Tabel Confusion Matrix Kelas Prediksi 1 Kelas sebenarnya 1 TP FN FP TN tp True positive : jumlah dokumen dari kelas 1 yang benar diklasifikasikan sebagai kelas 1 tn True negative : jumlah dokumen dari kelas 0 yang benar diklasifikasikan sebagai kelas 0 42 fp False positive : jumlah dokumen dari kelas 0 yang salah diklasifikasikan sebagai kelas 1 fnFalse negative : jumlah dokumen dari kelas 1 yang salah diklasifikasikan sebagai kelas 0 Perhitungan akurasi dinyatakan dalam persamaan berikut: � � � = �� + �� �� + �� + �� + �� � 43

4. BAB IV

IMPLEMENTASI

4.1 Antarmuka Menu

LIRIK LAGU ANALISIS SENTIMEN PADA LIRIK LAGU MENGGUNAKAN METODE MULTINOMIAL NAÏVE BAYES GAMBAR LOGO Lagu Baik Lagu Tidak Baik Total TF Lagu Baik Total TF Lagu Tidak Baik Jumlah Kata Unik dalam Keseluruhan Dokumen PBaik|Data Testing PTidak Baik|Data Testing Apakah lirik dari lagu tersebut baik untuk anak ? Nama : Elsa Rika .O. NIM : 115314079 Tujuan pembuatan aplikasi ini adalah membantu klasifikasi data teks dengan menggunakan metode Multinomial Naïve Bayes guna mempermudah analisis sentimen lagu yang baik atau tidak baik bagi anak BROWSE 200 200 PROSES GAMBAR AKURASI 50 L.Baik Test LT.Baik Test 50 RESET Baik Tdk Baik Gambar 4.1 Menu Gambar diatas merupakan tampilan menu utama dari sistem, tampilan sistem ini mencakup keseluruhan bagian mulai dari input data training, klasifikasi lagu data testing sampai dengan akurasi sistem.

4.2 Antarmuka Training

Lagu Baik Lagu Tidak Baik Proses Gambar 4.2 Input Data