Klasifikasi Dokumen Twitter Untuk Mengetahui Karakter Calon Karyawan Menggunakan Algoritme K-Nearest Neighbor (KNN)

  Vol. 2, No. 8, Agustus 2018, hlm. 2761-2765 http://j-ptiik.ub.ac.id

  

Klasifikasi Dokumen Twitter Untuk Mengetahui Karakter Calon

Karyawan Menggunakan Algoritme K-Nearest Neighbor (KNN)

1 2 3 Yessivha Imanuela Claudy , Rizal Setya Perdana , M. Ali Fauzi

  Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya 1 2 3 Email: yessivhai@gmail.com, rizalespe@ub.ac.id, moch.ali.fauzi@ub.ac.id

  

Abstrak

Text mining merupakan proses penambangan teks yang berguna untuk mengambil makna penting

  didalamnya agar dapat dilakukan klasifikasi. Pada penelitian ini, dilakukan klasifikasi untuk mengetahui karakter calon karyawan berdasarkan tweet-tweet dari suatu perusahaan. Tweet yang berasal dari Calon Karyawan akan di proses dan setelah itu menghasilkan Karakter-karakter sebagai salah satu acuan dalam penempatan Calon karyawan tersebut. Lalu Karakter-karakter Karyawan ini dibagi menjadi empat kelompok besar sesuai konsep MBTI (Myers-Briggs Type Indicator) yaitu Artisan, Guardian, Idealist, dan Rasional. Selain itu baik Artisan, Guardian, Idealist dan Rasional juga memiliki Ciri-ciri dan Indikator masing-masing.Setelah mendapatkan Tweet Calon Karyawan, tahap berikutnya akan dilakukan Klasifikasi. Klasifikasi ini menggunakan metode algoritme KNN. Dimana terdapat 160 data

  

tweet dari Calon karyawan yang akan dikelompokkan berdasrkan MBTI (Myers-Briggs Type

  Indicator). Data yang di dapatkan dari perusahaan berupa tweet dari calon karyawan ini agar menghasilkan hasil pengujian yang baik, maka dibagi menjadi dua jenis dengan rasio 50% untuk data latih dan 50% untuk data uji. Dengan memasukkan Nilai K yaitu 4 sebagai nilai yang diuji. maka di dapatkan Hasil akurasi sistem yang diperoleh dari klasifikasi karakter calon karyawan berdasarkan tweet adalah 66%. Hasil ini adalah hasil dimana ada 53 hasil data uji yang benar dan 27 hasil data uji yang salah dalam proses pengujian.

  Kata kunci: text mining, Twitter, KNN

Abstract

  

Text mining is the process of mining the text for taking important meaning in it to be able to do the

classification. In this study, conducted to know the classification of the characters prospective

employees based on the tweets from a company. Tweet that comes from prospective employees will in

the process and after that produces characters as one reference in the placement of prospective

employees. Then this Employee characters divided into four large groups according the concept of

MBTI (Myers-Briggs Type Indicator). Artisan, Guardian, Rational, and Idealist. In addition Artisan,

Guardian, Rational and Idealist have characteristics and indicators. After getting the Tweets

prospective employees, the next stage will be made classification. This classification method using KNN

algorithm. Where, there are 160 tweet data from prospective employees will be grouped MBTI (Myers-

Briggs Type Indicator). The data obtained from the company in the form of a tweet from this prospective

employees in order to generate the test results are good, then it is divided into two types by a ratio of

50% training data and 50% for the test data. By entering the value of K that is 4 as the value to test.

Then get a system accuracy results retrieved from the classification of the characters prospective

employees based on their tweets is 66%. These results are the results where there are 53 results of test

data and test data results 27 is wrong in the process of testing Keywords: text mining, Twitter, KNN. resources development . Tujuan wawancara 1.

  adalah untuk mengetahui karakter calon

PENDAHULUAN

  karyawan. Karakter merupakan faktor terbaik Wawancara merupakan salah satu tahapan untuk memprediksi kinerja karyawan walaupun dalam proses penerimaan karyawan. Wawancara tidak secara teknis (Wadyasari et al, 2007; biasa dilakukan oleh ahli dalam hal ini adalah

  Kreitner dan Angelo, 2011). Ada berbagai skala bagian sumber daya manusia atau human

  Fakultas Ilmu Komputer Universitas Brawijaya yang digunakan untuk mengukur karakter seseorang. Banyaknya skala pengukuran karakter tidak akan menjadi rancu karena masing-masing karakter memiliki karakteristik tersendiri (Hartati, 1991). Karakter kepribadian calon karyawan ini menunjukan efektivitas kinerja, kerjasama dalam kelompok, dan kinerja dalam menjalin kerjasama dengan perusahaan lain (Hogan et al, 1994). Selain itu karyawan untuk keberhasilan perusahaan dalam jangka penunjang (Astuti, 2006). Berdasarkan hal tersebut perlu dilakukan proses yang tepat untuk mendapatkan karyawan yang berkualitas, akan tetapi untuk menggali karakter kepribadian calon karyawan melalui proses wawancara membutuhkan waktu yang cukup lama.

  Satu cara yang membantu untuk mendapatkan karakter kepribadian seseorang adalah melalui media sosial. Dengan melihat publikasi kegiatan sehari-hari dapat melihat informasi penting dari pengguna sosial media tersebut. Twitter adalah salah satu media sosial terbesar dengan pengguna pada tahun 2016 lebih dari 300 juta pengguna (Statista, 2016). Setiap hari lebih dari 100 juta tweet atau pesan dipublikasi oleh penggunanya, dimana twitter merupakan tempat mencurahkan segala yang dirasakan. Selain itu penguna twitter secara tidak sadar telah memberikan informasi penting tentang kepribadian dengan Bahasa sehari-hari (Qiu et al, 2012). Analisis untuk mengetahui infomasi penting dalam media sosial sudah banyak dilakukan penelitian, hal ini biasa disebut text mining. Setiap tweet dari calon karyawan akan dilakukan analisis dengan konsep text mining untuk diidentifikasi dan dilakukan kategori atau biasa disebut klasifikasi (Agarwal et al, 2011).

  Saat ini sudah banyak penelitian tentang klasifikasi untuk mengetahui karakter seseorang melalui media sosial salah satunya penelitian Barker et al (1992). Tulisan tersebut mempaparkan tentang cara memahami seseorang melalui kebiasan sehari-hari. Berbagai model digunakan untuk melakukan tes psikologi, salah satu model tes yang dianggap akurat adalah tes berdasarkan faktor Myers- Briggs Type Indicator (MBTI) (Hersey dan Blanchard, 1993). Model MBTI mengelompokan karakter seseorang menjadi empat bagian. Pada penelitian Sarwani dan Mahmudy (2015) juga menggunakan indikator MBTI untuk melakukan pengelompokan karakter seseorang. Selain itu analisis untuk mengetahui karakter seseorang menggunakan twitter mendapatkan hasil yang maksimal (Qiu et al, 2012). Oleh sebab itu, twitter dapat digunakan untuk melakukan analisis dalam mengatahui karakter kepribadian seseorang karena menyimpan informasi pribadi yang penting.

  Tweet seseorang dalam twitter banyak menggunakan kalimat yang tidak baku sehingga (Sarwani dan Mahmudy, 2015). Sehingga perlu dilakukan pengolahan data terlebih dahulu dengan melakukan pre-processing untuk mendapatkan kata penting dalam setiap kata. Setalah dilakukan pre-processing baru dilakukan proses klasifikasi. Ada banyak metode yang digunakan untuk klasifikasi, Naïve Bayes Classifier merupakan metode yang popular dalam melakukan klasifikasi Text Mining (Widodo et al, 2007; Mustofa, 2013; Sarwani dan Mahmudy, 2015; Putranti dan Winarko, 2014). Walaupun Naïve Bayess Classifier banyak digunakan untuk melakukan klasifikasi teks, akan tetapi Naïve Bayess Classifier hanya melihat dari probabilitas saja. K-Nearest Neighbor (KNN) adalah salah satu metode klasifikasi (Keller et al, 1985). KNN melakukan klasifikasi dengan melihat kemiripan objek dengan kelas. Sehingga klasifikasi menggunakan metode KNN akan mendapatkan hasil akurasi yang lebih baik karena melihat jarak antara objek dengan kelas. Penelitian sebelumnya menunjukan bahwa KNN memiliki akurasi yang lebih baik dibandingan dengan Naïve Bayess Classifier (Sreemathy dan Balamurungan, 2012).

  Fokus penelitian ini, pertama mengkaji tentang tes psikologi MBTI. Kedua melakukan proses pre-processing data untuk mendapatkan kata penting dari pesan dalam tweet. Ketiga mengimplementasikan metode KNN untuk melakukan klasifikasi karakter calon karyawan dari tweet menjadi 4 kelompok besar sesuai konsep MBTI.

  2. METODE USULAN

  Sistem yang dikembangkan pada penelitian ini adalah untuk mengetahui karakter calon karyawan pada perusahaan. Metode yang digunakan pada penelitian ini yaitu algoritma K- Nearest Neighbor (KNN). Sementara data yang digunakan adalah tweet-tweet para karyawan dari suatu perusahaan yang dibagi menjadi dua jenis yaitu data latih dan data uji. Data-data yang telah diperoleh tersebut akan diproses pada tahap preprocessing text agar dapat diolah pada proses text mining. Kemudian setiap kata hasil dari preprocessing text akan dilakukan pembobotan kata untuk mendapatkan nilai bobot dari setiap kata. Setelah didapatkan nilai bobot dari setiap kata, maka setiap kata dengan nilai bobotnya tersebut dapat masuk ke tahap klasifikasi yaitu algoritma KNN untuk karyawan dari setiap data uji yang dimasukkan.

  2.1. KNN

  2.2. Twitter

  Pengujian akurasi sistem dilakukan pada sistem ini untuk mengetahui tingkat keberhasilan sistem dalam melakukan klasifikasi kepribadian untuk mengetahui karakter calon karyawan perusahaan menggunakan Twitter. Pengujian ini dilakukan pada 160 data dengan pembagian yaitu 50% untuk data latih atau sekitar 80 data dan 50% untuk data uji atau sekitar 80 data (Ariadi & Fithriasari, 2015). Pengujian ini akan dijelaskan pada skenario pengujian dan analisis hasil pengujian.

  3.1. Pengujian Akurasi Sistem

  3. HASIL DAN PEMBAHASAN

  Berbagai tes kepribadian memang telah dikenal dan dikembangkan selama beratus-ratus tahun lamanya, meski demikian sampai hari ini belum ada teori maupun alat tes yang benar-benar memiliki keakuratan seratus persen dalam mengidentifikasikan tipe kepribadian manusia. Tes Kepribadian MBTI yang masuk kedalam jenis tes kepribadian objektif ini meskipun telah menjadi Tes Kepribadian yang boleh dikatakan terpopuler untuk jenisnya, dan telah dikenal sebagai salah satu Tes Kepribadian terakurat namun tetap saja tidak akan mampu terlepas dari ketidaksempurnaan ciptaan manusia.

  Test MBTI atau Myers Briggs Type Indicator, adalah metode yang mengukur karakter seseorang dalam bentuk kuesioner, khususnya memahami bagaimana seseorang menilai sesuatu dan membuat keputusan.

  Twitter adalah jaringan sosial yang memungkinkan para pengguna dapat mengirim dan membaca pesan. Pesan didalamnya hanya terdapat 140 karakter. Twitter sudah berdiri sejak tahun 2006 bulan Maret dan didirikan oleh Jack Dorsey, dan untuk situs jaringan social didirikan bulan Juli. Pada saat Twitter mulai dikenal masyarakat, muncul Twitter menjadi salah satu situs dari sepuluh situs yang sering di kunjungi di Internet. Di Twitter, pengguna yang belum terdaftar hanya bisa melihat tweet orang lain saja, sedangkan pengguna yang sudah terdaftar bisa menulis tweet di twitter dan berinteraksi dengan teman-teman.

  Setelah semua data dilakukan pengklasifikasian menggunakan KNN langkah selanjutnya adalah melakukan validasi untuk mencocokan dengan data pakar dan menghitung nilai akurasi.

  K-Nearest Neigbhor (KNN) merupakan salah satu metode yang populer untuk menghasilkan klasifikasi teks (Sreemathy dan Balamurungan, 2012) yaitu dengan melakukan proses pembelajaran dari data latih untuk menentukan kelompok k objek. Sehingga dalam menentukan hasil klasifikasi KNN melihat jarak terdekat dari objek dengan masing-masing kelompok. Jarak tersebut diperoleh dari hasil kedekatan antara data masukan dengan data yang berada dalam kelompok berdasarakan nilai sejumlah fitur yang ada. Tetapi KNN juga miliki kekurangan salah satunya yang besar dalam aspek komputasi perhitungan (Claudio, Fauzi, M. & Perdana, R. 2017) Tahapan untuk menjalani proses KNN sebagai berikut: a.

  Lalu didapatkan hasil pengklasifikasian.

  c.

  (2.1) Dimana D adalah jarak, x dan y adalah data latih dan data uji.

  ( , ) = √∑ ( − ) 2 =1

  Menghitung jarak objek dengan masing- masing data kelompok. Perhitungan jarak menggunakan rumus euclidian distance (Sreemathy dan Balamurungan, 2012) yang ditunjukan pada persamaan 2.1

  b.

  Menentukan jumlah pada tetangga k.

  Pada pengujian akurasi sistem pada sistem klasifikasi kepribadian dengan menggunakan data Twitter dan algoritme KNN ini akan dilakukan perhitungan jumlah data yang mendapatkan hasil klasifikasi yang benar atau sama dengan kelas kepribadian yang sebenarnya dimiliki data uji tersebut dan perhitungan jumlah data yang mendapatkan hasil klasifikasi yang salah atau tidak sama dengan kelas kepribadian yang sebenarnya dimiliki data uji tersebut serta perhitungan jumlah seluruh data uji. Salah satu contoh Nilai k yang menjadi parameter dari algoritme KNN diisi dengan angka empat karena angka tersebut merupakan nilai k yang paling optimal (Nurjanah, W., Perdana, R., & Fauzi, M. 2017). Kemudian dilakukan perbandingan antara jumlah data yang mendapatkan hasil klasifikasi yang benar dan jumlah seluruh data uji kemudian dikali 100% hingga didapatkan nilai akurasi sistem dalam bentuk persentase. Nilai akurasi sistem dalam melakukan klasifikasi kepribadian untuk menentukan karakter calon karyawan perusahaan. Hasil pengujian akurasi sistem dapat dilihat pada Tabel 1.

  Tabel 1. Hasil Pengujian Akurasi Sistem Hasil Prediksi Jumlah Benar 53 Jumlah Salah 27 Jumlah Akurasi 66%

  Dari hasil pengujian akurasi sistem berdasarkan Tabel 1 menunjukkan bahwa tingkat akurasi pada sistem klasifikasi ini yaitu 66% jumlah data yang mengalami klasifikasi yang benar 53 data, sedangkan jumlah data yang mengalami klasifikasi yang salah terdapat 27 data. Hal ini karena data-data tweet calon karyawan yang digunakan sangat bervariatif sehingga untuk hasil perhitungan nilai cosine similarity atau tingkat kemiripan antara data uji yang memiliki kelas yang sebenarnya sama dengan data latih tampak kurang, sedangkan tingkat kemiripan data uji dan data latih malah meningkat pada data-data yang memiliki perbedaan antara kelas sebenarnya yang dimiliki data uji dengan kelas pada data latih. Tingkat kemiripan data yang meningkat pada data uji yang memiliki perbedaan kelas yang sebenarnya dengan kelas dari data latih karena kata-kata yang terkandung dalam data-data tersebut terdapat banyak kesamaan walaupun sebenarnya memiliki makna yang berbeda. Sedangkan pada tingkat kemiripan yang rendah antara data uji yang memiliki kelas yang sebenarnya sama dengan kelas pada data karena terdapat banyak kata-kata yang tidak memiliki kesamaan antara keduanya namun sebenarnya memiliki makna yang berbeda atau data-data tersebut mewakili ciri-ciri kepribadian yang sama. Selain itu data yang digunakan adalah data Twitter yang memiliki isi data yang sedikit dan terbatas hingga 140 karakter sehingga hanya sedikit ciri- ciri suatu kepribadian yang sedikit dan sulit apabila dibandingkan kemiripannya dengan data lain yang memiliki kelas kepribadian yang sama.

  Walaupun seperti itu, sistem masih bisa memberikan hasil klasifikasi dengan benar dengan tingkat akurasi sekitar 66% sehingga algoritme klasifikasi KNN telah diterapkan dengan baik untuk sistem ini. Hasil persentase pengujian akurasi sistem pada penelitian ini ditunjukkan pada Gambar 1.

Gambar 1. Hasil Pengujian Akurasi Sistem 4. KESIMPULAN

  Berdasarkan pada hasil penelitian dan pengujian yang telah dilakukan sebelumnya, maka didapat beberapa kesimpulan mengenai penelitian ini yaitu Algoritme KNN atau K- Nearest Neighbor dapat diimplementasikan pada sistem klasifikasi kepribadian atau karakter calon karyawan. Data yang digunakan pada sistem ini yaitu data dari Twitter para calon karyawan di suatu perusahaan. Total data tersebut yaitu 160 data yang dibagi menjadi dua dengan pembagian 50% dari total data atau 80 data untuk data latih dan 50% dari total data atau 80 data untuk data uji. Terdapat empat jenis kepribadian yang dijadikan kelas hasil klasifikasi yaitu Artisan, Guardian, Idealist, dan Rasional. Pada sistem ini, data latih dan data uji diproses dalam beberapa tahapan antara lain preprocessing text, pembobotan kata, dan klasifikasi algoritme KNN. Lau bagian pada penelitian klasifikasi kepribadian atau karakter calon karyawan dengan algoritme KNN menghasilkan nilai akurasi sebesar 66% dengan jumlah data yang mendapatkan hasil klasifikasi dengan benar yaitu 53 data dan jumlah data yang mendapatkan hasil klasifikasi dengan salah yaitu 27 data. Namun algoritme KNN tetap dapat melakukan klasifikasi kepribadian atau karakter 53 27 Benar Salah dengan baik sehingga dapat menghasilkan nilai Statista, 2016. Twitter: number of monthly akurasi walapun hanya 66%. active users 2010-2016, [Online] Tersedia di 5.

DAFTAR PUSTAKA <https://www.statista.com/statistics/28208

  7/number-ofmonthly-active-twitter-users/&gt; Ariadi, D., &amp; Fithriasari, K., 2015. Klasifikasi

  [Diakses 26 Febuari 2017] Berita Indonesia Menggunakan Metode Naive Bayesian Classification dan Support Suharno, C., Fauzi, M. dan Perdana, R., 2017.

  Vector Machine dengan Confix Stripping Klasifikasi Teks Bahasa Indonesia pada

  Stemmer. JURNAL SAINS DAN SENI ITS Vol. 4, No.2, [e-journal] 248(6).

  Menggunakan Metode K-Nearest Tersedia melalui: Digital Library Institut Neighbors dan Chi-Square.

  Teknologi Sepuluh Nopember &lt;http://digilib.its.ac.id&gt; [Diakses 22 Juli Widodo, A. W., Mahmudy, W. F. dan Maisuroh, 2017]

  M., 2007. Klasifikasi artikel otomatis, sebuah kajian eksperimen. Jurnal Forum Atuti, D. A. L. W., 2006. Penciptaan sistem

  Komunikasi Perpustakaan. Perguruan penilaian kinerja yang efektif dengan Tinggi Negeri (FKP2T), vol. 2, no. 1, pp. assessment centre. Jurnal Manajemen, vol.

  39-48. 6, no. 1, pp. 23-34.

  Hogan, R., Curphy, G. J. dan Hogan, J., 1994.

  What we know about leadership: effectiveness and personality. American Psychologist, vol. 46, no. 6, pp. 493-504. Nurjanah, W., Perdana, R., &amp; Fauzi, M. Analisis

  Sentimen Terhadap Tayangan Televisi Berdasarkan Opini Masyarakat pada Media Sosial Twitter menggunakan Metode K- Nearest Neighbor dan Pembobotan Jumlah Retweet. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, vol. 1, no.

  12, p. 1750-1757, agu. 2017. ISSN 2548- 964X. Tersedia pada: &lt;http://j- ptiik.ub.ac.id/index.php/j- ptiik/article/view/631&gt;. [Diakses 05 sep. 2017]

  Putrianti, N, D. dan Winarko, E., 2014. Analisis sentimen twitter untuk teks berbahasa indonesia dengan maximum entropy dan support vector mechine. Indonesian Journal of Computing and Cybernetics System (IJCCS), vol. 8, no. 1, pp. 91-100.

  Sarwani, M. Z. dan Mahmud, W. F., 2015.

  Analisis twitter untuk mengetahui karaketer seseorang menggunakan algoritma naïve bayess classifier. Seminar Nasional Sistem Informasi Indonesia (SESINDO), Institut TeknologiSepuluh Nopember (ITS), Surabaya, 2-3 November, pp. 291-296.

  Sreemathy, J. dan Balamurungan, P. S., 2012.

  An efficient text classification using KNN and naïve bayesian. International Journal on Computer Science and Engineering (IJCSE), vol. 4, no. 3, pp. 392-396.