Klasifikasi Kanker Payudara (SVM)
9.7 Klasifikasi Kanker Payudara (SVM)
Kanker payudara merupakan salah satu kanker yang menyerang manusia. Kanker ini lebih sering teridentifikasi pada kaum perempuan. Diketahui bahwa 2 dari 10.000 perempuan yang terdapat di dunia diperkirakan akan mengalami kanker payudara untuk setiap tahunnya (Kemenkes RI, 2011). Untuk saat ini, kasus baru penyakit kanker payudara per tahun ada sekitar 1.050.346 dan kasus kematian akibat kanker payudara sudah mencapai 411.100 jiwa. Untuk beberapa negara berkembang telah diprediksi bahwa terdapat sekitar 70% kasus baru dan 55% kematian (Rasjidi, 2010). Penyebab pasti kanker payudara masih belum diketahui hingga saat ini. Sebuah riset telah mengidentifikasi bahwa terdapat beberapa faktor yang dapat meningkatkan risiko terkena kanker payudara. Faktor tersebut terdiri dari riwayat keluarga, kehamilan pertama di atas usia 30 tahun, tidak memiliki anak, faktor hormonal, serta lamanya periode menstruasi (Darsyah, 2013).
Kanker payudara memiliki dua tipe, yaitu kanker jinak atau kanker yang tidak berbahaya dan kanker ganas atau kanker yang sangat berbahaya. Proses pendeteksian kanker di beberapa negara masih banyak yang menggunakan cara manual. Rangkaian tes yang dilakukan adalah dimulai dari tes fisik hingga tes secara klinis. Tes klinis terdiri dari tes laboratorium, biopsi, prognosis, serta monitoring tes. Proses pendeteksian secara manual dapat menyebabkan kemiripan Kanker payudara memiliki dua tipe, yaitu kanker jinak atau kanker yang tidak berbahaya dan kanker ganas atau kanker yang sangat berbahaya. Proses pendeteksian kanker di beberapa negara masih banyak yang menggunakan cara manual. Rangkaian tes yang dilakukan adalah dimulai dari tes fisik hingga tes secara klinis. Tes klinis terdiri dari tes laboratorium, biopsi, prognosis, serta monitoring tes. Proses pendeteksian secara manual dapat menyebabkan kemiripan
Penelitian yang dilakukan oleh Novianti dan Purnami telah melakukan analisis terhadap akurasi klasifikasi diagnosis pasien kanker payudara dengan menggunakan algoritma SVM. Hasil akurasi dari penelitian tersebut sebesar 92,48%. dengan perbandingan data testing dan data training sebesar 50 : 50 (Novianti & Purnami, 2012). Sedangkan penelitian yang sudah dilakukan oleh Puspitasri, dkk hal ini bertujuan melakukan klasifikasi penyakit terhadap mulut dan gigi dengan menggunakan metode yang yang digunakan peneliti yaitu SVM dapat menghasilkan nilai akurasi sebesar 94,442%. Penelitian tersebut menggunakan perbandingan data sebesar 80:20 (Puspitasari, Ratnawati, & Widodo, 2017).
Penelitian yang dilakukan oleh Zhu, dkk membahas tentang bagaimana performa dari algoritma P-packSVM. Algoritma P-packSVM merupakan sebuah metode optimasi pada SVM dengan menggunakan parallel stochastic gradient desent (SGD). Data yang digunakan dalam penelitian tersebut adalah CCAT dataset sebanyak 800.000 data. Hasil pengujian algoritma P-packSVM didapatkan nilai akurasi sebesar 95% dengan waktu komputasi selama 13 menit. Peneliti juga membandingkan hasil dari penerapan algoritma packSVM tanpa konsep parallel yang menghasilkan nilai akurasi sebesar 92% dengan waktu komputasi selama 5 jam dengan menggunakan data yang sama (Zhu, Chen, Wang, Zhu, & Chen, 2009).
Selanjutnya menurut penelitian Sitepu dkk yang sudah melakukan analisis berbasis stream analisis menggunakan Apache Spark sangat cepat dalam mengolah berukuran besar. Penelitian ini memproses data 100 kali lebih cepat dibandingkan dengan pada clauster hadoop yang hanya 10 kali lebih cepat. Lalu cara kerja pada penelitian ini kerja spark streaming terbagi jadi 3 yaitu Tuple at a time, Micro Batch, Windowed. Untuk menghasilkan kualiafikasi baik memperbesar ukuran Ram, harddisk, dan intel core. Hasil pada analisis ini bahwa menunjukkan Big Data dapat diolah untuk penerapan metode Stream Processing, lalu metode ini yang akan diterapkan pada pengelolaan Big Data yang disinkronisasi pada Apache Spark yang menghasilkan informasi data input (Sitepu, Tumbel, & Hutagalung, 2016).
Berdasarkan performance Spark yang sangat baik maka dilakukan klasifikasi diagnosis kanker payudara dengan menggunakan metode support vector machine (SVM) pada Spark. Penelitian ini membahas tentang penyakit kanker payudara dengan metode SVM. Tujuan peneliti ini adalah untuk memberikan hasil akurasi yang baik dalam proses penentuan klasifikasi jenis penyakit kanker payudara jinak dan ganas. peneliti sangat mengharapkan bahwa dengan adanya ini sangat membantu masyarakat.
9.7.1 Dasar Teori
19. Data Yang Digunakan Pada penelitian ini, data yang digunakan untuk melakukan
diagnosis terhadap klasifikasi payudara berasal dari WDBC (Wisconsin Diagnostic Breast Cancer). Data ini terdiri atas 10 fitur dan dua jenis kelas, yakni Ganas dan Jinak. Fitur yang digunakan pada data ini antara lain ketebalan (Clump Thickness), ukuran sel (Uniformity of Cell Size), bentuk sel (Uniformity of Cell Shape), adhesi marjinal (Marginal Adhesion), ukuran sel tunggal Epithelial (Single Epithelial Cell Size), Bare Nuclei, Bland Chromatin, Bland Chromatin, dan mitosis (Mitoses). Data ini terbagi atas dua jenis, yakni data training dan data testing. Data ini dapat diperoleh dengan
mengakses: http://archive.ics.uci.edu/ml/machine- learning-databases/breast-cancer-wisconsin/.
20. Konsep Big Data Big Data ialah suatu kumpulan data dalam jumlah yang
sangat besar. Informasi yang terdapat di dalamnya dapat digunakan sebagai sarana analisis terhadap data itu sendiri. Pengelolaan data dalam jumlah yang besar serta dengan penerapan teknologi, diharapkan dapat memberikan hasil analisis dengan cepat dan akurat (Maryamah, Asikin, Kurniawati, Sari, & Cholissodin, 2016).
Untuk menerapkan konsep Big Data membutuhkan suatu manajemen, penyimpanan, analisis, serta teknologi visualisasi. Ada beberapa karakteristik yang dimiliki Big Data, yaitu variety, velocity, dan volume. (Rahadian, Kurnianingtyas, Mahardika, Maghfira, & Chilissodin, 2017) Variety merupakan bentuk implementasi data, volume merupakan banyaknya jumlah data, serta velocity merupakan kecepatan yang didapatkan dari hasil proses pencarian data (Maryamah, Asikin, Kurniawati, Sari, & Cholissodin, 2016).
21. Apache Spark Apache Spark pertama kali dikembangkan oleh UC
Berkeley AMPLab pada tahun 2009. Tahun 2010, Apache dikembangkan menjadi sebuah project open source yang digunakan untuk menganalisa data secara real-time. Apache Spark menggunakan API dalam mesin pengolahan data, serta terdiri dari satu set library dan Spark core (Sitepu, Tumbel, & Hutagalung, 2016).
Core merupakan sebuah mesin eksekusi terdistribusi dengan Python, Java API, dan Scala yang digunakan dalam pengembangan aplikasi. Apache Spark memungkinkan adanya sumber daya yang digunakan dengan lebih efisien dalam satu Core merupakan sebuah mesin eksekusi terdistribusi dengan Python, Java API, dan Scala yang digunakan dalam pengembangan aplikasi. Apache Spark memungkinkan adanya sumber daya yang digunakan dengan lebih efisien dalam satu
22. Parallel Pack Support Vector Machine (P-packSVM) Support Vector Machine atau yang sering disingkat SVM ini
dapat didefinisikan sebagai suatu model pembelajaran dengan konsep hipotesis berupa fungsi linear yang berdimensi tinggi serta dilatih dengan algoritma pembelajaran didasarkan dengan konsep optimasi. Algoritma SVM diperkenalkan pertama kali oleh Vapnik tahun 1992 (Puspitasari, Ratnawati, & Widodo, 2017).
Terdapat dua prinsip dasar dalam SVM, yaitu linear classi- fier dan non-linear classifier. Prinsip non-linear classifier dikem- bangkan dengan memasukkan konsep kernel trick. Konsep ini sangat berguna apabila diaplikasikan ke dalam suatu ruang kerja berdimensi tinggi. Proses pembelajaran yang diterapkan pada algoritma SVM dilakukan dengan menggunakan data input dan data latih sebagai solusi yang diharapkan.
Penelitian ini menggunakan algoritma P-packSVM sebagai pengembangan dari algoritma SVM. Awalnya, algoritma P- packSVM diadaptasi dari algoritma Sequential packSVM (S- packSVM) (Zhu, Chen, Wang, Zhu, & Chen, 2009).
a. Sequential pack SVM S-packSVM menerapkan Stochastic Gradient Descent
(SGD) yang dapat digunakan untuk mengatasi hinge loss pada data training. Proses pembelajran sangat bergantung pada nilai T iterasi. Pada iterasi π‘ β (1, β¦ π), diambil sebuah random example (π₯ π (π‘), π¦ π (π‘)) β π dan dilakukan proses pembelajaran dengan
Persamaan 1 untuk mengatasi permasalahan empirical loss.
β(π€) β β π‘ (π€) = max [0,1 β π¦ π (π‘). (π€, π(π₯ π (π‘)))] πΌ π(π€) β π 2
Untuk meningkatkan kinerja pembelajaran, maka dilakukan modifikasi terhadap perhitungan prediktor pada iterasi t.
Karena operator β tidak merepresentasikan perbedaan fungsi pada π π‘ tetapi merepresentasikan sub-gradient, maka dapat dihitung nilai sub-gradient dengan Persamaan berikut.
Ketika proses perhitungan kernel dijalankan maka nilai w memiliki posisi sebagai superposition dengan proses perhitungan
Nilai kernel yang digunakan adalah kernel Radial Basis Function (RBF).
) Setelah dilakukan update terhadap nilai w maka dilakukan
proses proyeksi terhadap nilai w agar mendapatkan solusi yang mendekati optimal.
π€ β min {1, βπ }π€
b. Parallel pack SVM P-pack SVM merupakan pengembangan dari S-pack SVM
yang ditujukan untuk memperbaiki beberapa permasalahan terhadap kompleksitas waktu dalam proses pelatihan SVM kernel. P-pack SVM memiliki dua karakteristik utama yang terdiri dari:
ο· Keunggulan: Sebuah iterasi tunggal dapat di implementasikan secara paralel. Proses (π£, β (π₯)) yang dapat memakan waktu perhitungan sangat lama dapat di paralelkan melalui penyimpanan terdistribusi dari masukkan berupa (π₯ π ,π½ π ) dalam β.
ο· Kendala: Akan ada banyak proses iterasi. Hal ini disebabkan karena biasanya terdapat minimal satu permintaan komunikasi di antara semua prosesor pada setiap iterasi. Banyaknya komunikasi akan memperlambat program paralel ketika jumlah prosesor meningkat (synchronization overhead).
Untuk mengatasi permasalahan tersebut makan digunakan Distributed Hash Table untuk meningkatkan keunggulan dan Packing Strategy untuk mengatasi kendala pada P-pack SVM.
Distributed Hash Table. Proses Distributed Hash Table diaktifkan untuk mempercepat proses bottleneck. Dua operasi penting dalam Distributed Hash Table, yaitu proses Enumerasi dan proses Look-up & Modification. Enumerasi adalah sebuah proses perhitungan hasil (π£, β (π₯)) yang didistribusikan ke semua prosesor melalui komunikasi antar prosesor. Look-up & Modification merupakan proses pengecekkan key yang diberikan
π₯ pada tabel hash lokal β π . Jika key sudah ditemukan, maka akan dilakukan penginformasian ke seluruh prosesor. Jika tidak, maka akan dilakukan entri key baru ke salah satu prosesor.
Packing Strategy. Proses yang terjadi pada Packing Strategy adalah mengemas iterasi menjadi satu untuk mengurangi jumlah komunikasi dengan pemberian integer r. Algoritma packing untuk r terdiri dari:
ο· Pre-calculate π¦β² π = (π€ π‘ , β (π₯ π )) untuk i = t ...t + r -1 ο· Pre-calculate Ξ(π₯ π ,π₯ π ) untuk π‘ β€ π < π β€ π‘ + π β 1 ο· Lakukan iterasi i pada t untuk t + r β 1 untuk melakukan
update secara offline (tanpa komunikasi).
9.7.2 Implementasi
Penelitian klasifikasi penyakit payudara ini menggunakan algoritma Support Vector Machine, untuk metode SVM ini dianggap dapat menghasilkan akurasi pengklasifikasian yang cukup tinggi (Zhang, 2012). Proses klasifikasi menggunakan algoritma SVM dimulai dengan melakukan pelatihan pada data training dengan menggunakan pendekatan Stochastic Gradient Descent (SGD). Kemudian, pada penghitungan data uji dengan rumus svm menggunakan kernel Radial Basis Function (RBF).
Pelatihan data latih dilakukan dengan pendekatan SGD dimulai dengan inisialisasi parameter SGD, melatih model dengan memperbarui pack, lalu menyimpan bagian model yang dioptimasi. Pada pembaruan pack terdiri dari menghitung pasangan produk di dalam kernel, menghitung sub gradient, lalu memperbarui model. Berikut potongan kode program untuk menghitung sub gradien yang dapat dilihat pada kode program berikut.
1 // Compute sub gradients 2 for (i <- 0 until pack_size) {
3 t = t+1 4 s = (1 - 1D/(t))*s 5 for (j <- (i+1) until (pack_size)) {
6 yp(j) = (1 - 1D/(t))*yp(j) 7 } 8 if (y(i) * yp(i) < 1) {
9 norm = norm + (2*y(i)) / (lambda * t) * 10 yp(i)+math.pow((y(i)/(lambda*t)),2)*inner_prod((i,i)) 11 alpha = sample(i)._2._2 12 local_set=local_set+(sample(i)._1->(sample (i)._2._1,
13 alpha + (1/(lambda*t*s)))) 14 for (j <- (i+1) to (pack_size-1)) { 15 yp(j) = yp(j) + y(j)/(lambda*t) * 16 inner_prod((i,j))
17 } 18 if (norm > (1/lambda)) {
19 s = s * (1/math.sqrt(lambda*norm)) 20 norm = (1/lambda) 21 for (j <- (i+1) to (pack_size-1)) { 22 yp(j) = yp(j) /math.sqrt(lambda*norm)
Berdasarkan alur penelitian yang telah disebutkan, berikut potongan kode program saat melakukan perhitungan kernel RBF pada data uji yang ditampilkan pada kode program berikut.
1 class RbfKernelFunc(gamma_s:Double) extends 2 java.io.Serializable{
3 var gamma: Double = gamma_s 4 def evaluate(x_1: Vector, x_2:Vector): Double = {math.exp(-1 *
5 gamma * math.pow(Vectors.sqdist (x_1, x_2),2)) 6 } 7 }
Setelah melakukan implementasi pelatihan data latih dan pengujian dengan SVM maka akan dihasilkan keluaran dari eclipse seperti Gambar berikut.
Selain itu akan terbentuk file txt yang berisi jumlah data latih dan data uji yang dipakai, banyak iterasi, pack size, akurasi yang didapat, dan lama waktu komputasi. Isi file txt dari hasil runing program dapat dilihat pada Gambar berikut.
Daftar Pustaka
Big Data Analytics, 1st Edition. Editor(s): Govindaraju, Raghavan, and Rao. Release Date: 07 Jul 2015. Imprint: Elsevier.
Big Data Working Group. Big Data Administrator. Yogyakarta: Universitas Gajah Mada.
(2013, Oktober). Diambil kembali dari Apache TM Hadoop @ homepage: http://hadoop.apache.org/.
Big Data Working Group, 2013. Big Data Analytics for Security Intelligence. Cloud Security Alliance β All Rights Reserved.
Brammer, 2007. Principles of Data Mining. UK: University of Portsmouth.
Bustami. 2013. Penerapan Algoritma Naive Bayes untuk Mengklasifikasi Data Nasabah Asuransi.
Γakir, M. U. & GΓΌldamlasioglu, S., 2016. Text Mining Analysis in Turkish Language Using Big Data Tools. Computer Software and Applications Conference (COMPSAC), IEEE 40th Annual. IEEE, 614-618.
Chitta, Radha, Rong Jin, Timothy C. Havens, dan Anil K. Jain. 2011.Approximate kernel k-means: solution to large scale kernel clustering. In KDD, pp. 895-903.
Cossalter, V., 2016. Motorcycle Dynamics.
C. W. Hsu and C. J. Lin, 2002. A Comparison of Methods for Multiclass Support Vector Machines, Neural Networks, IEEE Transactions Vol. 13 No. 2, pp. 415-425.
Darsyah, M. Y. 2013. Menakar Tingkat Akurasi Support Vector Machine Studi Kasus Kanker Payudara. Statistika, Vol 1 No 1.
Dean, J., & Ghemawat, S., 2004. MapReduce: Simplified Data Processing on Large Clusters. Google Corp.
Dietrich, D., Heller, B., dan Yang, B., 2015. Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data. Editor: EMC Education Services.
Filiana, Agata. 2014. Recommendation System [Online]. Di- akses pada 26 Desember 2017.
Hammouda, K. M. & Kamel, M. S., 2003. Incremental docu- ment clustering using cluster similarity histograms. Web Intelligence. WI 2003. Proceedings. IEEE/WIC Interna- tional Conference on, 2003. IEEE, 597-601.
Han, J. K. 2006. Concept and Techniques. Morgan Kaufmann. Han, J., Kamber, M., & Pei, J. 2012. Data Mining Concepts
and Techniques Third Edition. Waltham: Elsevier Inc. Hung, M.-C., Wu, J., Chang, J.-H. & Yang, D.-L., 2005. An
Efficient k-Means Clustering Algorithm Using Simple Partitioning. Journal of Information Science and Engi- neering, 21, 1157-1177.
Hurwitz, J., Alan, N., Halper, F., dan Kaufman, M., 2013. Big Data For Dummies. [e-book] John Wiley & Sons, Inc. Tersedia melalui: <https://kat.cr> [Diakses 27 Mei 2015].
Industri, M. 2013. Definisi cloud Computing. Diambil kembali dari Cloud Computing: Meruvian.org
Irem, D. 2016. Classifying Multi-Destination Trips in Austria with Big Data. Elsevier, 2211-9736.
Judith S. Hurwitz, et. al. 2013. Big Data For Dummies, John Wiley & Sons, Inc., Hoboken, New Jersey.
Kahraman, H. T., Colak, I., & Sagiroglu, S. (2009, October). User Knowledge Modeling Data Set. Diambil kembali dari
UCI: https://archive.ics.uci.edu/ml/da- tasets/User+Knowledge+Modeling.
Kalamsyah, S. A. 2014. Aplikasi Pendukung Keputusan Sele- ksi Asisten Praktikum dan Lab Menggunakan Metode Analytical Hierarchi Process (Studi Kasus: Lab Informat- ika Universitas Telkom).
Kelimutu, Rizki Dwi. Sistem Rekomendasi Komunitas Pemuda di Kota Semarang Berbasis Item Based Collab- orative Filtering dengan Metode Adjusted Cosine Simi- larity. Semarang: Universitas Dian Nuswantoro.
Kemenkes RI. 2011. Menuju Masyarakat Sehat yang Mandiri dan Berkeadilan. Jakarta Pusat, DKI Jakarta: Kementerian Kesehatan Republik Indonesia.
Kusumadewi, S. 2009. Klasifikasi Status Gizi Menggunakan Naive Bayesian Classification.
Larose, E., Yeghiazarians, Y., Libby, P., Yucel, E. K., Aikawa, M., Kacher, D. F., Aikawa, E., Kinlay, S., Schoen, F. J. & Selwyn, A. P., 2005. Characterization of human athero- sclerotic plaques by intravascular magnetic resonance imaging. Circulation, 112, 2324-2331.
Lukito, Y., & Chrismanto, A. R. 2015. Perbandingan Metode- Metode Klasifikasi Untuk Indoor Positioning System. Jurnal Teknik Informatika dan Sistem Informasi, 2.
Magoulas, R., dan Lorica, B., 2009. Introduction to Big Data. [e-book] Sebastopol CA: O'Reilly Media. Tersedia melalui: <http://www.oreilly.com> [Diakses 20 Januari 2016].
Mameli, F. 2017. k-means-hadoop. Diambil kembali dari Github:
https://github.com/mameli/k-means- hadoop/tree/master/mameli.
Maryamah, Asikin, M., Kurniawaty, D., Sari, S., & Cholissodin, I., 2016. Implementasi Metode NaΓ―ve Bayes Classifier Untuk Seleksi Asisten Praktikum Pada Simulasi Hadoop Multinode Cluster. Jurnal Teknologi Informasi dan Ilmu Komputer Vol 3 No 4.
Nouvel, Ahmad, 2015. Klasifikasi Kendaraan Roda Empat Berbasis KNN. Jurnal Bianglala Informatika Vol 3 No 2.
Novianti, F. A., & Purnami, S. W. 2012. Analisis Diagnosis Pasien Kanker Payudara Menggunakan Regresi Logistik dan Support Vector Machine (SVM) Berdasarkan Hasil Mamografi. Jurnal Sains dan Seni ITS Vol 1 No 1.
Pawitra, P. M., 2016. Paper Basis Data. Surakarta. Pratama, A. Y.,dkk. 2013. Digital Cakery dengan Algoritma
Collaborative Filtering. Medan: STMIK Mikroskil. Puspitasari, A. M., Ratnawati, D. E., & Widodo, A. W. 2017.
Klasifikasi Penyakit Gigi dan Mulut Menggunakan
Metode Support Vector Machine. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Vol 2, 802-810.
Putra, N. A., Putri, A. T., Prabowo, D. A., Surtiningsih, L., Arniantya, R., & Cholissodin, I., 2017. Klasifikasi Sepeda Motor Berdasarkan Karakteristik Konsumen Dengan Metode K-Nearest Neighbour Pada Big Data Menggunakan Hadoop Single Node Cluster. Jurnal Teknologi Informasi dan Ilmu Komputer Vol 4 No 2.
Rahardian, B. A., Kurnianingtyas, D., Mahardika, D. P., Maghfira, T. N., & Cholissodin, I., 2017. Analisis Judul Majalah Kawanku Menggunakan Clustering K-Means Dengan Konsep Simulasi Big Data Pada Hadoop Multi Node Cluster. Jurnal Teknologi Informasi dan Ilmu Komputer Vol 4 No 2.
Rasjidi. 2010. Epidemiologi Kanker Pada Wanita. Jakarta, Indonesia: Sagung seto.
Rathore, P. & Shukla, D., 2015. Analysis And Performance Improvement Of K-Means Clustering In Big Data Environment. Communication Networks (ICCN), 2015 International Conference on, 43-46.
S., Russel, & P, Norvig., 2010. Artificial Intelligence A Modern Approach. New Jersey: Pearson Education, Inc.
Sarkar, K., 2009. Sentence clustering-based summarization of multiple text documents. International Journal of Computing Science and Communication Technologies,
2, 325-335. Shenoy, A. 2004. Hadoop Explained. Brimingham, Mumbai:
PACKT Publishing. Sitepu, H., Tumbel, C. Z., & Hutagalung, M. 2016. Analisis Big
Data Berbasis Stream Processing Menggunakan Apache Spark. Jurnal Telematika, 27-32.
Sitepu, H., Tumbel, C. Z., & Hutagalung, M. 2016. Analisis Big Data Berbisnis Stream Processing Menggunakan Apache Spark. Bandung, Jawa Barat, Indonesia.
Steinwart, I., & Christmann, A. 2008. Support Vector Machine (Information Science and Statistics). Springer.
Sujana, A. P., 2013. Memanfaatkan Big Data Untuk Mendeteksi Emosi. Jurnal Teknik Komputer Unikom- Komputika, 2, 1-4.
Supriyanti, Wiwit, Kusrini, dan Armadyah Amborowati. 2016. Perbandingan Kinerja Algoritma C4.5 Dan Naive Bayes Untuk Ketepatan Pemilihan Konsentrasi Mahasiswa. Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol. 1 Nomor 3.
Sholihah, A. 2013. Sistem Penentuan Uang Kuliah Tunggal (UKT) Menggunakan Metode Naive Bayes Classifier.
Taylor, SJ dan R Bogdan. 1984. Introduction to Qualitative Research Methods: The Search for meanings, Seconds Edition. John Wiley and Sons. Toronto.
Vaidya, M., 2012. Parallel Processing of cluster by Map Reduce. International journal of distributed and parallel systems, 3, 167.
Watson, H. J., 2014. Tutorial: Big Data Analytics: Concepts, Technologies, and Applications. Communications of the Association for Information Systems (CAIS). Department of MIS, University of Georgia.
Wijaya W.M. 2015. Teknologi Big Data: Sistem Canggih dibalik Google, Facebook, Yahoo!, IBM.
X., Wu, & V., Kumar., 2009. The Top Ten Algorithm in Data Mining. Chapman and Hall.
Zhang, Y. 2012. Support Vector Machine Classification Algorithm and Its Application. Information Computing and Applications, 179-186.
Zhu, Z. A., Chen, W., Wang, G., Zhu, C., & Chen, Z. 2009. P- packSVM: Parallel Primal Gradient Descent Kernel SVM. Ninth IEEE International Conference. Miami, FL, USA: IEEE.
Zikopoulos, P. C., Eaton, C., deRoos D., Deutsch T., Lapis G., 2012. Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data. McGraw-Hill Companies.
https://tecadmin.net/install-oracle-java-8-ubuntu-via- ppa/#
https://medium.com/@GalarnykMichael/install-spark- on-ubuntu-pyspark-231c45677de0
http://spark.praveendeshmane.co.in/spark/spark- wordcount-scala-example.jsp
https://stackoverflow.com/questions/27478096/cannot- read-a-file-from-hdfs-using-spark
https://spark.apache.org/examples.html https://www.impactradius.com/blog/7-vs-big-data/ https://www.xenonstack.com/blog/ingestion-processing-
data-for-big-data-iot-solutions https://stackoverflow.com/questions/24115828/what-is-
hue-all-about
Biografi Penulis
Imam Cholissodin, lahir di Lamongan pada tanggal 19 Juli 1985, telah menyelesaikan pendidikan S2 di Teknik Informatika FTIF ITS Surabaya pada Tahun 2011. Sejak Tahun 2012 telah aktif sebagai dosen pengajar di jurusan Teknik Informatika Program Teknologi dan Ilmu Komputer (PTIIK), dan Alhamdulillah mulai tahun 2016 telah menjadi Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya (UB) Malang
pada beberapa mata kuliah, seperti Information Retrieval, Pengolahan Citra Digital, Probabilitas dan Statatistika, Grafika Komputer, Decision Support System, Kecerdasan Buatan, Data Mining, Analisis Big Data, Pemrograman GPU, Algoritma Evolusi, Swarm Intelligence dan Pengenalan Pola. Di samping mengajar, peneliti juga aktif dalam Riset Group Sistem Cerdas dan Riset Group Media, Game & Mobile Technology (MGM) di dalam Laboratorium Riset. Selain itu peneliti juga telah melakukan beberapa publikasi pada seminar maupun jurnal nasional dan internasional (IEEE, Scopus, etc). Riset pada tahun 2015- 2018 yang sedang dilakukan sekarang bersama dengan beberapa tim dosen dan mahasiswa semester akhir adalah berfokus pada bidang Information Retrieval, teknik optimasi untuk melakukan analisis dokumen lembaga pemerintahan secara Real-time, yaitu dengan tema
βPengembangan Sistem Audit Dokumen Lembaga Pemerintahan Menggunakan Stream Deep Learning Untuk Mendukung Smart Governance β yang merupakan kombinasi dari beberapa multi-disiplin keilmuan antara Decision Support System (DSS), Teknik Optimasi, Big Data, Machine Learning, Ilmu Administrasi Pemerintahan serta
Information Retrieval (IR). Motto: βWe Are A Code, We Are The Best Code Of Godβ.
Efi Riyandani , lahir di Riau pada tanggal 20 April 1995. Pada tahun 2016 berhasil menyelesaikan studi S1 Teknik Informatika, Program Teknologi Informasi dan Ilmu Komputer, Universitas Brawi- jaya Malang dengan tugas akhir yang berjudul βOptimasi Komposisi Pakan Sistem Polikultur Ikan dan Udang Menggunakan Algoritma Genetikaβ.