Algoritma Agglomerative Hierarchical Clustering AHC

BAB IV PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK

4.1 PEMROSESAN AWAL

4.1.1 Pembersihan Data Data Cleaning

Pembersihan data adalah proses membersihkan data dari data yang tidak diperlukan noise dan data yang tidak konsisten. Data yang memiliki noise seperti beberapa sekolah nilai ujian nasionalnya kosong maka sekolah tersebut akan dihapus dari tabel data.

4.1.2 Integrasi Data Data Integration

Integrasi data adalah melakukan penggabungan data dari berbagai macam sumber. Dalam penelitian ini peneliti menggunakan 8 data yaitu data nilai Ujian Nasional tahun 2015 jurusan IPA dan data nilai Ujian Nasional tahun 2015 jurusan IPS. Data penelitian ini diperoleh dari satu sumber sehingga tidak dilakukan integrasi data.

4.1.3 Seleksi Data Data Selection

Seleksi atribut merupakan tahap yang perlu dilakukan sebelum proses penambangan data. Pada data asli nilai Ujian Nasional terdapat 4 atribut tetap yaitu atribut KODE_SEKOLAH, NAMA_SEKOLAH, dan 6 mata pelajaran Ujian Nasional yang tertera pada tabel 4.1 dan tabel 4.2. Atribut yang dibuang adalah atribut KODE_SEKOLAH karena KODE_SEKOLAH tidak dibutuhkan informasinya dalam pengelompokan dan Atribut yang akan digunakan untuk proses penambangan data yaitu NAMA_SEKOLAH dan 6 mata pelajaran Ujian Nasional yang tertera pada tabel 4.3 dan tabel 4.4 Tabel 4.1 Atribut dari data asli nilai Ujian Nasional SMA jurusan IPA No. Atribut Keterangan 1 KODE_SEKOLAH Kode Sekolah PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 2 NAMA_SEKOLAH Nama Sekolah 3 UN_BIN_15 Rata-rata nilai Ujian Nasional Bahasa Indonesia 4 UN_BING_15 Rata-rata nilai Ujian Nasional Bahasa Inggris 5 UN_MTK_15 Rata-rata nilai Ujian Nasional Matematika 6 UN_FSK_15 Rata-rata nilai Ujian Nasional Fisika 7 UN_KMA_15 Rata-rata nilai Ujian Nasional Kimia 8 UN_BIO_15 Rata-rata nilai Ujian Nasional Biologi Tabel 4. 2 Atribut dari data asli nilai Ujian Nasional SMA jurusan IPS No. Atribut Keterangan 1 KODE_SEKOLAH Kode Sekolah 2 NAMA_SEKOLAH Nama Sekolah 3 UN_BIN_15 Rata-rata nilai Ujian Nasional Bahasa Indonesia 4 UN_BING_15 Rata-rata nilai Ujian Nasional Bahasa Inggris 5 UN_MTK_15 Rata-rata nilai Ujian Nasional Matematika 6 UN_EKO_15 Rata-rata nilai Ujian Nasional Ekonomi 7 UN_SOS_15 Rata-rata nilai Ujian Nasional Sosiologi 8 UN_GEO_15 Rata-rata nilai Ujian Nasional Geografi Tabel 4. 3 Atribut terseleksi dari data nilai Ujian Nasional SMA jurusan IPA No. Atribut Keterangan 1 NAMA_SEKOLAH Nama Sekolah 2 UN_BIN_15 Rata-rata nilai Ujian Nasional Bahasa Indonesia 3 UN_BING_15 Rata-rata nilai Ujian Nasional Bahasa Inggris 4 UN_MTK_15 Rata-rata nilai Ujian Nasional Matematika 5 UN_FSK_15 Rata-rata nilai Ujian Nasional Fisika 6 UN_KMA_15 Rata-rata nilai Ujian Nasional Kimia 7 UN_BIO_15 Rata-rata nilai Ujian Nasional Biologi Tabel 4. 4 Atribut terseleksi dari data nilai Ujian Nasional SMA jurusan IPS No. Atribut Keterangan 1 NAMA_SEKOLAH Nama Sekolah 2 UN_BIN_15 Rata-rata nilai Ujian Nasional Bahasa Indonesia 3 UN_BING_15 Rata-rata nilai Ujian Nasional Bahasa Inggris 4 UN_MTK_15 Rata-rata nilai Ujian Nasional Matematika 5 UN_EKO_15 Rata-rata nilai Ujian Nasional Ekonomi 6 UN_SOS_15 Rata-rata nilai Ujian Nasional Sosiologi 7 UN_GEO_15 Rata-rata nilai Ujian Nasional Geografi

4.1.4 Transformasi Data Data Transformation

Proses transformasi data dilakukan pada data yang telah dipilih sebelumnya sehingga data tersebut dapat diproses ke penambangan data. Pada tahap ini dilakukan transformasi data dengan menyimpan data yang telah PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI