3. Konstruksi Tes Hasil Belajar
a Validitas
Ratnawulan dan Rusdiana 2015: 59, menjelaskan alat ukur dikatakan valid apabila alat ukur itu dapat dengan tepat
mengukur sesuatu yang hendak diukur. Dengan kata lain, validitas berkaitan dengan “ketepatan” dengan alat ukur. Purwanto 1984:
56, berpendapat validitas merupakan syarat yang terpenting dalam suatu alat evaluasi. Suatu teknik evaluasi dikatakan mempunyai
validitas yang tinggi disebut valid, jika teknik evaluasi atau tes itu dapat mengukur apa yang sebenarnya akan diukur. Sedangkan
menurut Arikunto 1991: 163 validitas sebuah tes dapat diketahui dari hasil pemikiran dan dari hasil pengalaman. Berdasarkan
pendapat beberapa ahli diatas dapat disimpulkan bahwa suatu alat ukur dapat dikatakan valid apabila alat ukur itu dapat mengukur
apa yang sebenarnya akan diukur yang dapat diketahui dari hasil pemikiran dan hasil pengalaman. Hal yang pertama akan diperoleh
validitas logis logical validity dan hal yang kedua diperoleh validitas empiris empirical validity.
Sehingga ada 4 macam validitas yang berasal dari dasar pembagian jenis diatas yaitu:
a. Validitas logis 1 Validitas isi
Sebuah tes dikatakan memiliki validits isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi
pelajaran yang diberikan. Validitas ini dapat diusahakan tercapainya sejak saat penyusunan dengan cara memerinci
materi kurikulum atau materi buku pelajaran. 2 Validitas Konstruksi
Sebuah tes dikatakan memiliki validitas konstruksi apabila butir-butir soal yang membangun tes tersebut mengukur
setiap aspek berpikir seperti yang disebutkan dalam Tujuan Instruksional Khusus TIK. Konstruksi yang dimaksud pada
validitas ini berupa rekaan psikologis yang berkaitan dengan aspek mengingat, pemahaman, aplikasi, analisis, sintesis, dan
evaluasi. Seperti halnya validitas isi, validitas konstruksi dapat diketahui dengan cara memerinci dan memasangkan
setiap butir soal dengan setiap aspek dalam TIK. b. Validitas Empiris
1 Validitas ada sekarang concurrent validity Validitas ini lebih umum dikenal dengan validitas empiris.
Sebuah tes dikatakan memiliki validitas empiris jika hasilnya sesuai dengan pengalaman. Jika ada istilah “sesuai” tentu ada
dua hal yang dipasangkan. Dalam hal ini hasil tes PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
dipasangkan dengan hasil pengalaman. Pengalaman selalu mengenai hal yang telah lampau sehingga data pengalaman
tersebut sekarang sudah ada. Dalam membandingkan hasil sebuah tes maka diperlukan suatu kriteria atau alat banding.
2 Validitas Prediksi Memprediksi artinya meramal, dan meramal selalu mengenai
hal yang akan datang jadi sekarang belum terjadi. Sebuah tes dikatakan memiliki validitas prediksi atau validitas ramalan
apabila mempunyai kemampuan untuk meramalkan apa yang akan terjadi pada masa yang akan datang.
b Reliabilitas
Ratnawulan dan Rusdiana 2015: 60 memaparkan kata “reliabilitas” dalam bahasa Indonesia diambil dari kata reliability
dalam bahasa Inggris, yang berasal dari kata asal reliable yang artinya dapat dipercaya. Tes dikatakan dapat dipercaya reliable
jika memberikan hasil yang tetap atau konsisten ketika diteskan berulang-ulang. Menurut Purwanto 1984: 56 reliabilitas adalah
‘ketetapan’ atau ‘ketelitian’ suatu alat evaluasi. Suatu tes atau alat evaluasi dikatakan reliable, jika tesalat tersebut dapat dipercaya,
konsisten, atau stabil dan produktif. Ratnawulan dan Rusdiana 2015: 174 juga berpendapat
salah satu syarat tes sebagai salah satu instrumen evaluasi adalah memiliki reliabilitas yang tinggi. Tes yang memiliki reliabilitas tes
atau keajegan,
ketetapan berhubungan
dengan masalah
kepercayaan. Suatu tes akan menghasilkan kepercayaan yang tinggi apabila tes tersebut dapat memberikan hasil yang tetap. Jika
hasilnya berubah-ubah, perubahan yang terjadi dapat dikatakan tidak berarti. Anderson dalam Arikunto, 1991: 81 menyatakan
bahwa persyaratan bagi tes, yaitu validitas dan reliabilitas ini penting. Dalam hal ini validitas lebih penting, dan reliabilitas ini
perlu, karena menyokong terbentuknya validitas. Sebuah tes mungkin reliabel tetapi tidak valid. Sebaliknya, sebuah tes yang
valid biasanya reliabel. Berdasarkan pendapat beberapa ahli tentang reliabilitas, suatu tes dapat dikatakan reliabel apabila tes
tersebut bersifat ajegtetap, memiliki konsistensi, stabil, dan dapat dipercaya.
c Karakteristik butir soal
1 Daya pembeda Ratnawulan dan Rusdiana 2015: 167 menyatakan bahwa
daya pembeda soal adalah kemampuan suatu butir soal dapat membedakan antara siswa yang telah menguasai materi yang
ditanyakan dan siswa yang tidakkurangbelum menguasai materi yang ditanyakan. Purwanto 2009: 102, menjelaskan daya
pembeda adalah kemampuan butir soal membedakan siswa yang mempunyai kemampuan tinggi dan rendah. Sedangkan Arifin
2009: 133, menyatakan daya pembeda soal adalah kemampuan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
soal untuk membedakan antara peserta didik yang pandai mengusai materi dengan peserta didik yang kurang pandai
menguasai materi dengan peserta didik yang kurang pandai kurangtidak menguasai materi. Berdasarkan pendapat beberapa
ahli diatas daya beda adalah kemampuan butir soal untuk membedakan antara siswa yang sudah menguasai materi dan belum
menguasai materi dan antara siswa yang mempunyai kemampuan tinggi dan rendah.
2 Tingkat kesukaran
Aiken dalam Ratnawulan dan Rusdiana, 2015: 169 menyatakan bahwa tingkat kesukaran soal adalah peluang untuk
menjawab benar suatu soal pada tingkat kemampuan tertentu yang dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran pada
umumnya dinyatakan dalam bentuk proporsi yang besarnya berkisar 0,00
– 1,00. Purwanto 2009: 106, memaparkan tingkat kesulitan adalah proporsi siswa peserta tes yang menjawab benar.
Rentang nilai tingkat kesulitan antara 0 – 1. Semakin tinggi tingkat
kesulitan, maka butir soal semakin mudah dan banyak yang menjawab dengan benar. Sebaliknya jika semakin rendah tingkat
kesulitan maka butir semakin sukar dan sedikit yang menjawab benar. Tingkat kesukaran diklasifikasikan menjadi tiga, yaitu
sukar, sedang, dan mudah. Widoyoko 2014: 165, berpendapat tingkat kesukaran soal yang baik dalam suatu tes adalah 25
kategori mudah, 50 kategori sedang, dan 25 kategori sukar. Berdasarkan pendapat para ahli dapat disimpulkan bahawa tingkat
kesukaran adalah sebuah peluang untuk menjawab dengan benar suatu soal pada tingkat kemampuan tertentu. Tingkat kesukaran
soal yang baik dalam suatu tes adalah 25 kategori mudah, 50 kategori sedang, dan 25 kategori sukar. Semakin tinggi tingkat
kesulitan, maka butir soal semakin mudah dan banyak yang menjawab dengan benar. Sebaliknya jika semakin rendah tingkat
kesulitan maka butir semakin sukar dan sedikit yang menjawab benar.
3 Analisis pengecoh Purwanto 2009: 108, menyatakan pengecoh disebut
sebagai penyesat atau penggoda yang merupakan jawaban tetapi bukan merupakan
kunci jawaban. Pengecoh dibuat untuk
menyesatkan siswa dan mengoda siswa yang kurang begitu jelas dengan materi untuk memilih jawaban yang bukan merupakan
kunci jawaban. Arifin 2009: 279, menjelaskan bahwa butir soal dapat dikatakan baik apabila pengecohnya dipilih secara merata
oleh peserta tes, sedangkan butir soal dapat dikatakan kurang baik apabila pengecohnya dipilih secara tidak merata. Arikunto 2012:
234, mengungkapkan bahwa sebuah distraktor dapat dikatakan berfungsi dengan baik jika paling sedikit dipilih oleh 5 peserta
tes. Berdasarkan pendapat para ahli dapat disimpulkan bahwa PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
pengecoh adalah sebuah pilihan jawaban yang bukan termasuk dalam kunci jawaban yang berfungsi sebagai pengecoh atau
penggoda peserta tes agar memilih pengecoh tersebut bagi peserta tes yang kurang menguasai materi. Pengecoh tersebut akan
berfungsi dengan baik jika jawaban pengecoh tersebut dipilih secara merata oleh peserta tes paling sedikit dipilih sebanyak 5.
4. Pengembangan Tes Hasil Belajar