Kriteria Tes yang Baik

a. Validitas

Validitas alat ukur menunjukkan kualitas kesahihan suatu instrumen atau alat pengumpul data dapat dikatakan valid atau sahih apabila alat ukur tersebut mampu mengukur apa yang seharusnya diukur/diinginkan, sehingga alat ukur dikatakan sahih apabila dapat mengungkap secara cermat dan tepat data dari variabel yang diteliti. Tinggi rendahnya tingkat validitas instrumen menunjukkan sejauh mana data dari variabel yang terkumpul tidak menyimpang dari gambaran tentang variabel yang dimaksud. Kerlinger (1986) menyatakan bahwa validitas alat ukur tidak cukup ditentukan oleh derajad ketepatan alat ukur dapat mengukur apa yang seharusnya diukur, tetapi perlu pula diihat dari tiga kriteria yang lain yaitu Appropriatness, Meaningfullness, dan Usefullness (Poerwanti, 2001: 36).

commit to user

menggunakan kriteria internal maupun eksternal, yakni:

1) Validitas isi (content validity) yang menggunakan kriteria internal berkaitan dengan isi atau materi dan format dari instrumen tes. Seberapa tepat dan seberapa lengkap butir-butir instrumen tes mampu menggambarkan isi, materi, konsep, kemampuan, atau variabel yang akan diukur. Penggunaan panel atau expert judgement merupakan cara menentukan validitas isi. Apabila tes dimaksudkan untuk menilai hasil belajar, maka yang digunakan sebagai kriteria atau pedoman adalah kurikulumnya.

2) Validitas konstruk (construct validity) yang juga menggunakan kriteria internal berkaitan dengan kajian teoritis tentang konstruk dan karakteristik dari variabel atau konsep yang akan diukur. Validitas konstruk ditentukan berdasarkan pada kajian teoritis yang diterjemahkan ke dalam definisi operasional tentang variabel atau konsep yang akan diukur. Dengan demikian, hal penting yang harus dilakukan dalam rangka menentukan validitas konstruk adalah pendefinisian variabel atau konsep yang akan diukur.

3) Validitas kriterion (criterion validity) menggunakan kriteria eksternal ditentukan berdasarkan korelasi antara skor yang diperoleh melalui instrumen tes yang sedang dikembangkan dengan skor yang diperoleh melalui instrumen tes lain yang sudah dinyatakan valid dan digunakan sebagai kriteria. Terdapat dua jenis validitas kriterion, yakni concurrent validity dan predictive validity. Concurrent validity menggunakan kriteria skor dari tes sejenis yang sudah dinyatakan valid, sedangkan predictive validity menggunakan kriteria skor dari penilaian atas penampilan seseorang di dalam situasi nyata di kemudian hari. Teknik korelasi point biserial atau biserial dapat digunakan untuk menentukan validitas criterion (hlm. 92).

Idealnya, suatu tes hasil belajar harus memenuhi syarat validitas baik validitas internal maupun eksternal. Validitas internal ditetapkan berdasarkan pada asumsi bahwa jika setiap faktor, setiap subtes, atau setiap butir tes sudah dinyatakan valid, maka tes tersebut secara keseluruhan dapat dikatakan valid. Validitas internal ditentukan melalui analisis butir soal yang meliputi tingkat kesukaran butir soal, daya pembeda butir soal, distribusi jawaban tes, dan reliabilitas tes.

Mehrens & Lehmann menyatakan, ”Tes diagnostik bisa dianggap valid jika: (1) bagian-bagian tes kemampuan komponen harus menekankan hanya pada satu jenis kesalahan; dan (2) perbedaan-perbedaan bagian tes harus dapat

commit to user

tinggi dan korelasi antar-tes yang rendah ” (1973: 462). Dapat diambil kesimpulan pengertian tes diagnostik adalah tes yang digunakan untuk menilai pemahaman konsep siswa, terutama kelemahan (miskonsepsi) pada topik tertentu dan mendapatkan masukan tentang respon siswa untuk memperbaiki kelemahannya.

b. Reliabilitas

Pengertian yang paling sederhana dari reliabilitas adalah kemantapan alat ukur dalam pengertian bahwa alat ukur tersebut dapat diandalkan atau memiliki keajegan hasil. Pada dasarnya hubungan antara validitas dan reliabilitas dapat dikemukakan bahwa alat ukur yang valid akan cenderung menghasilkan pengukuran yang reliabel, sebaliknya alat ukur yang reliabel sama sekali tidak menunjuk pada validitas alat ukur tersebut.

Kerlinger (1986) mengemukakan bahwa reliabilitas dapat diukur dari tiga kriteria yaitu: (1) stability, adalah kriteria yang menunjuk pada keajegan (konsistensi) hasil yang ditunjukkan alat ukur dalam mengukur gejala yang sama, pada waktu yang berbeda; (2) dependability, yaitu kriteria yang mendasarkan diri pada kemantapan alat ukur atau seberapa jauh alat ukur dapat diandalkan; (3) predictability , karena perilaku merupakan proses yang saling berkait dan berkesinambungan, maka kriteria ini mengidealkan alat ukur yang dapat diramalkan hasilnya dan meramalkan hasil pada pengukuran gejala selanjutnya (Poerwanti, 2001: 38). Mundilarto (2010) menyatakan:

Indeks reliabilitas tes dapat ditentukan menggunakan:

1) Teknik ulangan (test retest method). Teknik ulangan merupakan konsistensi eksternal. Penyelenggaraan tes dilakukan dua kali pada waktu yang berbeda. Teknik ini dimaksudkan untuk mengetahui apakah ada stabilitas atau konsistensi antara hasil tes pertama dengan hasil tes kedua. Namun demikian, apakah dengan teknik ini factor- faktor yang mempengaruhi stabilitas pengukuran telah dipenuhi. Teknik ini memiliki kelemahan yaitu sulitnya kita membuat kondisi penyelenggaraan tes yang benar-benar sama.

2) Teknik bentuk paralel (equivalent forms method). Teknik bentuk paralel juga merupakan konsistensi eksternal. Pada teknik ini , kita menyiapkan dua bentuk tes yang seimbang untuk diberikan kepada sekelompok subjek yang sama. Dengan teknik ini ingin diketahui

commit to user

memiliki kelemahan yaitu sulitnya kita membuat dua bentuk tes yang benar-benar seimbang dan masing-masing dapat mewakili keseluruhan aspeknya.

3) Teknik belah dua (split half method). Teknik belah dua merupakan konsistensi internal. Pada teknik ini, penyelenggaraan tes cukup satu kali. Skor total setiap siswa dibagi menjadi dua bagian, yakni skor butir-butir bernomor gasal sebagai skor tes belahan pertama dan skor butir-butir bernomor genap sebagai skor tes belahan kedua. Setelah itu, diuji apakah terdapat korelasi antara skor tes belahan pertama dengan skor tes belahan kedua (hlm. 96).

Selain teknik-teknik tersebut, teknik lain untuk menentukan indeks reliabilitas tes adalah menggunakan formula Kuder-Richardson yang merupakan konsistensi internal. Pada teknik ini, menurut Mundilarto penyeleggaraan tes cukup satu kali dan tidak perlu membagi butir tes menjadi dua bagian (2010). Terdapat dua bentuk formula Kuder-Richardson, yaitu:

1) Formula Kuder-Richardson 20 Bentuk formula ini adalah:

Keterangan: R adalah indeks reliabilitas tes

n adalah jumlah butir tes SD adalah simpangan baku skor tes p adalah proporsi subjek yang menjawab benar butir soal q adalah proporsi subjek yang menjawab salah butir soal harga q = 1 –p

2) Formula Kuder-Richardson 21 Bentuk formula ini adalah:



1 SD

Mt

Mt

2.2

commit to user

n adalah jumlah butir tes SD adalah simpangan baku skor tes Mt adalah rerata skor tes total

Formula Kuder-Richardson 21 menggunakan asumsi bahwa setiap butir soal memiliki tingkat kesukaran butir soal yang sama. Sementara itu, formula Kuder-Richardson 20 tidak memerlukan asumsi tersebut.