konstruksi tes

(1)

Bahan lokakarya Metodologi Interaksi Pembelajaran Universita Muhammdaiyah Surakarta

Tanggal 15 Februari 2003

_________________________________________

KONSTRUKSI TES DAN ANALISIS BUTIR

Oleh: Djemari Mardapi *)


(2)

A. Pendahuluan

Keberhasilan proses belajar mengajar dapat dilihat dari prestasi yang dicapai mahasiswa. Keberhasilan ini selalu dikaitkan dengan tujuan pelajaran atau kompetensi yang ingin dicapai. Pada dasarnya hasil belajar mahasiswa dapat dinyatakan dalam tiga aspek, yang sering disebut dengan ranah, yaitu: kognitif, afektif, dan psikomotorik. Ketiga ranah tersebut saling terkait, dan pasti terlibat dalam setiap kegiatan belajar mengajar. Hanya porsi dari masing-masing ranah tersebut bervariasi sesuai dengan karakteristik mata kuliah.

Mata kuliah fisika lebih banyak melibatkan ranah kognitif, sedang pelajaran praktek di bengkel lebih banyak menekankan pada segi psikomotorik. Ranah lain yang sangat penting adalah ranah afektif, walaupun sering tidak tampak pada tujuan pelajaran atau kompetensi yang ingin dicapai, namun hal ini sangat penting bagi baik bagi dosen maupun mahasiswa. Misalnya, bagaimana perubahan sikap sosial mahasiswa, minat, ddisiplin, komitmen, dan sebagainya setelah mengikuti mata kuliah-mata kuliah tertentu. Ranah ini sering dihubungkan dengan pelajaran agama atau budi pekerti, walau hal ini tidak sepnuhnya benar. .

Ketiga ranah tersebut meerupakan aspek penting yang harus dapat dilihat sebagai hasil proses belajar mengajar. Masing-masing ranah memiliki karakteristik yang khusus. Ranah kognitif dikembangkan oleh Bloom, yang dikenal dengan taksonomi Bloom (1987). Ranah yang kedua, afektif, dikembangkan oleh Krathwohl (1984), sedang ranah yang ketiga, psikomotorik, dikembangkan oleh Simpson (1966), Kliber et al (1970), dan Harrow (1972).

Ada beberapa istilah yang sering digunakan untuk mengukur hasil belajar mengajar, yaitu tes, pengukuran, penilaian, dan evaluasi. Tes terdiri dari sejumlah pertanyaan yang memiliki jawaban benar atau salah. Pengukuran adalah prosedur yang sistematik menentukan angka pada suatu objek atau gejala. Penafsiran hasil pengukuran disebut dengan istilah penilaian. Selain itu istilah penilaian dan evaluasi sering sering ditukar balik penggunaannya, tetapi ada juga yang membedakannya. Evaluasi didefinisikan


(3)

sebagai proses untuk memperoleh informasi guna memilih alternatif yang terbaik (Stufflebeam et al, 1971, p. xxv). Evaluasi juga didefinisikan sebagai kegiatan untuk mengetahui tingkat keberhasilan suatu program. Pengukuran, penilaian, dan evaluasi bersifat hirarki. Evaluasi membutuhkan hasil penilaian, dan penilaian memerlukan hasil pengukuran.

Penilaian merupakan umpan balik baik bagi tenaga pengajar, mahasiswa, maupun para pembuat keputusan lainnya. Hasil penilaian dapat digunakan untuk memberi motivasi pada mahasiswa, untuk memberi bimbingan pada mahasiswa, mendorong pengajar untuk mengajar lebih baik, dan sebagainya. Penilaian adalah bagian dari kegiatan proses belajar mengajar, yaitu untuk mengetahui seberapa jauh tujuan proses belajar mengajar telah tercapai. Tujuan ini bila menggunakan kurikulum berbasis kompetensi digunakan istilah standar kompetensi atau kemampuan dasar. Standar kompetensi adalah kemampuan yang harus dimiliki oleh mahasiswa untuk mata pelajarana tertentu. Standar kompetensi pada umumnya diuraikan menjadi sejumlah kemampuan dasar.

B.

Kurikulum Berbasis Kompetensi

Ranah kognitif mencakup semua tujuan yang berkaitan dengan pengenalan pengetahuan dan pengembangan kemampuan intelektual dan keterampilan (Bloom, 1987: 7 ). Taksonomi Bloom membagi tingkat pengetahuan yang diperoleh seseorang menjadi 6 ranah (domain), yaitu, pengetahuan, pemahaman, aplikasi, analisis, sitensis, dan evaluasi. Ranah pengetahuan menekankan pada fakta, sumber-sumber pengetahuan yang dapat dipercaya. Proses berpikir yang banyak terlibat pada ranah ini adalah menghapal fakta-fakta. Ranah yang kedua, pemahaman, mencakup masalah terjemahan atau ekstrapolasi, serta interprestasi, yang menekankan pada pemahaman arti suatu tulisan.

Ranah yang ketiga, aplikasi, adalah kemampuan untuk menerapkan prinsip-prinsip pada situasi yang baru. Ranah yang keempat, analisis merupakan kemampuan mengenal bentuk dan pola suatu masalah, sebagai alat


(4)

untuk memahami masalah tersebut. Ranah yang kelima, sintesis, adalah kemampuan untuk mengorganisasi ide-ide dan pengalaman dengan maksud untuk mengkomunikasikan ke masyarakat. Pada ranah ini semua elemen dikumpulkan dan diorganisasikan sehingga membentuk suatu kesatuan. Ranah yang terakhir, evaluasi, adalah kemampuan mengenal dan menggunakan nilai-nilai yang dibutuhkan dalam memilih suatu tindakan.

Kurikulum berbasis kompetensi dikembangkan berdasarkan kemampuan lulusan. Kemampuan ini dibajarkan menjadi standar kompetensi tiap mata kuliah, dan kemampuan ini diuraikan lagi menjadi kemampuan dasar, yaitu kemampuan yang lebih operasional. Kemampuan dasar ini bersifat operasional, sehingga menggunakan kata kerja yang dapat. Tingkat kemampuan ini bisa menggunakan taksonomi Blooom atau taksonomi yang lain. Tingkat kemampuan atau tingkat berpikir yang digunakan pada kemampuan dasar adalah yang menengah sampai tinggi, misalnya: mengidentifikasi, membedakan, menghitung, merangkum, menafsirkan, menerapkan, menganalisis, mensinteis, dan mengevaluasi.

Silabus kurikulum berbasis kompetensi meliputi: standar kompetensi, kemampuan dasar, materi pembelajaran, pengalaman belajar, sumber bahan. Materi pembelajaran dipilih untuk mencapai kemampuan dasar, sedang pengalaman pembelajaran adalah semua kegiatan yang harus dilakukan peserta didik untuk mencapai kemampuan dasar. Sumber bahan adalah semua sumber belajar yang digunakan.

C.

Acuan Penilaian

Dilihat dari perencanaan tes dan interpretasi hasil tes, pengukuran dalam bidang pendidikan bisa berdasarkan pada acuan norma, dan acuan kriteria. Acuan norma berarti bahwa interpretasi skor seseorang dibandingkan dengan kelompoknya, sedang acuan kriteria berarti bahwa skor seseorang dibandingkan dengan suatu kriteria yang telah ditetapkan sebelumnya.

Pengukuran dengan acuan norma, skor yang diperoleh seseorang adalah relatif, karena dibandingkan dengan kelompoknya. Bila kebetulan


(5)

kelompoknya termasuk mahasiswa atau siswa yang berkemampuan tinggi, maka skor 70 (skala 0-100) bisa termasuk kategori rendah. Tetapi apabila kelompoknya adalah mereka yang berkemampuan rendah, skor 70 bisa termasuk kategori menengah atau bahkan tinggi. Dari contoh ini sebahagian orang menyatakan bahwa skor tes berdasarkan acuan norma tidak bisa digunakan untuk mengetahui apa yang bisa dikerjakan oleh seseorang yang dites.

Glaser (1963) termasuk salah satu tokoh yang mula-mula menggunakan istilah pengukuran dengan acuan kriteria. Ia menjelaskan bahwa pengukuran acuan kriteria dapat menunjukkan kemampuan seseorang, serta hubungan antara apa yang bisa dilakukan individu dan skala pencapaian belajar. Selanjutnya Glaser dan Nitko (1971) menyatakan bahwa tes dengan acuan kriteria, skor yang diperoleh bisa diinterpretasikan dalam bentuk standar penampilan. Ahli lain yang banyak membahas masalah tes acuan kriteria, Popham (1969), menyatakan bahwa kriteria berarti penampilan standar. Pendapat kedua tokoh ini pada prinsipnya adalah sama.

Tes acuan kriteria digunakan pada kurikulum berbasis kompetensi. Acuan yang digunakan adalah kemampuan dasar, yaitu dengan menjabarkan kemampuan dasar menjadi sejumlah indikator. Indikator menggunakan kata kerja yang operasional seperti pada kemampuan dasar namun cakupannya lebih sempit. Mialsnya indikator mahasiswa bisa menafsirkan sejumlah data adalah mahasiswa mampu menafsirkan sejumlah data perubahan penduduk selama lima tahun.

Asumsi yang digunakan pada tes ini adalah bahwa hampir semua orang bisa mempelajari hampir semua bidang, hanya waktu yang bervariasi. Jadi ubahan yang bervariasi di sini adalah waktu sedang yang tetap adalah kriteria, yaitu mampu melakukan sesuatu, dengan tes ini, skor yang diperoleh bisa diinterpretasikan tentang apa yang bisa dilakukan seseorang.

Tes penampilan atau unjuk kerja, salah satu tipe dari tes acuan kriteria, digunakan untuk mengetahui apakah seseorang bisa melakukan suatu pekerjaan atau tidak, sehingga dibutuhkan skor pembatas antara yang bisa dan


(6)

yang tidak. Pembatas ini yang sering menjadi masalah, karena cenderung dipilih secara subjektif.

D.

Konstruksi Tes

Ada beberapa hal yang harus diperhatikan dalam merencanakan suatu tes, yaitu seperti berikut ini (Mehren & Lehman, 1984, p. 64):

1. Tujuan tes

2. Pengetahuan, keterampilan, sikap, atau lainnya yang ingin diukur 3. Tabel spesifikasi

4. Kesesuaian butir tes dengan tujuan 5. Format butir tes

6. Lama waktu untuk tes 7. Tingkat kesukaran tes 8. Tingkat pembedaan tes

9. Susunan format tes (bila lebih dari satu) 10. Susunan butir tes untuk tiap format 11. Persiapan mahasiswa

12. Tempat menulis jawaban tes 13. Cara penskoran

14. Penskoran tes esei dan pilihan ganda 15. Tabulasi skor tes

16. Laporan hasil tes

Tes yang banyak digunakan di sekolah adalah tes hasil belajar yang dilaksanakan di klas. Tes ini mempunyai beberapa tujuan: 1) menentukan tingkat kemampuan mahasiswa, 2) mengukur pertumbuhan dan perkembangan mahasiswa, 3) merangking mahasiswa berdasarkan kemampuannya, 4) mendiagnosis kesulitan mahasiswa, 5) mengevaluasi hasil pengajaran, 6) mengetahui efektivitas kurikulum (pencapaian kurikulum), 7) memotivasi mahasiswa. Sebuah tes sering kali bisa digunakan untuk beberapa tujuan, tetapi tidak akan memiliki efektivitas yang sama untuk semua tujuan.


(7)

Pengujian berbasis kompetensi menggunakan format yang terdiri dari: 1. Standar kompetensi

2. Kemampuan dasar 3. Materi pembelajaran 4. Indikator pencapaian 5. Bentuk soal

6. Soal ujian

E. Penyusunan Kisi-Kisi Tes

Dalam pengembangan tes prestasi belajar ada delapan langkah yang harus ditempuh, yaitu:

1. Menyusun spesifikasi tes 2. Menulis soal tes

3. Menentukan soal tes 4. Melakukan uji coba tes 5. Menganalisis butir soal 6. Merakit tes

7. Administrasi tes 8. Interpretasi hasil tes

Pada kesempatan ini hanya akan dibahas tentang penyusunan spesifikasi tes.

1. Menyusun Spesifikasi Tes

Langkah awal dalam mengembangkan tes adalah menetapkan spesifikasi tes, yaitu yang berisi tentang uraian yang menunjukkan keseluruhan karakteristik yang harus dimiliki suatu tes. Spesifikasi yang jelas akan mempermudah dalam menulis soal. Dalam menyusun spesifiksi tes harus memperhatikan tiga hal berikut ini, yaitu:

a. Menentukan tujuan tes b. Menyusun kisi-kisi


(8)

d. Menentukan panjang tes

Ditinjau dari tujuan, pada prinsipnya ada empat macam tes yang banyak digunakan di lembaga pendidikan, yaitu: 1) tes penempatan, 2) tes diagnostik, 3) tes formatif, 4) tes sumatif.

1) Menentukan tujuan tes

Untuk tujuan penempatan suatu tes dilaksanakan pada awal pelajaran. Hasil tes ini berguna untuk mengetahui pengetahuan yang telah dimiliki siswa. Untuk mempelajari suatu pelajaran diperlukan pengetahuan pendukung. Apabila pengetahuan pendukung ini belum dimiliki maka harus dilakukan suatu perlakuan agar dapat mengikuti pelajaran. Untuk melaksanakan perlakuan khusus diperlukan suatu rencana yang meliputi materi yang harus dibahas serta metode yang digunakan.

Tes diagnostik berguna untuk mengungkapkan kesulitan belajar siswa dalam mata pelajaran tertentu. Pada umumnya tes diagnostik diberikan setelah tes formatif, yaitu apabila standar yang sudah ditetapkan tidak tercapai. Isi tes ini berdasarkan analisis hasil tes formatif. Pertanyaan pada tes diagnostik cenderung memiliki tingkat kesukaran yang rendah, dan mencakup materi yang dirasa sukar oleh mahasiswa.

Tes formatif dilaksanakan secara periodik selama proses belajar mengajar berlangsung. Tes ini berguna untuk memantau kemajuan belajar siswa dan hasilnya merupakan umpan balik bagi guru dan siswa. Materi tes ini dipilih berdasarkan tujuan setiap unit pelajaran. Hasil tes ini merupakan informasi tentang tujuan pelajaran yang sudah dicapai dan yang belum dicapai. Berdasarkan hasil tes formatif, guru harus menyusun strategi dalam melaksanakan proses belajar mengajar.

Tes sumatif diberikan pada akhir suatu pelajaran. Hasilnya digunakan untuk menentukan prestasi belajar siswa, yaitu berupa nilai, lulus atau tidak, pemberian sertifikat, dan sejenisnya. Tingkat kesukaran soal untuk tes formatif cenderung bervariasi, sedang


(9)

materinya harus mewakili materi yang telah diajarkan. Hasil tes ini merupakan masukan bagi guru dan siswa. Bagi guru merupakan informasi keberhasilan mengajar, sedang bagi siswa merupakan informasi keberhasilan belajarnya.

2) Menyusun kisi-kisi

Kisi-kisi, disebut juga dengan blue print, merupakan tabel matrik yang berisi spesifikasi soal-soal yang akan ditulis. Kisi-kisi ini merupakan pedoman bagi para penulis tes, walau penulisnya berbeda-beda namun soalnya akan memiliki bobot yang sama. Sedang bagi pentelaah tes, tes yang ditulis bisa ditelaah apakah sesuai dengan tujuan instruksional umum, pokok/sub pokok bahasan dan uraian yang terdapat dalam kurikulum.

Ada tiga langkah dalam mengembangkan kisi-kisi tes, yaitu: 1) Membuat daftar pokok bahasan yang akan diujikan

2) Menjabarkan pokok/sub pokok bahasan yang akan diujikan

3) Menentukan jumlah soal untuk masing-masing pokok/sub pokok bahasan dan untuk keseluruhan tes.

Materi tes pada kurikulum berbasis komptensi mengacu pada indikator pencapaian. Semua kemampuan dasar diujikan, dan bila belum tercapai oleh sebagian besar mahasiswa, pembelajaran dilakukan lagi untuk kemampuan dasar yang belum tercapai, yaitu melaksanakan

Untuk kurikulum yang lama yang berbasis pada isi, setelah pokok/sub pokok bahasan dipilih kemudian dirumuskan lebih rinci lagi indikator-indikatornya. Selanjutnya dipilih indikator-indikator yang dapat diukur. Pada saat memilih indikator-indikator yang dapat diukur digunakan pula buku pelajaran yang berlaku di sekolah sebagai bahan acuan penulisan soal. Hal ini dimaksudkan untuk mengurangi penyimpangan-penyimpangan dalam memilih bahan yang dapat mewakili dan memenuhi persyaratan kesahihan isi tes. Di samping itu perlu dipertimbangkan pula bentuk interpretasi yang akan digunakan.


(10)

Jumlah soal tes yang digunakan tergantung waktu yang tersedia dan materi yang akan diujikan. Materi tes yang diujikan pada prinsipnya harus mewakili materi yang diajarkan. Karena tidak mungkin mengujikan keseluruhan materi maka digunakan sampel, yaitu pemilihan materi tes. Pemilihan materi tes ini harus benar-benar dilakukan dengan cara yang benar, sehingga soal-soal yang akan muncul mewakili pokok bahasan.

3) Menentukan bentuk tes

Secara garis besar ada dua bentuk tes yang banyak digunakan di sekolah-sekolah, yaitu: 1) bentuk tes uraian, dan 2) bentuk tes objektif. Tes uraian ini biasanya merupakan pertanyaan yang umum memungkinkan siswa menulis bebas dalam menjawab pertanyaan. Tes uraian ini dapat dibagi menjadi dua golongan menurut cara penilaiannya, yaitu: 1) tes uraian non objektif, dan 2) tes uraian objektif.

Pokok Bahasan/Sub Pokok Bahasan (PB/SPB) merupakan salah satu komponen yang perlu diujikan. Pemilihan ini dilakukan karena di dalam suatu tes, kita tidak mungkin menanyakan semua PB/SPB yang telah dianjurkan. Oleh sebab itu kita perlu memilih PB/SPB yang penting-penting saja. Pemilihan PB/SPB yang penting-penting ini dilakukan dengan memperhatikan kriteria sebagai berikut:

1) Merupakan PB/SPB lanjutan yang merupakan pendalaman dari satu atau lebih PB/SPB yang sudah dipelajari sebelumnya.

2) Merupakan PB/SPB penting yang seharusnya dikuasai oleh siswa 3) Merupakan pokok bahasan yang sering diperlukan untuk mempelajari

atau memahami bidang studi lain

4) Merupakan topik yang berkesinambungan yang terdapat pada semua jenjang kelas

5) Merupakan PB/SPB yang memiliki nilai terapan dalam kehidupan sehari-hari.


(11)

E.

Bentuk Soal

Ada beberapa bentuk soal yang dipakai dalam suatu sistem pengujian. Bentuk tes yang dapat digunakan adalah sebagai berikut:

1. Pilihan ganda : Bentuk ini bisa mencakup banyak materi pelajaran, penskorannya objektif, dan bisa dikoreksi dengan komputer. Namun membuat butir soal pilihan ganda yang berkualitas baik cukup sulit, dan kelemahan lain adalah peluang kerja sama peserta antar tes sangat besar. Oleh karena itu, bentuk ini dipakai untuk ujian yang melibatkan banyak siswa dan waktu untuk koreksi relatif singkat. Penggunaan bentuk ini menuntut agar pengawas ujian teliti dalam melakukan pengawasan saat ujian berlangsung. Tingkat berpikir yang diukur bisa tinggi tergantung pada kemampuan pembuat soal (Ebel, 1979).

2. Uraian objektif : Bentuk ini cocok untuk mata pelajaran yang batasnya jelas seperti Matematika dan IPA (Fisika, Kimia, dan Biologi). Agar hasil penskorannya objektif diperlukan pedoman penskoran Objektif di sini berarti hasil penilaian terhadap suatu lembar jawaban akan sama walau diperiksa oleh orang yang berbeda asal memiliki latar belakang pendidikan sesuai dengan mata ujian. Tingkat berpikir yang diukur bisa sampai pada tingkat yang tinggi. Penskoran dilakukan secara analitik, yaitu setiap langkah pengerjaan diberi skor. Misalnya, jika siswa menuliskan rumusnya diberi skor, menghitung hasilnya diberi skor, dan menafsirkan atau menyimpulkan hasilnya, juga diberi skor. Penskoran bersifat hierarkhis, sesuai dengan langkah pengerjaan soal. Bobot skor untuk tiap butir soal ditentukan oleh tingkat kesulitan butir soal, yang sulit bobotnya lebih besar dibandingkan dengan yang mudah.

3. Uraian non-objektif/uraian bebas : Bentuk ini cocok untuk bidang studi ilmu-ilmu sosial. Walau hasil penskoran cenderung subjektif, namun bila disediakan pedoman penskoran yang jelas, hasilnya diharapkan dapat lebih objektif. Tingkat berpikir yang diukur bisa tinggi.

4. Jawaban singkat atau isian singkat :Bentuk ini cocok digunakan untuk mengetahui tingkat pengetahuan dan pemahaman siswa. Jumlah materi


(12)

yang diuji bisa banyak, namun tingkat berpikir yang diukur cenderung rendah.

5. Menjodohkan : Bentuk ini cocok untuk mengetahui fakta dan konsep. Cakupan materi bisa banyak, namun tingkat berpikir yang terlibat cenderung rendah.

6. Performans : Bentuk ini cocok untuk mengukur kemampuan seseorang dalam melakukan tugas tertentu, seperti praktek di laboratorium. Peserta tes diminta untuk mendemonstrasikan kemampuan dan keterampilan dalam bidang tertentu. Penilaian performans menurut Nathan & Cascio (1986) berdasarkan pada analisis pekerjaan.

7. Portfolio : Bentuk ini cocok untuk mengetahui perkembangan unjuk kerja siswa, dengan menilai kumpulan karya-karya, atau tugas yang dikerjakan siswa. Portfolio berarti kumpulan karya atau tugas-tugas yang dikerjakan siswa (Popham, 1985). Karya-karya ini dipilih kemudian dinilai, sehingga dapat dilihat perkembangan kemampuan siswa. Cara ini bisa dilakukan dengan baik bila jumlah siswa yang dinilai tidak banyak.

F.

Analisis Butir

Ada dua analisis yang harus dilakukan terhadap butir tes yaitu: analisis konstruksi, dan analisis statistik. Analisis konstruksi dilakukan sebelum tes digunakan atau diuji coba, sedang analisis statistik dilakukan setelah diperoleh data hasil tes. Analisis konstruksi dilakukan berdasarkan pada pedoman penulisan soal yang baik dan sebaiknya dilakukan oleh teman sejawat atau suatu tim. Setelah dilakukan analisis konstruksi kemudian tes diberikan pada mahasiswa dan akan diperoleh data hasil tes. Data ini dianalisis untuk mengetahui distribusi respon, bentuk distribusi skor, besarnya rerata (mean),

1. Analisis Konstruksi

Analisis konstruksi disebut juga dengan kegiatan telaah butir soal sebelum digunakan. Analisis ini meliputi: Kemampuan dasar atau tujuan pembelajaran umum (TPU), rumusan soal, kunci jawaban, pengecoh, dan


(13)

bahasa yang digunakan. Analisis terhadap dilihat dari Blue Print atau kisi-kisi tes, yang pada dasarnya harus mewakili semua materi yang diajarkan dan proporsional dan sering disebut dengan validitas isi tes. Rumusan soal harus singkat dan jelas, termasuk bila ada gambar atau grafik. Jawaban yang paling benar hanya satu bila bentuk tes pilihan ganda, sedang untuk tes bentuk uraian harus ada kunci jawaban yang jelas. Untuk soal-soal penyelesaian masalah harus diperhitungkan penggunaan berbagai rumus dan berbagai cara namun memperoleh hasil yang sama.

Untuk tes bentuk pilihan ganda, semua pengecoh harus logis yaitu bila peserta menggunakan pendekatan atau cara yang salah akan diperoleh hasil yang salah dan tercantum pada pilihan jawaban. Selanjutnya bahasa yang digunakan harus baku dan menggunakan tata bahasa yang baik dan benar, sehingga tidak menimbulkan salah penafsiran. Variasi jawaban yang diinginkan adalah disebabkan variasi kemampuan bukan variasi salah tafsir, karena yang ingin diukur adalah kemampuan peserta.

2. Analisis Statistik

Setelah konstruksi tes ditelaah, kemudian tes diberikan pada mahasiswa dalam rangka uji coba atau untuk pengukuran. Dari data hasil uji coba kemudian dilihat distribusi respons, tingkat kesukaran, dan daya pembeda. Butir tes yang baik, semua alternatif jawaban pada tes pilihan ganda harus dipilih mahasiswa, sehingga semua pengecoh berfungsi dengan baik.

Tingkat kesukaran butir adalah proporsi mahasiswa yang menjawab benar. Butir tes yang baik memiliki tingkat kesukaran berkisar 0,30 sampai 0,70. Daya pembeda butir adalah indek yang menyatakan seberapa jauh butir tes dapat membedakan mereka yang memiliki kemampuan tinggi dengan kemampuan rendah. Besarnya indek ini dicari dengan formula korelasi point biserial atau biserial, formula ini berdasarkan pada korelasi Pearson atau disebut juga dengan korelasi product moment .


(14)

Butir 1 Butir 2

A. 8 A. 20

B. 10 B. 3

C. 9 C. 7

D. 23 * D. 20 *

Contoh data hasil tes pilihan ganda:

Mahasiswa Butir Mhs.Skor

1 2 3 4 5 6 7 8 9 10

A 0 1 0 1 1 0 0 0 0 0 3

B 1 1 1 1 1 1 0 0 1 0 7

C 1 1 1 0 0 1 1 1 0 0 6

D 1 1 1 1 1 0 0 0 0 1 6

E 1 1 1 1 1 0 1 1 1 0 8

F 1 0 0 0 1 1 0 0 0 1 4

G 0 1 1 1 0 1 1 0 0 0 5

H 1 1 1 1 1 0 0 0 0 0 5

I 1 1 1 1 1 1 0 1 0 0 7

J 0 1 0 1 0 0 0 0 0 0 2

Skor Butir 7 9 7 8 7 5 3 3 2 2

Keterangan:

0 menyatakan salah 1 menyatakan benar.

Semua skor butir dibagi sepuluh

Tingkat kesukaran dan daya beda tes di atas adalah: Butir 1 Tingkat kesukaran:0.70 Daya pembeda: 695 . 0 ) 3 . 0 )( 7 . 0 ( 78 . 1 3 . 3 00 . 6    v rbis


(15)

Besar daya beda yang dditerima minimum 0,30.

Tugas:

Cari tingkat kesukaran dan daya pembeda butir tes serta indek kehandalan tes di atas, dan buat kesimpulannya!

G. Kehandalan dan Kesahihan

Kehandalan suatu tes dinyatakan dengan suatu indek yang disebut dengan indek kehandalan. Pada prinsipnya kehandalan suatu tes dinyatakan dengan dua cara, yaitu:

1. stabilitas

2. konsistensi internal

Stabilitas menyatakan seberapa jauh suatu tes memberi hasil yang stabil tentang kemampuan siswa. Indek stabilitas diperoleh dengan cara memberi tes yang sama atau yang ekivalen terhadap kelompok yang sama. Skor kedua kelompok tersebut dikorelasikan sehingga diperoleh indek stabilitas. Sedang konsistensi internal merupakan perbandingan antara varian sebenarnya dengan varian total. Suatu model pengukuran klasik dapat ditulis sebagai berikut:

X = T + e

Persamaan di atas menyatakan bahwa skor yang tampak terdiri dari skor sebenarnya dan skor kesalahan. Sumber kesalahan dalam pengukuran bisa berasal dari alat ukur, pengawas ujian, lingkungan tes, dan bisa berasal dari kondisi mahasiswa. Masalah pada pengukuran bidang pendidikan adalah cara mengestimasi besarnya skor yang sebenarnya.

Dengan asumsi bahwa tidak ada hubungan antara skor sebenarnya T dengan skor kesalahan e, maka varian skor total x, dapat ditulis sebagai berikut:


(16)

Rasio antara VT dengan Vx disebut indek konsistensi internal. Formula yang

umum untuk menghitung besarnya indek konsistensi internal adalah Cronbach-alpha, yaitu:

rxx’ = (n / n - 1) (1 – ∑ Ve / Vx)

n adalahjumlah butir

Ve adalah varian kesalahan

Vx adalah varisn skor tampak

Kesahihan alat ukur harus dilihat pada tiga hal yaitu konstruksi, isi, dan kriteria. Semua jenis kesahihan harus diperhatikan untuk semua jenis tes, hanya penekanannya yang berbeda. Tes psikologi menekankan pada konstruksi tes, tes pencapaian belajar menekankan pada kesahihan isi, sedang tes seleksi menekankan pada kesahihan kriteria, terutama kesahihan prediktif.

Kesahihan isi suatu tes dilihat dari kisi-kisi atau disebut juga dengan tabel spesifikasi. Pada prinsipnya materi suatu tes merupakan sampel dari materi pelajaran yang diajarkan. Sampel yang dipilih harus mewakili semua materi yang diajarkan. Salah satu bentuk kisi-kisi yang sering digunakan adalah dengan menggunakan taksonomi Bloom, seperti di bawah ini:

Topik Hap. Pem. Apli. Anal. Sint. Eval. Jml.

1 3 4 2 9

2 2 3 2 1 8

3 1 3 3 2 9

4 1 3 4 2 10

5 - 2 4 2 8

6 - 1 2 3 6

Jml 7 16 17 10 50

Evaluasi terhadap validitas isi dilakukan oleh para pakar dalam bidangnya. Pokok bahasan yang komplek sehingga memerlukan waktu yang lama untuk mengajarkannya harus memiliki butir tes yang lebih banyak dibanding pada pokok bahasan yang sederhana. Distribusi letak butir-butir


(17)

dalam sel yang baik adalah yang cenderung mengukur kemampuan aplikasi ke atas. Oleh karena itu butir tes yang digunakan harus lebih banyak pada kategori aplikasi ke atas.

Kesahihan konstruk suatu tes dilihat dari definisinya. Kalau kita ingin mengukur kemampuan berpikir logis, maka definisi berfikir logis harus dibuat terlebih dahulu. Selanjutnya semua butir tes harus dapat dikembalikan pada definisi tersebut. Pada prinsipnya pengukuran yang ingin dilakukan adalah memiliki dimensi satu. Kalau kita ingin mengukur kemampuan matematika maka di dalamnya tidak ada kemampuan lain yang diukur, seperti kemampuan menggambar dan kemampuan bahasa dan lainnya. Pada alat ukur yang meng-ukur satu dimensi, kita bisa menjumlahkan skor-skor butirnya. Bila yang diukur lebih dari satu dimensi maka penjumlahan skornya sebenarnya menya-lahi konsep pengukuran.

Jenis kesahihan yang ketiga adalah kesahihan kriteria. Kesahihan ini dibagi dua yaitu yang disebut dengan konkuren dan prediktif, semuanya menunjukkan daya prediksi atau daya ramal. Daya prediksi yang dinyatakan dengan angka yang besarnya mulai dari 0 sampai 1.00 merupakan korelasi antara skor tes dengan kriteria keberhasilan. Misalnya korelasi skor tes masuk perguruan tinggi dengan indek prestasi. Semakin besar korelasi skor tes masuk dengan prestasi belajar maka dapat dikatakan bahwa daya prediksi tes masuk tinggi atau kesahihan tes masuk tinggi.

Dalam proses belajar mengajar sering kali ingin diukur kemampuan berfikir mahasiswa. Ada lima komponen yang dapat digunakan untuk meng-ukur kemampuan berfikir mahasiswa, yaitu: ingatan, analisis, komparasi, infe-rensi, dan evaluasi. Kemampuan berfikir ini sangat berguna untuk menyele-saikan permasalahan-permasalahan yang ada di lapangan. Dosen tidak akan mengajarkan bagaimana menyelesaikan permasalahan di lapangan secara detail, tetapi hanya konsep, teori-teori yang mendasar saja. Mahasiswa yang harus mengolahnya untuk dapat digunakan dalam memecahkan masalah-masalah yang baru. Namun dosen harus bisa membuat soal yang sifatnya aplikasi.


(18)

Berikut ini suatu contoh urutan kemampuan penalaran yang dapat digunakan dalam merencanakan suatu tes.

Analisis Mengenal program-program suatu proses, menganalisis prinsip kerja suatu sistem

Komparasi Membandingkan watak suatu objek, komponen suatu proses Inferensi Membuat konklusi, prediksi, pengujian hipotesis dan

pen-jelasannya

Evaluasi Evalusi suatu prosedur, kredibilitas suatu konklusi, penemu-an-penemuan yang signifikan.

Kategori di atas merupakan alternatif lain dari pembagian menurut Bloom. Hal lain yang penting pada tes acuan kriteria adalah penentuan standar atau cutting score. Ada yang menggunakan skor 80 dan ada yang mengguna-kan skor 90 sebagai batas kelulusan untuk skala pengukuran 0 sampai 100.

Daftar Pustaka

Ebel. R.L. (1979). Essential of Educational Measurement. New Jersey: Prentice Hall.

Mardapi, D. (1989). Evaluasi Hasil Belajar. Bahan penataran dosen-dosen FPTK IKIP Jakarta, Surabaya, dan Ujung Pandang.

Mehren, W.A. & Lehmann, I.J. (1984). Measurement and Evaluation in Education and Psychology. New York: Holt, Rinehart.

Bahan Penataran Penulisan Soal Ujian (1990). Pusat Penelitian dan Pengem-bangan Sistem Pengujian. Balitbang Depdikbud Jakarta.


(1)

bahasa yang digunakan. Analisis terhadap dilihat dari Blue Print atau kisi-kisi tes, yang pada dasarnya harus mewakili semua materi yang diajarkan dan proporsional dan sering disebut dengan validitas isi tes. Rumusan soal harus singkat dan jelas, termasuk bila ada gambar atau grafik. Jawaban yang paling benar hanya satu bila bentuk tes pilihan ganda, sedang untuk tes bentuk uraian harus ada kunci jawaban yang jelas. Untuk soal-soal penyelesaian masalah harus diperhitungkan penggunaan berbagai rumus dan berbagai cara namun memperoleh hasil yang sama.

Untuk tes bentuk pilihan ganda, semua pengecoh harus logis yaitu bila peserta menggunakan pendekatan atau cara yang salah akan diperoleh hasil yang salah dan tercantum pada pilihan jawaban. Selanjutnya bahasa yang digunakan harus baku dan menggunakan tata bahasa yang baik dan benar, sehingga tidak menimbulkan salah penafsiran. Variasi jawaban yang diinginkan adalah disebabkan variasi kemampuan bukan variasi salah tafsir, karena yang ingin diukur adalah kemampuan peserta.

2. Analisis Statistik

Setelah konstruksi tes ditelaah, kemudian tes diberikan pada mahasiswa dalam rangka uji coba atau untuk pengukuran. Dari data hasil uji coba kemudian dilihat distribusi respons, tingkat kesukaran, dan daya pembeda. Butir tes yang baik, semua alternatif jawaban pada tes pilihan ganda harus dipilih mahasiswa, sehingga semua pengecoh berfungsi dengan baik.

Tingkat kesukaran butir adalah proporsi mahasiswa yang menjawab benar. Butir tes yang baik memiliki tingkat kesukaran berkisar 0,30 sampai 0,70. Daya pembeda butir adalah indek yang menyatakan seberapa jauh butir tes dapat membedakan mereka yang memiliki kemampuan tinggi dengan kemampuan rendah. Besarnya indek ini dicari dengan formula korelasi point biserial atau biserial, formula ini berdasarkan pada korelasi Pearson atau disebut juga dengan korelasi product moment .


(2)

Butir 1 Butir 2

A. 8 A. 20

B. 10 B. 3

C. 9 C. 7

D. 23 * D. 20 *

Contoh data hasil tes pilihan ganda:

Mahasiswa Butir Mhs.Skor

1 2 3 4 5 6 7 8 9 10

A 0 1 0 1 1 0 0 0 0 0 3

B 1 1 1 1 1 1 0 0 1 0 7

C 1 1 1 0 0 1 1 1 0 0 6

D 1 1 1 1 1 0 0 0 0 1 6

E 1 1 1 1 1 0 1 1 1 0 8

F 1 0 0 0 1 1 0 0 0 1 4

G 0 1 1 1 0 1 1 0 0 0 5

H 1 1 1 1 1 0 0 0 0 0 5

I 1 1 1 1 1 1 0 1 0 0 7

J 0 1 0 1 0 0 0 0 0 0 2

Skor Butir 7 9 7 8 7 5 3 3 2 2

Keterangan:

0 menyatakan salah 1 menyatakan benar.

Semua skor butir dibagi sepuluh

Tingkat kesukaran dan daya beda tes di atas adalah: Butir 1 Tingkat kesukaran:0.70 Daya pembeda: 695 . 0 ) 3 . 0 )( 7 . 0 ( 78 . 1 3 . 3 00 . 6    v rbis


(3)

Besar daya beda yang dditerima minimum 0,30.

Tugas:

Cari tingkat kesukaran dan daya pembeda butir tes serta indek kehandalan tes di atas, dan buat kesimpulannya!

G. Kehandalan dan Kesahihan

Kehandalan suatu tes dinyatakan dengan suatu indek yang disebut dengan indek kehandalan. Pada prinsipnya kehandalan suatu tes dinyatakan dengan dua cara, yaitu:

1. stabilitas

2. konsistensi internal

Stabilitas menyatakan seberapa jauh suatu tes memberi hasil yang stabil tentang kemampuan siswa. Indek stabilitas diperoleh dengan cara memberi tes yang sama atau yang ekivalen terhadap kelompok yang sama. Skor kedua kelompok tersebut dikorelasikan sehingga diperoleh indek stabilitas. Sedang konsistensi internal merupakan perbandingan antara varian sebenarnya dengan varian total. Suatu model pengukuran klasik dapat ditulis sebagai berikut:

X = T + e

Persamaan di atas menyatakan bahwa skor yang tampak terdiri dari skor sebenarnya dan skor kesalahan. Sumber kesalahan dalam pengukuran bisa berasal dari alat ukur, pengawas ujian, lingkungan tes, dan bisa berasal dari kondisi mahasiswa. Masalah pada pengukuran bidang pendidikan adalah cara mengestimasi besarnya skor yang sebenarnya.

Dengan asumsi bahwa tidak ada hubungan antara skor sebenarnya T dengan skor kesalahan e, maka varian skor total x, dapat ditulis sebagai berikut:


(4)

Rasio antara VT dengan Vx disebut indek konsistensi internal. Formula yang

umum untuk menghitung besarnya indek konsistensi internal adalah Cronbach-alpha, yaitu:

rxx’ = (n / n - 1) (1 – ∑ Ve / Vx)

n adalahjumlah butir

Ve adalah varian kesalahan

Vx adalah varisn skor tampak

Kesahihan alat ukur harus dilihat pada tiga hal yaitu konstruksi, isi, dan kriteria. Semua jenis kesahihan harus diperhatikan untuk semua jenis tes, hanya penekanannya yang berbeda. Tes psikologi menekankan pada konstruksi tes, tes pencapaian belajar menekankan pada kesahihan isi, sedang tes seleksi menekankan pada kesahihan kriteria, terutama kesahihan prediktif.

Kesahihan isi suatu tes dilihat dari kisi-kisi atau disebut juga dengan tabel spesifikasi. Pada prinsipnya materi suatu tes merupakan sampel dari materi pelajaran yang diajarkan. Sampel yang dipilih harus mewakili semua materi yang diajarkan. Salah satu bentuk kisi-kisi yang sering digunakan adalah dengan menggunakan taksonomi Bloom, seperti di bawah ini:

Topik Hap. Pem. Apli. Anal. Sint. Eval. Jml.

1 3 4 2 9

2 2 3 2 1 8

3 1 3 3 2 9

4 1 3 4 2 10

5 - 2 4 2 8

6 - 1 2 3 6

Jml 7 16 17 10 50

Evaluasi terhadap validitas isi dilakukan oleh para pakar dalam bidangnya. Pokok bahasan yang komplek sehingga memerlukan waktu yang lama untuk mengajarkannya harus memiliki butir tes yang lebih banyak dibanding pada pokok bahasan yang sederhana. Distribusi letak butir-butir


(5)

dalam sel yang baik adalah yang cenderung mengukur kemampuan aplikasi ke atas. Oleh karena itu butir tes yang digunakan harus lebih banyak pada kategori aplikasi ke atas.

Kesahihan konstruk suatu tes dilihat dari definisinya. Kalau kita ingin mengukur kemampuan berpikir logis, maka definisi berfikir logis harus dibuat terlebih dahulu. Selanjutnya semua butir tes harus dapat dikembalikan pada definisi tersebut. Pada prinsipnya pengukuran yang ingin dilakukan adalah memiliki dimensi satu. Kalau kita ingin mengukur kemampuan matematika maka di dalamnya tidak ada kemampuan lain yang diukur, seperti kemampuan menggambar dan kemampuan bahasa dan lainnya. Pada alat ukur yang meng-ukur satu dimensi, kita bisa menjumlahkan skor-skor butirnya. Bila yang diukur lebih dari satu dimensi maka penjumlahan skornya sebenarnya menya-lahi konsep pengukuran.

Jenis kesahihan yang ketiga adalah kesahihan kriteria. Kesahihan ini dibagi dua yaitu yang disebut dengan konkuren dan prediktif, semuanya menunjukkan daya prediksi atau daya ramal. Daya prediksi yang dinyatakan dengan angka yang besarnya mulai dari 0 sampai 1.00 merupakan korelasi antara skor tes dengan kriteria keberhasilan. Misalnya korelasi skor tes masuk perguruan tinggi dengan indek prestasi. Semakin besar korelasi skor tes masuk dengan prestasi belajar maka dapat dikatakan bahwa daya prediksi tes masuk tinggi atau kesahihan tes masuk tinggi.

Dalam proses belajar mengajar sering kali ingin diukur kemampuan berfikir mahasiswa. Ada lima komponen yang dapat digunakan untuk meng-ukur kemampuan berfikir mahasiswa, yaitu: ingatan, analisis, komparasi, infe-rensi, dan evaluasi. Kemampuan berfikir ini sangat berguna untuk menyele-saikan permasalahan-permasalahan yang ada di lapangan. Dosen tidak akan mengajarkan bagaimana menyelesaikan permasalahan di lapangan secara detail, tetapi hanya konsep, teori-teori yang mendasar saja. Mahasiswa yang harus mengolahnya untuk dapat digunakan dalam memecahkan masalah-masalah yang baru. Namun dosen harus bisa membuat soal yang sifatnya aplikasi.


(6)

Berikut ini suatu contoh urutan kemampuan penalaran yang dapat digunakan dalam merencanakan suatu tes.

Analisis Mengenal program-program suatu proses, menganalisis prinsip kerja suatu sistem

Komparasi Membandingkan watak suatu objek, komponen suatu proses Inferensi Membuat konklusi, prediksi, pengujian hipotesis dan

pen-jelasannya

Evaluasi Evalusi suatu prosedur, kredibilitas suatu konklusi, penemu-an-penemuan yang signifikan.

Kategori di atas merupakan alternatif lain dari pembagian menurut Bloom. Hal lain yang penting pada tes acuan kriteria adalah penentuan standar atau cutting score. Ada yang menggunakan skor 80 dan ada yang mengguna-kan skor 90 sebagai batas kelulusan untuk skala pengukuran 0 sampai 100.

Daftar Pustaka

Ebel. R.L. (1979). Essential of Educational Measurement. New Jersey: Prentice Hall.

Mardapi, D. (1989). Evaluasi Hasil Belajar. Bahan penataran dosen-dosen FPTK IKIP Jakarta, Surabaya, dan Ujung Pandang.

Mehren, W.A. & Lehmann, I.J. (1984). Measurement and Evaluation in Education and Psychology. New York: Holt, Rinehart.

Bahan Penataran Penulisan Soal Ujian (1990). Pusat Penelitian dan Pengem-bangan Sistem Pengujian. Balitbang Depdikbud Jakarta.