Dampak Penilaian terhadap Pembelajaran

10 antara standar, konten, penilaian, dan strategi pembelajaran benar-benar dapa saling melengkapi complementary fit. Dengan demikian, penilaian bukan hanya sebagai bagian dari suatu kegiatan belajar assessment of learning, tetapi penilaian untuk pembelajaran assessment for learning Drake, 2007: 4. Penilaian juga berfungsi untuk memajukan siswa dalam belajar assessment as learning. Oleh karena itu, pembelajaran yang sepenuhnya mengacu kepada tes justru tidak akan memberi nilai yang positif bagi kemajuan siswa Drake, 2007: 67

C. Pengembangan Tes

Pengembangan tes harus melalui beberapa tahapan, yakni: a perancangan tes, b ujicoba tes, c penetapan validitas, d penetapan reliabilitas, dan e penetapan dan interpretasi skor tes. Kegiatan perancangan tes tercakup di dalamnya yakni: a penetapan tujuan, b penyiapan tabel spesifikasi, c menyeleksi format item yang sesuai, d menulis item, dan e memperbaiki item. Kegiatan uji coba tes meliputi kegiatan a analisis item pengujian uji coba pertama, b analisis item pengujian uji coba kedua, dan c penyiapan format tes Oriondo Dallo-Antonio, 1984: 34. Tantangan terberat dalam mengembangkan tes pada lemahnya pemahaman tentang struktur dari substansi pengetahuan yang akan diukur Ebel Frisbie, 1986: 32-36. Melalui pendekatan IRT, program kalibrasi digunakan baik untuk mengestimasi parameter item dan untuk mendeteksi fit data dengan model. Pemilihan item untuk menyusun perangkat tes dilakukan jika sudah ada bukti bahwa data fit dengan model. Pemilihan item untuk menyusun perangkat tes menggunakan IRT didasarkan pada informasi fungsi item item information function atau IIF Stark et. al., 2001: 1-3. 11

D. Peskalaan dan Konsekuensi Model Analisis

Instrumen tes kemampuan berpikir divergen hanya dapat diukur dengan menggunakan item tes dalam bentuk uraian nonobjektif. Jawaban yang diberikan testi dalam tes uraian nonobjektif diharapkan luas dan komprehensif. Tes ini dimaksudkan sesuai dengan situasi di mana pengetahuan komprehensif harus diuji, dan kunci pemilihan bentuk tes ini adalah menjamin bahwa pengetahuan kognitif yang dimaksud adalah umum dan luas Roid Haladyna, 1982: 58-62. Penskalaan atau penskoran politomus diberikan kepada respons tes uraian karena respons yang muncul dapat diberi poin nilai dengan kisaran performans yang terendah nol hingga lebih dari satu level di atasnya misalnya 2, 3, atau n. Model yang dapat dipakai untuk mencari karakteristik informasi item yang terkait dengan penskalaan terhadap respons yang muncul cukup banyak. Keragaman model tersebut terdapat baik pada penskalaan politomus maupun dikhotomus. Hal yang perlu diperhatikan adalah bila mendikotomikan skala politomus. Pengubahan dari skala atau skor politomus menjadi skala atau skor dikotomus akan mengubah sifat skala pengukuran, yang dapat mengancam validitas pengukuran Han Hambleton, 2007: 15-20; Theissen et. al., 2001: 295-325. Semakin bertambah banyak parameter di dalam model multikategori sebagai lawan model dikotomus, akan semakin bertambah pula informasi di dalam data. Namun, diperlukan estimasi yang stabil di dalam ukuran sampel yang sama. Ukuran sampel untuk data politomus menggunakan Graded Model GM, yang merupakan model 2-PL, sekitar 250 ntuk aplikasi dalam penelitian, sedangkan 500 sampai 1000 untuk penggunaan operasional Muraki Bock, 1998: 35. Ahli lain menyatakan ukuran sampel antara 200 sampai 1000 tergantung model yang dipilih. Penelitian disertasi dapat menggunakan sampel yang kecil Crocker Algina, 1986: 322. Ada pula ahli yang menyatakan ukuran sampel