Pengembangan Software Computerized Adaptive Testing (CAT) Berbasis Tingkat Kesukaran, Daya Beda Dan Tingkat Menebak (Guessing) Menggunakan Bahasa Pemogramaan PHP dan My SQL - Test Repository

  (52-kol-10-220) PROGRAM PENELITIAN PENDIDIKAN DAN KELEMBAGAAN ISLAM 2010

Pengembangan Software Computerized Adaptive Testing (CAT) Berbasis Tingkat

Kesukaran, Daya Beda Dan Tingkat Menebak (Guessing) Menggunakan Bahasa

  

Pemogramaan PHP dan My SQL

Oleh: 1. Winarno, S. Si, M. Pd. (Ketua Tim) 2. Haryo Aji Nugroho, M. Hum (Anggota) 3. Muh. Muqtafin, A. Md Komp (Anggota) Sekolah Tinggi Agama Islam Negeri (STAIN) S A L A T I G A Nopember 2010

BAB I PENDAHULUAN A. Latar Belakang Masalah Salah satu cara dalam melaksanakan evaluasi dalam proses belajar mengajar adalah

  dengan menggunakan tes. Selama ini, sebagian besar alat untuk mengukur tes menggunakan kertas dan pencil (papper and pencils). Perkembangan terkini dalam usaha peningkatan pelaksanaan tes dengan kehadiran teknologi komputer telah mulai dipergunakan untuk kemajuan pengujian (Hambleton, R.K., Swaminathan, H., dan Rogers, H.: 1991). Komputerisasi penilaian individu lebih efisien dan akurat daripada penilaian menggunakan kertas dan pensil (pencil and paper test) (Wainer, 1990: 273). Salah satu

  

prototype komputerisasi penilaian individu yang berkembang saat ini adalah Computerized

Adaptive Testing (CAT). CAT adalah suatu metode pengujian atau evaluasi dengan

  menggunakan teknologi informasi yang bersifat adaptif. Adaptif berarti bahwa pemberian soal ujian berikutnya tergantung pada perilaku peserta ujian dalam menjawab soal sebelumnya sehingga ujian yang diberikan untuk setiap peserta dapat bersifat unik berdasarkan tingkat kemampuan masing-masing peserta

  Kelebihan-kelebihan yang ditawarkan oleh CAT antara lain: 1). CAT lebih efisien dan akurat dalam mengukur kemampuan peserta tes (Weiss & Schleisman, 1999; Weiss, 2004); 2). CAT tidak memerlukan lembar jawaban karena skor dapat segera diketahui oleh peserta tes begitu tes telah dinyatakan selesai; 3). Pengembangan item untuk bank soal mudah dilakukan (Wainer, 1990: 4). CAT memungkinkan siswa untuk bekerja dalam langkahnya sendiri. Kecepatan siswa dalam menjawab soal dapat digunakan sebagai informasi tambahan dalam melakukan penilaian terhadap siswa; 3). Soal yang diberikan memiliki level kesulitan sesuai dengan kemampuan siswa, tidak terlalu susah ataupun terlalu mudah; 4). Penilaian dapat dilakukan dengan segera sehingga dapat memberikan umpan balik yang cepat kepada siswa; 5). Keamanan ujian dapat ditingkatkan. Rangkaian soal yang diberikan akan berbeda untuk setiap siswa sehingga soal yang akan muncul selanjutnya tidak dapat ditebak. Selain itu, bila jumlah soal banyak, kemungkinan munculnya soal yang sama lebih dari satu kali sangat kecil sehingga kemungkinan siswa untuk menghapal soal menjadi sangat kecil. Kerahasiaan soal pun dapat terjaga, karena soal tersimpan dalam suatu basis data dan hanya pembuat CAT yang membuat soal tersebut yang dapat mengupdatenya; 6). Ujian dapat dipresentasikan melalui teks, grafik,audio, dan bahkan video klip.

  Dalam Computerized Adaptive Testing (CAT) memerlukan : (a) Bank soal, (b) Prosedur pemilihan item awal, (c) Prosedur pemilihan item selama pelaksanaan tes, (d) Metode untuk penskoran tes, (e) Prosedur untuk mengakhiri tes, dan (f) Estimasi kemampuan peserta tes (Weiss & Schleisman dalam Masters & Keeves, 1999: 130).

  Elemen penting dalam CAT adalah bank soal (item bank), bank soal terdiri dari koleksi item tes, jawaban, tingkat kesukaran tes, daya beda dan tingkat kesukaran (Reckase, 2003). Dalam prosedur pemilihan item awal diberikan item tes dengan tingkat kesukaran yang sedang. Prosedur mengakhiri tes diberikan agar tes tidak terlalu panjang.

  Saat ini bidang pengukuran di Indonesia mengalami kemajuan yang pesat. Penggunaan

software komputer untuk analisis item soal telah mengalami kemajuan yang luar biasa.

Analisis item soal terkini yang sering digunakan adalah menggunakan pendekatan IRT (Item Response Theory). Dalam IRT bisa dilakukan estimasi kemampuan peserta tes dan mengetahui karakteristik item soal mengenai daya beda (b), tingkat kesukaran (a) dan tingkat menebak (c). Dalam pelaksanaannya, analisis secara IRT sangat mudah karena dalam analisis dapat digunakan program komputer, seperti program RASCAL, PASCAL, BIGSTEPS, QUEST atau BILOG MG

B. Identifikasi Masalah

  Berdasarkan latar belakang masalah di atas, dapat diidentifikasi permasalahan sebagai berikut:

  1. Tes merupakan salah satu cara dalam melakukan evaluasi dalam proses belajar mengajar.

  2. Komputerisasi penilaian individu lebih efisien dan akurat daripada penilaian menggunakan kertas dan pensil (pencil and paper test)

  3. Dalam mengembangkan Computerized Adaptive Testing (CAT) keberadaan bank soal (item bank) sangat penting.

  4. Bagaimana prosedur pemilihan item awal dalam CAT dilakukan?

  5. Bagaimana estimasi kemampuan peserta tes setelah diketahui pola respon jawabannya?

  6. Prosedur pemilihan item selama pelaksanaan tes dalam mengembangkan software CAT yang berbasis daya beda (b), tingkat kesukaran (a) dan tingkat menebak (c) dalam prosedur pemilihan item selama pelaksanaan tes.

  7. Prosedur untuk mengakhiri tes (stopping rule) dalam CAT dilakukan.

  8. Berapa lama setiap item soal akan ditampilkan oleh komputer sebelum computer menampilkan soal berikutnya.

  9. Metode untuk penskoran dalan CAT

  10. Estimasi Kemampuan Peserta tes dalam CAT menggunakan metode Maximum

  Likelihood (MLE) C.

   Pembatasan Masalah

  Untuk mengarahkan agar penelitian lebih terfokus pada permasalahan, maka penelitian ini dibatasi pada:

  1. Bank soal yang diambil dari soal Ujian Plecement Tes Program Studi Intensif Bahasa Arab (SIBA) Masuk STAIN Salatiga tahun akademik 2009/2010

  2. Pembuatan CAT (Computerized Adaptive Testing) berbasis daya beda (b), tingkat kesukaran (a) dan tingkat menebak (c) dalam prosedur pemilihan item selama pelaksanaan tes

  3. Estimasi kemampuan peserta tes menggunakan metode Maximum Likelihood (MLE) D.

   Rumusan Masalah

  Mengacu pada identifikasi dan pembatasan masalah di atas maka rumusan masalah dalam rancangan penelitian ini antara lain:

  1. Bagaimana mengembangkan bank soal dalam membuat software CAT?

  2. Bagaimana mengembangkan software CAT berbasis daya beda (b), tingkat kesukaran (a) dan tingkat menebak (c) dalam prosedur pemilihan item selama pelaksanaan tes?

  3. Bagaimana mengembangkan software CAT yang mampu mengukur kemampuan peserta tes dengan tepat dan akurat menggunakan metode Maximum Likelihood (MLE)?

E. Tujuan Penelitian

  Penelitian ini bertujuan untuk: 1. Mengembangkan bank soal dalam membuat softwrae CAT.

  2. Membuat, mengembangkan dan menghasilkan software CAT berbasis daya beda (b), tingkat kesukaran (a) dan tingkat menebak (c) dalam prosedur pemilihan item selama pelaksanaan tes

  3. Membuat, mengembangkan dan menghasilkan software CAT yang mampu mengukur kemampuan peserta tes dengan tepat dan akurat menggunakan metode

  Maximum Likelihood (MLE) F.

   Manfaat Penelitan

  Dari penelitian ini diharapkan dapat memperoleh manfaat

  1. Secara teoritis Hasil software Computerized Adaptive Testing (CAT) yang dihasilkan dalam penelitian ini dìharapkan dapat membantu dalam menemukan solusi untuk mengetahui kemampuan seseorang yang lebih akurat dan mengurangi kecurangan dalam sistem pengujian

  2. Secara praktis Hasil software Computerized Adaptive Testing (CAT) dalam penelitian ini diharapkan dapat berguna bagi pengukuran kemampuan peserta tes di dalam bidang pendidikan

  3. Bagi STAIN Salatiga dan Perguruan Tinggi Islam (PTI) Dari software CAT ini bisa digunakan untuk semua jenis tes model pilihan ganda dan untuk mengetahui kemampuan peserta tes secara lebih baik.

BAB II TINJAUAN PUSTAKA A. Computeriized Adaptive Testing (CAT) Adaptive testing juga disebut sebagai tailored test, yaitu suatu tes yang

  menyesuaikan kemampuan peserta (Lord, 1980). Menurut Wainer (1990) Adaptive testing merupakan tes yang diselenggarakan bagi peserta tes dengan pertanyaan-pertanyaan / item-itemnya ditentukan berdasarkan jawaban (respon) awal peserta.

  Penyelenggaraan tes adaptif berbeda dengan paper and pencil test (PP test). Pada PP tes seluruh peserta tes akan diberikan soal yang sama dan dengan jumlah soal yang tetap/sama, sedangkan pada tes adaptif setiap peserta akan diberikan soal yang berbeda- beda. Pertanyaan-pertanyaan pada tes adaptif menyesuaikan dengan kemampuan masing- masing peserta tes.

  Adaptive tes memerlukan : (a) bank soal, (b) prosedur pemilihan item awal, (c) prosedur pemilihan item selama pelaksanaan tes, (d) metode untuk penskoran tes, dan (e) prosedur untuk mengakhiri tes (Weiss & Schleisman dalam Masters & Keeves, 1999: 130).

  Kelebihan-kelebihan yang ditawarkan oleh CAT antara lain: 1). CAT lebih efisien dan akurat dalam mengukur kemampuan peserta tes (Weiss & Schleisman, 1999; Weiss, 2004); 2). CAT tidak memerlukan lembar jawaban karena skor dapat segera diketahui oleh peserta tes begitu tes telah dinyatakan selesai; 3). Pengembangan item untuk bank soal mudah dilakukan (Wainer, 1990: 4). CAT memungkinkan siswa untuk bekerja dalam langkahnya sendiri. Kecepatan siswa dalam menjawab soal dapat digunakan sebagai informasi tambahan dalam melakukan penilaian terhadap siswa; 3). Soal yang diberikan memiliki level kesulitan sesuai dengan kemampuan siswa, tidak terlalu susah ataupun terlalu mudah; 4). Penilaian dapat dilakukan dengan segera sehingga dapat memberikan umpan balik yang cepat kepada siswa; 5). Keamanan ujian dapat ditingkatkan. Rangkaian soal yang diberikan akan berbeda untuk setiap siswa sehingga soal yang akan muncul selanjutnya tidak dapat ditebak. Selain itu, bila jumlah soal banyak, kemungkinan munculnya soal yang sama lebih dari satu kali sangat kecil sehingga kemungkinan siswa untuk menghapal soal menjadi sangat kecil. Kerahasiaan soal pun dapat terjaga, karena soal tersimpan dalam suatu basis data dan hanya pembuat CAT yang membuat soal tersebut yang dapat mengupdatenya; 6). Ujian dapat dipresentasikan melalui teks, grafik,audio, dan bahkan video klip

  Diagram berikut adalah algoritma adaptive test.

  1. Mulai dengan skor awal

  2. Memilih dan menyajikan

  Amati dan Evaluasi respons 3.

  skala Item yang optimal

  Tidak

  Apakah aturan 5.

  Revisi estimasi kemampuan 4. pemberhentian terpenuhi?

  Ya

  Tidak

  7. Akhiri Administrasi 8.

6. Akhiri Tes

  tes

  tes?

  berikutnya

  Ya 9. Stop

  Gambar 1. Diagram alur Adaptive Test (Sumber : Wainer, 1990. :108) Berdasarkan Gambar 1. Pertama-tama kemampuan sementara peserta diestimasi. Apabila tidak ada informasi kemampuan awal peserta tes maka diambil soal tes dengan tingkat kesukaran yang sedang. Kemudian estimasi kemampuan peserta tes dari respon jawaban yang diberikan sebagai dasar pertimbangan dalam mengambil soal berikutnya. Berikutnya diberikan/disajikan butir soal yang optimal sesuai dengan kemampuan awal, amati dan evaluasi respon peserta, setelah itu perbaiki estimasi kemampuan peserta, kemudian berdasarkan aturan pemberhentian tes, dilakukan uji apakah kriteria pemberhentian tes telah dipenuhi ataukah tidak. Jika telah dipenuhi maka tes berhenti, sebaliknya jika belum dipenuhi peserta diberikan butir soal yang optimal lainnya, hal ini terus berlangsung sampai terpenuhinya kriteria pemberhentian tes.

  Dalam merancang CAT, pengembang tes harus menentukan bagaimana dan estimasi kemampuan dihitung sementara, bagaimana item tes dipilih pada estimasi tersebut dan bagaimana estimasi kemampuan akhir diperoleh (Linden, 2002:3)

  1. Sejarah CAT

  Gagasan awal dari adaptive test berasal dari seorang psikolog kebangsaan Perancis bernama Alfred Binet (1859-1911). Computerized adaptive testing (CAT) dirancang untuk setiap individu peserta tes (Wiener, 1990). Peserta tes akan diberi satu set soal yang memenuhi spesifikasi rancangan tes (kisi-kisi) dan biasanya sesuai dengan tingkat kemampuan setiap individu. Tes dimulai dengan soal-soal yang tidak terlalu sukar (katagori sedang). Setiap peserta tes menjawab soal dan komputer akan memberikan skor. Jawaban terhadap soal tersebut akan menentukan soal yang akan ditampilkan oleh komputer selanjutnya. Setiap menjawab soal dengan benar, peserta tes akan diberi soal yang lebih sukar. Sebaliknya, bila menjawab salah, komputer akan memilihkan soal yang lebih mudah. Urutan soal disajikan tergantung pada jawaban terhadap soal-soal sebetutnnya dan pada kisi-kisi tes. Dengan kata lain, komputer diprogram untuk memberikan soal yang sesuai dengan kisi-kisi tes, sekaligus secara terus menerus mencari soal-soal yang tingkat kesulitannya sesuai dengan tingkat kemampuan peserta ujian. Dalam hal ini peserta ujian harus menjawab semua soal. Keuntungannya, pada setiap layar hanya ditampilkan satu butir soal, sehingga peserta tes dapat berkonsentrasi untuk menjawab soal tersebut. Setelah menjawab soal, peserta ujian tidak akan dapat mengulang soal-soal sebelumnya dan mengganti jawabannya.

  2. Prinsip Computerized Adaptive Testing (CAT) a. Membangun Item bank

  Item bank dalam CAT umumnya menggunakan Item Response Theory (IRT) (Lord and Novick, 1968; Lord, 1980). Asal mula IRT adalah kombinasi suatu versi hukum phi-

  

gamma dengan suatu analisis faktor butir soal (item factor analisis) kemudian bernama

  Teori Trait Latent (Latent Trait Theory), kemudian sekarang secara umum dikenal menjadi teori jawaban butir soal (Item Response Theory) (McDonald, 1999: 8).

  Dalam IRT memiliki kelebihan diantaranya: (1) IRT tidak berdasarkan grup dependent; (2) Skor siswa dideskripsikan bukan test dependent; (3) Model ini menekankan pada tingkat butir soal bukan tes; (4) IRT tidak memerlukan paralel tes untuk menentukan relilabilitas tes; (5) IRT suatu model yang memerlukan suatu pengukuran ketepatan untuk setiap skor tingkat kemampuan; (6). Asumsi banyak soal yang diukur pada trait yang sama, perkiraan tingkat kemampuan peserta didik adalah independen; (7) Asumsi pada populasi tingkat kesukaran, daya pembeda merupakan independen sampel yang menggambarkan untuk tujuan kalibrasi soal; (8) Statistik yang digunakan untuk menghitung tingkat kemampuan siswa diperkirakan dapat terlaksana, (Hambleton dan Swaminathan, 1985: 11). Jadi IRT merupakan hubungan antara probabilitas jawaban suatu butir soal yang benar dan kemampuan siswa atau tingkatan/level prestasi siswa.

  Dalam pembuatan item bank, akan dilakukan kegiatan menganalisis butir soal yang merupakan suatu kegiatan yang harus dilakukan untuk meningkatkan mutu soal yang telah ditulis. Kegiatan ini merupakan proses pengumpulan, peringkasan, dan penggunaan informasi dari jawaban siswa untuk membuat keputusan tentang setiap penilaian (Nitko, 1996: 308). Tujuan penelaahan adalah untuk mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu sebelum soal digunakan. Di samping itu, tujuan analisis butir soal juga untuk membantu meningkatkan tes melalui revisi atau membuang soal yang tidak efektif, serta untuk mengetahui informasi diagnostik pada siswa apakah mereka sudah/belum memahami materi yang telah diajarkan (Aiken, 1994: 63). Soal yang bermutu adalah soal yang dapat memberikan informasi setepat-tepatnya sesuai dengan tujuannya di antaranya dapat menentukan peserta didik mana yang sudah atau belum menguasai materi yang diajarkan pengajar.

  Dalam melaksanakan analisis butir soal, para penulis soal dapat menganalisis secara kualitatif, dalam kaitan dengan isi dan bentuknya, dan kuantitatif dalam kaitan dengan ciri-ciri statistiknya (Anastasi dan Urbina, 1997: 172) atau prosedur peningkatan secara judgment dan prosedur peningkatan secara empirik (Popham, 1995: 195). Analisis kualitatif mencakup pertimbangan validitas isi dan konstruk, sedangkan analisis kuantitatif mencakup pengukuran kesulitan butir soal dan diskriminasi soal yang termasuk validitas soal dan reliabilitasnya

  1). Asumsi-asumsi Pendekatan IRT

  Pendekatan IRT didasarkan pada model matematika, dimana peluang individu untuk menjawab butir dengan benar tergantung pada kemampuan individu dan karakteristik butir. Ini berarti peserta tes dengan kemampuan tinggi akan mempunyai pro- babilitas menjawab benar lebih besar jika dibandingkan dengan peserta yang mempunyai kemampuan rendah. Pendekatan ini memiliki asumsi mengenai data dimana model ini dapat diterapkan.

  Hambleton dan Swaminathan (1985: 16) dan Hambleton, Swaminathan, dan Rogers (1991: 9) menyatakan bahwa ada tiga asumsi yang mendasari teori respon butir, yaitu unidimensi, independensi lokal dan invariansi parameter. Ketiga asumsi dapat dijelaskan sebagai berikut. Unidimensi, artinya setiap butir tes hanya mengukur satu kemampuan. Contohnya, pada tes prestasi belajar bidang studi matematika, butir-butir yang termuat di dalamnya hanya mengukur kemampuan siswa bidang studi matematika saja, bukan bidang yang lainnya. Pada praktiknya, asumsi unidimensi tidak dapat dipenuhi secara ketat karena adanya faktor-faktor kognitif, kepribadian dan faktor-faktor administratif dalam tes, seperti kecemasan, motivasi, dan tendensi untuk menebak.

  Memperhatikan hal ini, asumsi unidimensi dapat ditunjukkan hanya jika tes mengandung hanya satu komponen dominan yang mengukur prestasi suatu subjek.

  Independensi lokal terjadi jika faktor-faktor yang mempengaruhi prestasi menjadi konstan, maka respons subjek terhadap pasangan butir yang manapun akan independen secara statistik satu sama lain. Asumsi ini akan terpenuhi apabila jawaban peserta terhadap sebuah butir soal tidak mempengaruhi jawaban peserta terhadap terhadap butir soal yang lain. Tes untuk memenuhi asumsi independensi lokal dapat dilakukan dengan membuktikan bahwa peluang dari pola jawaban setiap peserta tes sama dengan hasil kali peluang jawaban peserta tes pada setiap butir soal.

  Menurut Hambleton, Swaminathan, dan Rogers (1991: 10), independensi lokal secara matematis dinyatakan sebagai berikut :

  p u , u , ... , u   p u  . p u  . ... . p u   1 2 n      n n 1 ui i 2   n 1 u

   = p uP (  ) 

  1  P (  )  ....................................................(1)   i

    i 1 i 1  

  keterangan : i : 1, 2, 3, …, n n : banyaknya butir tes

  p u  : probabilitas peserta tes yang memiliki kemampuan  yang   i dipilih secara acak dapat menjawab butir ke- i dengan benar.

  Invarian parameter artinya karakteristik butir soal tidak tergantung pada distribusi parameter kemampuan peserta tes dan parameter yang menjadi ciri peserta tes tidak bergantung dari ciri butir soal. Kemampuan seseorang tidak akan berubah hanya karena mengerjakan tes yang berbeda tingkat kesulitannya dan parameter butir tes tidak akan berubah hanya karena diujikan pada kelompok peserta tes yang berbeda tingkat kemampuannya.

  Menunurut Hambleton, Swaminathan, dan Rogers (1991: 18), invarian parameter kemampuan dapat diselidiki dengan mengajukan dua seperangkat tes atau lebih yang memiliki tingkat kesukaran yang berbeda pada sekelompok peserta tes. Invarians parameter kemampuan akan terbukti jika estimasi kemampuan peserta tes tidak berbeda walaupun tes yang dikerjakan berbeda tingkat kesulitannya. Invarians parameter butir dapat diselidiki dengan mengujikan tes pada kelompok peserta yang berbeda. Invarians parameter butir terbukti jika estimasi parameter butir tidak berbeda walaupun diujikan pada kelompok peserta yang berbeda tingkat kemampuannya.

  Dalam teori respons butir, selain asumsi-asumsi yang telah diuraikan sebelumnya di atas adala ada hal penting yang perlu diperhatikan adalah pemilihan model yang tepat. Pemilihan model yang tepat akan mengungkap keadaan yang sesungguhnya dari data tes sebagai hasil pengukuran.

  Selain ketiga asumsi yang dikemukakan Hambleton dkk di atas, Wainer dan Mislevy mengajukan empat asumsi lain dari pendekatan IRT. Asumsi pendekatan IRT menurut Wainer dan Mislevy (1990) adalah: a). Urutan dari pemberian butir tes tidak relevan. Berbeda dengan pendekatan klasik yang memberikan butir soal yang mudah di awal tes kemudian dilanjutkan dengan butir soal yang lebih sukar, pemberian butir soal pada pendekatan IRT tidak perlu melihat urutan dari kesukaran butir soal. Dengan demikian, butir soal dapat diadministrasikan sesuai dengan kemampuan butir soal.

  b). Parameter butir soal yang sama digunakan untuk semua peserta tes. Apabila sekelompok peserta tes akan diperkirakan kemampuannya dengan seperangkat butir tes, maka model IRT yang digunakan pada butir-butir soal tersebut harus sama. Tujuannya agar skor yang diperoleh dapat diperbandingkan satu sama lain.

  c). Semua parameter butir soal diketahui. Untuk dapat memperkirakan kemampuan (proficiency) peserta tes, maka parameter dari setiap butir soal perlu diketahui.

  Untuk mengetahui parameter dari setiap butir soal perlu dilakukan kalibrasi atau pendugaan (estimations).

  d). Respons peserta tes tidak terkait dengan parameter butir soal. Asumsi ini sama dengan asumsi indepedensi local yang dikemukakan Hambleton, Swaminathan dan Rogers sebelumnya.

  2). Model Pendekatan Item Response Theory

  Model yang digunakan pada pendekatan IRT adalah falsifiable model (Hambleton, Swaminathan dan Rogers, 1991: 7). Artinya, model IRT yang digunakan dapat cocok ataupun tidak cocok dengan data tes yang dianalisis. Dengan kata lain dapat saja model

  IRT yang digunakan tidak dapat menjelaskan data tes tersebut. Dengan demikian, perlu dilakukan analisis kecocokkan model (goodness of fit) terhadap data tes. Sehingga apabila ditemukan ketidakcocokkan antara data dengan model, artinya model IRT yang digunakan tidak dapat diterapkan pada data tes yang dianalisis. Hal demikian tidak ditemui pada pendekatan teori klasik, dimana apabila dari analisis butir soal diperoleh hasil yang tidak mencapai standard yang ditentukan, maka butir soal tersebut dianggap tidak biak sehingga didrop dari tes.

  Item characteristic function atau item characteristic curve (ICC) merupakan ekpresi matematika yang menggambarkan peluang menjawab benar pada kemampuan dan karakteristik item tertentu. Dalam IRT, ada tiga model yang paling banyak digunakan (Hambleton, Swaminathan dan Rogers, 1991:12), yaitu model satu parameter logistik (1 PL), dua parameter logistik (2 PL), dan tiga parameter logistik (3 PL). Ketiga model ini digunakan pada asumsi unidimensi dan data butir soal yang diskor dikotomous.

a). Model Logistik Tiga Parameter (3P)

  Sesuai dengan namanya, model logistik tiga parameter ditentukan oleh tiga karakteristik butir yaitu indeks kesukaran butir soal, indeks daya beda butir, dan parameter

  

pseudoguessing (tingkat menebak). Dengan adanya tingkat menebak pada model logistik

  tiga parameter, memungkinkan subyek yang memiliki kemampuan rendah mempunyai peluang untuk menjawab butir soal dengan benar. Secara matematis, model logistik tiga parameter dapat dinyatakan sebagai berikut (Hambleton, Swaminathan, dan Rogers, 1991: 17, Hambleton, dan Swaminathan, 1985 : 49). D . a (   b ) i i

  e P ( )  c  (

  1  c ) ; i = 1, 2, ... , n ............................... (4) i i iD . a (  b ) ii 1  e Sedangkan : P ( ) : peluang peserta tes yang memiliki kemampuan  dipilih i  secara acak dapat menjawab butir i dengan benar  : tingkat kemampuan subjek D : faktor skala = 1,7 a i : indeks daya beda dari butir ke-i b i : indeks kesukaran butir ke-i c i : indeks tingkat menebak butir ke-i e : 2,718

  n : banyaknya item dalam tes.

  Nilai kemampuan peserta ( ) terletak di antara

  • –4 dan +4, sesuai dengan daerah asal sebaran normal. Pernyataan ini merupakan asumsi yang mendasari besar nilai b i . Secara teoretis, nilai b terletak di antara -

  i  dan + . Suatu butir dikatakan baik jika nilai

  ini berkisar antara

  i

  • –2 dan +2 (Hambleton dan Swaminathan, 1985: 107). Jika nilai b mendekati

  i

  • –2, maka indeks kesukaran butir sangat rendah, sedangkan jika nilai b mendekati +2 maka indeks kesukaran butir sangat tinggi untuk suatu kelompok peserta tes.

  Parameter a i merupakan daya beda yang dimiliki butir ke-i. Parameter ini menggambarkan seberapa baik sebuah butir dapat membedakan peserta yang berkemampuan tinggi dengan yang berkemampuan rendah. Pada kurva karakteristik, a i merupakan kemiringan (slope) dari kurva di titik b i pada skala kemampuan tertentu. Karena merupakan kemiringan, diperoleh semakin besar kemiringannya, maka semakin besar daya beda butir tersebut. Secara teoretis, nilai a i ini terletak antara 0 dan + . Pada pada butir yang baik nilai ini mempunyai hubungan positif dengan performen pada butir dengan kemampuan yang diukur, dan a i terletak antara 0 dan 2 (Hambleton dan Swaminathan, 1985: 37 ).

  Peluang menjawab benar dengan memberikan jawaban tingkat menebak dilambangkan dengan c i , yang disebut dengan tingkat menebak. Parameter ini memberikan suatu kemungkinan asimtot bawah yang tidak nol (nonzero lower asymtote) pada kurva karakteristik butir (ICC). Parameter ini menggambarkan peluang peserta dengan kemampuan rendah menjawab dengan benar pada suatu butir yang mempunyai indeks kesukaran yang tidak sesuai dengan kemampuan peserta tersebut. Besarnya harga c i diasumsikan lebih kecil daripada nilai yang akan dihasilkan jika peserta tes menebak secara acak jawaban pada suatu butir. Pada suatu butir tes, nilai c ini berkisar antara 0 dan

  i

  1. Suatu butir dikatakan baik jika nilai c i tidak lebih dari 1/k, dengan k banyaknya pilihan (Hullin, 1983: 36). Jadi misalnya pada suatu perangkat tes pilihan ganda, ada 4 pilihan untuk setiap butir tesnya, butir ini dikatakan baik jika nilai c tidak lebih dari 0,25.

  i

  ICC merupakan kurve monoton naik, semakin meningkat tingkat kemampuan peluang untuk menjawab suatu item meningkat pula. Bentuk ICC tergantung pada model pengukurannya. ICC menyajikan grafik yang menunjukkan peluang menjawab benar pada item dari peserta dengan tingkat kemampuan tertentu (Embretson dan Reise, 2000). Gambar 1 memperlihatkan contoh plot ICC untuk model 3 PL (Hambleton dan Swaminathan, 1985:39) dengan kemampuan pada absis dan peluang menjawab benar pada ordinat. ICC pada gambar 1, menunjukkan parameter tingkat kesulitan, b sebesar 0,50.

  Parameter daya beda, a sebesar 1,5. Dan parameter tingkat menebak, c sebesar 0,15.

  Gambar 2. ICC model 3 PL Parameter tingkat kesulitan memiliki skala sama dengan tingkat kemampuan (  ), dengan nilai berkisar antara -4 sampai +4. Dalam ICC, parameter tingkat kesulitan merupakan titik pada skala kemampuan yang menunjukkan nilai maksimum dari kemiringan ICC (Hambleton dan Swaminathan, 1985:38). Pada model IRT 3 PL, maksimum kemiringan berada pada p = (1 + c)/2. Sedangkan pada 2 PL dan 1 PL maksimum kemiringan berada pada p = 0,5, karena c sama dengan nol.

b). Daya beda (b), Tingkat kesukaran (a) dan Tingkat Menebak (c)

  Dalam Item Response Theory (IRT) keberadaan Daya beda (b), Tingkat kesukaran (a) dan Tingkat Menebak (c) dinamakan Fungsi Informasi Butir. Fungsi informasi butir (item information functions) merupakan suatu metode untuk menjelaskan kekuatan suatu butir pada perangkat soal dan menyatakan kekuatan atau sumbangan butir soal dalam mengungkap kemampuan laten (latent trail) yang diukur dengan tes tersebut. Dengan fungsi informasi butir diketahui butir mana yang cocok dengan model sehingga membantu dalam seleksi butir soal. Secara matematis, fungsi informasi butir didefinisikan sebagai berikut. 2

     P    i

   

  

  I   

i ………………………………………………………(5) P      Qi i keterangan :

   

    

    2 2

  exp 1 exp 1 89 ,

  2 i i i i i i i i

  Da b b Da c c a

  I

       

   ……………….. (6) keterangan :

           

   

   i

  I : fungsi informasi butir i

   : tingkat kemampuan subjek i

  a : parameter daya beda dari butir ke-i i b : parameter indeks kesukaran butir ke-i i c : indeks tebakan semu (pseudoguessing) butir ke-i e : bilangan natural yang nilainya mendekati 2,718

  Berdasarkan persamaan fungsi informasi di atas, maka fungsi informasi memenuhi sifat: (1) pada respons butir model logistik, fungsi informasi butir mendekati maksimal ketika nilai bi mendekati 0. Pada model logistik tiga parameter nilai maksimal dicapai ketika 0 terletak sedikit di atas bi dan indeks tebakan semu butir menurun; (2) fungsi informasi secara keseluruhan meningkat jika parameter daya beda meningkat.

       

  θ menjawab salah butir i Fungsi informasi butir untuk model logistik tiga parameter dinyatakan oleh Birnbaum (Hambleton & Swaminathan, 1985: 107) dalam persamaan berikut.

   i

    

  I

  : fungsi informasi butir ke-i

  i : 1,2,3,...,n  

   i

  P : peluang peserta dengan kemampuan

  θ menjawab benar butir i

   i

     i Q : peluang peserta dengan kemampuan

  P

  : turunan fungsi

   

   i

  P

  terhadap θ

  Fungsi informasi tes merupakan jumlah dari fungsi informasi butir-butir tes tersebut (Hambleton & Swaminathan, 1985: 94). Berkaitan dengan hal ini, nilai fungsi informasi perangkat tes akan tinggi jika butir-butir penyusun tes mempunyai iungsi informasi yang tinggi pula. Fungsi informasi perangkat tes (l(0)) secara matematis dapatdi definisikan sebagai berikut.

  n I     I    ....................................................................................... (7) i

   i 1

  Nilai-nilai indeks parameter butir dan kemampuan peserta merupakan hasil estimasi. Karena merupakan hasil estimasi, maka kebenarannya bersifat probabilistik dan tidak terlepaskan dengan kesalahan pengukuran. Dalam teori respons butir, kesalahan pengukuran standar (Standard Error of Measurement, SEM) berkaitan erat dengan fungsi informasi. Fungsi informasi dengan SEM mempunyai hubungan yang berbanding terbalik kuadratik, semakin besar fungsi informasi maka SEM semakin kecil atau sebaliknya (Hambleton, Swaminathan, & Rogers, 1 991, 94). Jika nilai fungsi informasi dinyatakan dengan

  I(θ) dan nilai estimasi hubungan keduanya, menurut (199.l :94) dinyatakan dengan SEM, maka Hambleton, Swaminathan, & Rogers disajikan grafik nilai fungsi informasi standar suatu butir dengan parameter

1 SEM  ˆ 

    …………………………………………………….. (8) I    b.

   Prosedur Pemilihan Item Awal (Starting Rule) Computerized adaptive testing (CAT) dirancang untuk setiap individu peserta tes

  (Wiener, 1990). Dalam prosedur pemilihan item awal, peserta tes akan diberi satu set soal yang memenuhi spesifikasi rancangan tes (kisi-kisi) dan biasanya sesuai dengan tingkat kemampuan setiap individu. Tes dimulai dengan soal-soal yang tidak terlalu sukar atau tidak terlalu mudah. Jika tidak ada performance awal mengenai kemampuan awal peserta tes maka CAT dapat dimulai dengan memilih butir soal dengan tingkat kesukaran yang sedang (Mills, 1999: 123).

  Setiap peserta tes menjawab soal dan komputer akan memberikan skor. Jawaban terhadap soal tersebut dan akan menentukan soal yang akan ditampilkan oleh komputer selanjutnya. Setiap menjawab soal dengan benar, peserta tes akan diberi soal yang lebih sukar. Sebaliknya, bila menjawab salah, komputer akan memilihkan soal yang lebih mudah.

  Urutan soal disajikan tergantung pada jawaban terhadap soal-soal sebelumnya dan pada kisi-kisi tes. Dengan kata lain, komputer diprogram untuk memberikan soal yang sesuai dengan kisi-kisi tes, sekaligus secara terus menerus mencari soal-soal yang tingkat kesulitannya sesuai dengan tingkat kemampuan peserta ujian. Dalam hal ini peserta ujian harus menjawab semua soal. Keuntungannya, pada setiap layar hanya ditampilkan satu butir soal, sehingga peserta tes dapat berkonsentrasi untuk menjawab soal tersebut. Setelah menjawab soal, peserta ujian tidak akan dapat mengulang soal-soal sebelumnya dan mengganti jawabannya.

c. Prosedur Pemilihan Item Selama Pelaksanaan Tes

  Salah satu prosedur penting dalam CAT adalah pemilihan utem selama pelaksanaan tes. Prosedur seleksi atau pemilihan item menyangkut beberapa tahap kerja. Prosedur yang paling sederhana meliputi dua tahap (Azwar, 2003:55), yang akan dijelaskan berikut ini. 1) Tahap pertama, analisis dan seleksi item berdasarkan evaluasi kualitatif. Evaluasi ini melihat a) apakah item yang ditulis sesuai dengan blue-print dan indikator perilaku yang hendak diungkapnya? b) apakah item telah ditulis sesuai dengan kaidah penulisan yang benar? c) melihat apakah item-item yang ditulis masih mengandung sosial desirability yang tinggi? 2) Tahap kedua, adalah prosedur seleksi item berdasarkan data empiris (data hasil uji coba item pada kelompok subjek yang karakteristiknya setara dengan subjek yang hendak dikenai pengukuran) dengan melakukan analisis kuantitatif terhadap parameter- parameter item. Pada tahap ini paling tidak dilakukan seleksi item berdasarkan daya pembeda, tingkat kesulitan item dan tingkat menebak (guessing).

  Salah satu metode untuk melakukan prosedur pemilihan item selama pelaksanaan tes dalam software CAT yang berdasar pada daya pembeda, tingkat kesulitan item dan tingkat menebak (guessing) adalah sebuah segitiga pohon keputusan (a triangle decision tree / TDT) (Phankokkruad. 2008: 656). Segitiga pohon keputusan adalah model keputusan yang berbentuk grafik. Sebuah titik menunjukkan parameter tes sebaliknya ranting manunjukkan target paramater tes berikunya. Setiap titik hanya ada dua ranting untuk anak titik dan berisi tiga parameter IRT yaitu tingkat kesulitan, daya beda dan tingkat menebak. Ranting yang keluar dari titik ada dua yaitu ranting ke arah kiri dan ranting kearah kanan. Arah ranting ke kanan bila peserta tes menjawab pertanyaan dengan benar dan arah ranting ke ke kiri bila peserta tes menjawab pertanyaan item yang salah. Gambar dari Segitiga pohon keputusan

  1 2 3 4 5 6 7

  Dengan dan

  bbb bb  ...  b i 1 , j i , j i 1 , j 1 i , 1 i , 2 i , j   

  Komulatif fungsi fitness: 2 2

  fw aaw bbw cc i a i j b i j c i j       w = bobot dari tingkat kesukaran (a) a w = bobot dari daya beda (b) b w = bobot dari tingkat menebak (c) c n 1

  

  Maka fungsi fitness adalah Ff i

   i 1

    FF m m

  1 d.

   Prosedur Untuk Mengakhiri Tes (Stopping Rule)

  Keputusan mengenai kapan harus menghentikan tes CAT adalah elemen yang paling penting. Jika tes ini terlalu pendek, maka perkiraan kemampuan peserta tes tidak akurat. Jika tes ini terlalu panjang, maka banyak waktu dan beaya yang terbuang dan menyebabkan hasil tes tidak valid. Tes CAT berhenti bila: (1) item bank telah habis. Ini terjadi biasanya dengan bank item kecil ketika setiap item telah diberikan kepada pengambil tes; (2) seluruh item tes telah diberikan. Jumlah item tes maksimum yang diperbolehkan untuk diberikan kepada pengambil tes biasanya jumlah item yang sama seperti pada paper pencils tet; (3) Kemampuan mengukur diperkirakan dengan ketepatan yang cukup. Setiap respons menyediakan lebih banyak informasi statistik tentang kemampuan mengukur, meningkatkan presisi dengan menurunkan standar error dengan pengukuran. Bila ukuran cukup tepat, pengujian berhenti. Error standar yang digunakan adalah 0,2; (4) Sebuah jumlah minimal item telah diberikan; (5) Setiap kompetensi tes telah dikerjakan dengan benar; (6) waktu telah habis.

e. Estimasi Kemampuan Peserta tes

  Langkah terakhir dalam pengembangan CAT adalah estimasi kemampuan peserta tes. Banyak metode yang bisa digunakan dalam estimasi kemampuan peserta tes. Salah satu metode adalah menggunakan Metode Maximum Likelihood (MLE). MLE menghasilkan estimasi tingkat kemampuan relatif tidak bias (unbiased)

  1). Maximum Likelihood

  Bila seorang peserta tes dengan tingkat kemampuan θ menjawab tes yang berisi sebanyak n butir soal pilihan ganda dengan parameter butir (tingkat kesukaran, daya beda dan guessing) yang sudah diketahui dan sudah diestimasi sebelumnya maka peluang bersama dari peserta tes sebagai p U , U U .... U  . Dalam praktik pengukuran maka 1 2 , 3 n

  

 

u , u u .... u adalah jawaban dari peserta tes. u =1 jika jawaban peserta tes adalah benar

1 2 , 3 n i dan u =0 maka jawaban peserta tes yang salah . i

  Jika asumsi independensi local dipenuhi maka fungsi kemungkinan maximum likelihood adalah

  L (  )  p Uu , Uu Uu .... Uu1 1 2 , 2 , 3

3 n n

n   u i i 1  u

  = P (  ) Q (  ) i i dimana i=1, 2, 3, …n untuk -~ < θ<~ ........

   i 1

3. Item Pilihan Ganda

  Item pilihan ganda (multiple choice) merupakan salah satu bentuk item dari metode

  

selected response yang paling sering digunakan dan dipilih untuk berbagai keperluan

  pengujian. Secara umum item pilihan ganda terdiri dari dua bagian, bagian pertama disebut

  

stem adalah bagian pokok yang berisi informasi dan permasalahan atau pertanyaan. Bagian

  kedua, berupa sejumlah pilihan jawaban (option) yang disediakan untuk menjawab permasalahan atau pertanyaan stem.

  Item pilihan ganda menyediakan sejumlah pilihan tetapi hanya satu jawaban pilihan jawaban yang benar. Sedangkan yang lain berfungsi sebagai pengecoh (distractors). Model item pilihan ganda dengan format semacam ini dikategorikan sebagai model konvensional (Haladyna dkk. 2002; oosterhof: 200)

  Tes bentuk pilihan ganda adalah tes yang yang jawabannya dapat diperoleh dengan memilih alternatif jawaban yang telah disediakan. Dalam tes pilihan ganda ini, bentuk tes terdiri atas: pernyataan (pokok soal), alternatif jawaban yang mencakup kunci jawaban dan pengecoh. Pernyataan (pokok soal) adalah kalimat yang berisi keterangan atau pemberitahuan tentang suatu materi tertentu yang belum lengkap dan harus dilengkapi dengan memilih altematif jawaban yang tersedia. Kunci jawaban adalah salah satu altematif jawaban yang merupakan pilihan benar yang merupakan jawaban yang diinginkan. Sedangkan pengecoh adalah alternatif yang bukan merupakan kunci jawaban (Mardapi. 2004: 75).

  Pedoman utama dalam pembuatan butir soal bentuk pilihan ganda adalah: 1). Pokok soal harus jelas 2). Pilihan jawaban homogen dalam arti isi.

  3). Panjang kalimat pilihan jawaban relatif sama. 4). Tidak ada petunjuk jawaban benar 5). Hindari mengggunakan pilhan jawaban: semua benar atau semua salah.

  6). Pilihan jawaban angka diurutkan. 7). Semua pilihan jawaban logis 8). Jangan menggunakan negatif ganda.

  9). Kalimat yang digunakan sesuai dengan tingkat perkembangan peserta tes 10). Bahasa Indonesia yang digunakan baku. 11). Letak pilihan jawaban benar ditentukan secara acak.

  Dalam soal pilihan ganda, peserta tes hanya memilih jawabannya tanpa memberikan alasan mengapa jawaban tersebut dipilih. Butir tes berbentuk pilihan ganda biasanya diberi skor 1 bila jawaban benar dan diberi skor 0 bila jawaban salah sehingga butir tes berbentuk pilihan ganda termasuk butir tes dikotomus.

B. Computerized Adaptive Test (CAT) sebagai Sistem Informasi

  Sistem informasi yang terkomputerisasi akan melalui siklus-siklus: 1). Identifikasi Masalah; 2). Penentuan syarat; 3). Analisis kebutuhan sistem; 4). Perancangan sistem; 5). Implementasi dan mendokumentasikan; 6). Testing dan perbaikan sistem; 7). Evaluasi sistem (Kendal & Kendal, 2002: 11). CAT sebagai sebuah program adalah termasuk sebagai software sistem informasi sehingga perlu dipilih dan dilakukan uji kelayakannya.

  Program dapat dipilih dengan pertimbangan: 1). Mendapat banyak dukungan dari lembaga atau pemakai; 2). Mampu meningkatkan kualitas layanan; 3). Basis data yang dibuat dapat dipergunakan untuk berbagai keperluan yang banyak; 4). Meningkatkan proses layanan, dan 5). Mengurangi kesalahan. (Kendal & Kendal, 2002:62). Program bernilai layak adalah jika dipakai memenuhi kriteria: 1). Kelayakan teknis; 2). Kelayakan ekonomis dan 3). Kelayakan operasionalitas