PENGEMBANGAN TES BERBASIS KOMPUTER SRI MULIANAH
PENGEMBANGAN TES BERBASIS KOMPUTER SRI MULIANAH
Universitas Negeri |Jakarta
WAHYU HIDAYAT
Universitas Kebangsaan Malaysia
a bstract
This study aims to find practical procedure for applying the model to the test on the computer based test methodology of research subjects in order to develop tests in STAIN Parepare.This research method is a method of research and development, namely the development of computer-based test in the of research methodology subject . There are three stages in this study, namely Assembling Problem In Computer Systems, Calibration Test,Utilization In a limited scale .The results of research studies indicate that the development of the test can be done using a computer ( computer base test) . The use of computers as a substitute for tests that use paper and pencil is more efficient and effective. Keywords: Computer Based Test and Examine.
a bstrak
Penelitian ini bertujuan untuk menemukan prosedur praktis untuk menerapkan model untuk tes pada komputer berbasis metodologi tes subjek penelitian untuk mengembangkan tes di STAIN Parepare. Metode penelitian ini adalah metode penelitian dan pengembangan, yaitu pengembangan tes berbasis komputer dalam metodologi penelitian subjek. Ada tiga tahap dalam penelitian ini, yaitu Perakitan Masalah dalam Sistem Komputer, Kalibrasi Test dan Pemanfaatan dalam skala terbatas. Hasil studi penelitian menunjukkan bahwa pengembangan tes dapat dilakukan dengan menggunakan komputer (tes dasar komputer). Penggunaan komputer sebagai pengganti untuk tes yang menggunakan kertas dan pensil lebih efisien dan efektif. Kata Kunci: Tes Berbasis Komputer dan Periksa
PenDahuluan
penerapan teknologi informasi dalam proses pembelajaran telah mengubah model dan
pola pembelajaran pada dunia pendidikan telah menyentuh hampir semua sektor.
mereka. Ada banyak sistem pembelajaran Tak terkecuali sektor pendidikan. Dalam
yang menggunakan alat bantu komputer, bidang pendidikan, teknologi informasi
salah satunya yaitu aplikasi pembelajaran yang telah
mengacu pada teknologi berbasis Multimedia layanan administrasi, proses pembelajaran,
dan berbasis Web (Internet). Computer-Based pendaftaran ulang, perpustakaan, akses nilai,
Instruction (CBI) merupakan bentuk aplikasi pencarian referensi secara cepat dan mudah,
komputer yang diterapkan dalam proses proses penelitian, pembayaran SPP, bahkan
pembelajaran.
untuk seleksi penerimaan mahasiswa baru. Pada awalnya, penerapan Computer- Keberadaan teknologi telah membantu sektor
Based Education popular menggunakan pendidikan menjadi lebih mudah, efektif dan
program Computer-Assisted Instruction efisien.
(CAI), Computer-Assisted Learning (CAL), Di negara-negara
Computer-Managed Instruction (CMI), dan teknologi sudah berlangsung lama. Dan
Guidance. Begitupun
Kuriositas, Edisi VI, Vol. 2, Desember 2013
dalam sistem
dalam penerimaan CPNS, karena sistem khususnya sistem pengujian (testing) dapat
evaluasi
pembelajaran
dianggap lebih efisien dan praktis. juga memanfaatkan teknologi informasi, yaitu
Sekolah Tinggi Agama Islam Negeri dilakukannya
(STAIN) Parepare sebagai perguruan tinggi Computer Based Test (CBT) atau evaluasi/
yang sudah memiliki jaringan internet, sudah tes berbasis komputer. Peserta didik dapat
selayaknya untuk melakukan inovasi dalam melakukan tes dari tempat yang berbeda, baik
mengembangkan tes berbasis komputer. selain itu dalam jaringan internet maupun dalam
pengembangan kelimuan dan teknologi, juga perlu jaringan intranet dalam suatu organisasi.
dilihat kefektifan dan keefisien pengembangan tes Computer Based Test dapat dijadikan
seperti ini. Manfaat lain dari pengembangan tes ini sebagai sarana dalam evalusi pembelajaran.
adalah membangun bank soal yang terstandar. Dibebarapa sekolah evaluasi pembelajaran
Hal ini amat jarang dilakukan di perguruan baik ulangan harian atau ujian sekolah masih
tinggi. Karena pengembangan computer based test menggunakan cara manual yaitu dengan paper
(CBT) belum pernah dilakukan di STAIN Parepare. and pencil . Cara ini dianggap tidak efisien
Maka sebagai ujicoba pengembangan computer dan praktis, diantaranya dalam hal biaya
based test (CBT), peneliti mengembangkannya penyediaan bahan soal dan pemeriksaan.
pada mata kuliah methodology of research, Dengan model evaluasi pembelajaran
dimana penulis mengampu 3 kelas di program memanfaatkan teknologi informasi sistem
pendidikan bahasa inggris.
evaluasi pembelajaran akan lebih efektif dan Berdasarkan paparan di atas, penulis efisien serta mampu melakukan evaluasi
memandang perlunya sebuah pengembangan secara cepat, tepat dan memudahkan dalam
model tes dengan Computer Based Test (CBT). melakukan pengukuran serta penilaian itu
Alasan penulis mengkaji ini adalah : 1) Sebagai sendiri. Diharapkan semua kendala yang
upaya mencari terobosan baru mengenai ditemui pada saat menjalankan cara manual
sistem evaluasi pembalajarn yang lebih efisien dapat diperkecil atau bahkan dihilangkan.
dan efektif, 2) Sistem tes di STAIN Parepare Keunggulan
masih menggunakan paper and pencil. aplikasi model CBT anatara lain : (1)Hasil tes
dengan
menggunakan
Istilah tes bukanlah suatu istilah yang dapat diketahui saat itu juga dengan cepat
asing ditelinga kita. Tentunya makna tes yang sesaat setelah peserta selesai mengikuti tes
dimaksud dalam penelitian ini adalah tes yang (hemat waktu). (2) Tidak perlu tim khusus
relevan dengan pengukuran (measurement) untuk mengoreksi soal karena sistem yang
suatu prestasi belajar (achievement learning). akan langsung mengoreksi dan mengkalkulasi
Menurut Linn & Gronlund dalam Wahyu jumlah soal yang benar dan salah (hemat
Hidayat tentang tes
tenaga). (3) Tidak perlu menggandakan “an Instrument or systematic procedure kertas-kertas soal dan lembar jawaban untuk
for measuring a sample behaviour” dibagikan ke peserta tes (hemat biaya).(4)
(Wahyu,2012:18).
Dapat membangun bank soal Lee J. Cronbach menambahkan Perkembangan tes berbasis komputer
“a systematic procedure for observing a akhir-akhir ini menjadi tren dibeberapa instansi
person’s behaviour and describing it with termasuk instansi pemerintah. Salah satunya
the aid of a numerical scale or a category dalam penerimaan calon pegawai negeri sipili
system”
(CPNS). Pemerintah melaksanakan seleksi atau Saifuddin Azwar, menarik kesimpulan tes dengan memanfaatakan media komputer,
tentang pengertian tes, antara lain:Tes adalah yang disebut dengan computer asessment test
prosedur yang sistematis. Maksudnya item- (CAT). Ke depan sistem CAT akan diterapakan
item dalam tes disusun menurut cara dan
Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer
aturan tertentu; prosedur administrasi tes dan informasi dalam menentukan target dan taraf pemberian angka (scoring) terhadap hasilnya
serap mahasiswa terhadap pelajaran yang harus jelas dan dispesifikasikan secara
telah diberikan. Berkaitan dengan pemberian terperinci; setiap orang yang mengambil tes itu
nilai yang penentuan keputusan mengenai harus mendapat item-item yang sama dalam
hasil atau kemampuan belajar siswa atau tes kondisi sebanding.
penempatan.
Tes berisi sampel perilaku. Artinya Selain itu, tes juga dapat diklasifikasikan betapun panjangnya suatu tes, item yang
berdasarkan waktu, yaitu (a) Kecepatan ada di dalamnya tidak akan dapat mencakup
Test (Speed Test) Speed tes adalah tes yang seluruh isi materi yang mungkin ditanyakan,
didasarkan atau ditentukan oleh batasan dan kelayakan suatu tes tergantung pada
waktu. Peserta tes dibatasi waktunya dalam sejauhmana item-item dalam tes itu mewakili
mengerjakan soal tes. Ciri–cirinya yaitu waktu secara representative kawasan (domain)
dibatasi dan tidak ada tingkat kesulitan. perilaku yang diukur.
Contoh dari speed test adalah tes Skolastik Tes mengukur perilaku. Artinya item-
atau tes potensi/kemampuan akademik. (b) item dalam tes menghendaki agar subjek
Kekuatan Tes (Power Test)Power Tes adalah menunjukkan apa yang diketahui atau apa yang
tes yang didasarkan sejauhmana kemampuan telah dipelajari subjek dengan cara menjawab
peserta tes mengerjakan soal tes. Peserta tes pertanyaan-pertanyaan atau mengerjakan
tidak dibatasi waktunya dalam mengerjakan tugas-tugas yang dikehendaki tes.
soal tes. Contohnya tes kognitif Tes dilihat dari segi kegunaan untuk
Computer Based Test (CBT);Tes biasanya mengukur peserta didik, Suharsimi Arikunto
cara pengukuran membedakan atas adanya 3 macam tes
dihubungkan dengan
terhadap penguasaan materi tertentu. Hasil dari menurut (azwar,2003:23) Tes diagnostik; Tes
tes salah satunya digunakan untuk membuat ini merupakan tes yang diberikan sesudah
keputusan sekolah atau guru terhadap satu pelajaran disajikan, tujuannya adalah
muridnya. Hasil tes dianggap sebagai bukti untuk mengetahui apakah peserta didik
yang valid dari individu ,yang dapat digunakan mendapat kesukaran pada bacaan tertentu
misalnya untuk kenaikan kelas, promosi dari pelajaran yang diberikan. Penyusunan
jabatan, dan kelulusan. Sebelum adanya tes tes
berbasis komputer, biasanya tes dilakukan dititikberatkan pada materi dimana peserta
untuk keperluan
ini
biasanya
secara tertulis dalam kertas (paper based test), didik melakukan banyak kesalahan atau
tetapi seiring dengan perkembangan teknologi banyak yang tidak bisa menjawab. Tes
informasi tes tertulis mulai bergeser digantikan diagnostik bersangkut paut dengan usaha
dengan tes berbasis komputer bahkan internet. membentuk siswa mengatasi kesulitan
Tes berbasis komputer (CBT) adalah belajarnya. Tes formatif; Tes ini merupakan
metode penyajian tes sedemikian hingga tes yang diberikan sesudah satu kegiatan belajar
respons peserta tes terhadap tes tersebut dapat mengumpulkan informasi tentang kekuatan
disimpan dan dianalisis secara elektronik. dan kelemahan seseorang dalam pelajaran
Dengan kata lain tes berbasis komputer tersebut. Berkaitan dengan umpan balik yang
dilaksanakan dengan menggunakan bantuan dimaksudkan untuk acuan memperbaiki proses
software komputer).
belajar mengajar. Ada empat bentuk model tes berbasis Tes sumatif adalah adalah tes yang
komputer dan internet yang dikembangkan diberikan sesudah jumlah kegiatan belajar
oleh ITC, yaitu (a) Terbuka (Open Mode); Tes diselesaikan dalam satu periode tertentu
dengan model terbuka seperti ini, dapat diikuti tujuannya adalah untuk mengumpulkan data/
siapapun dan tanpa pengawasan siapapun,
Kuriositas, Edisi VI, Vol. 2, Desember 2013
contohnya tes yang dapat diakses secara pelaksanaan tes berbasis komputer (CBT) terbuka di internet. Peserta tes tidak perlu
ada beberapa hal yang perlu diperhatikan melakukan registrasi peserta. (b)Terkontrol
diantaranya : ke-ontetikan peserta test, bank (Controlled Mode);Tes dengan model seperti
soal, sistem Computer-based test itu sendiri. ini, sama dengan tes dengan model terbuka
Proses otentikasi dalam tes berbasis yaitu tanpa pengawasan siapapun, tetapi
komputer (CBT), merupakan hal yang sangat peserta tes hanya yang sudah terdaftar, dengan
penting, untuk menentukan siapa saja yang cara memasukkan username dan password.
bisa mengikuti tes. Biasanya dalam proses ini, (c) Supervised Mode; Pada model ini terdapat
peserta tes akan diberikan sebuah username supervisor yang mengidentifikasi peserta tes
dan password, yang akan digunakan untuk untuk diotentikasi dan memvalidasi kondisi
login sehingga peserta dapat masuk dan pengambilan tes. Untuk tes di internet mode ini
mengikuti tes.
menuntut administrator tes untuk meloginkan Ketersediaan soal dalam jumlah yang cukup peserta dan mengkonfirmasi bahwa tes telah
banyak menjadi syarat selanjutnya dalam tes diselesaikan dengan benar pada akhir tes. (d)
berbasis komputer (CBT). Dari jumlah soal Managed Mode;Pada model ini biasanya tes
yang cukup banyak memungkinkan pemilihan dilaksanakan secara terpusat. Organisasi yang
soal secara random sehingga antar peserta mengatur proses tes dapat mendefinisikan
tes akan mendapatkan soal yang berbeda. dan meyakinkan unjuk kerja dan spesifikasi
Hal ini dilakukan untuk menghindari adanya peralatan di pusat tes.
kerjasama antara peserta test. Ada banyak keuntungan melakukan tes
Sistem Computer Based Test yang telah melalui komputer, diantaranya : mengijinkan
melalui uji kelayakan sangat diperlukan, melakukan tes di saat yang tepat bagi
mengingat pada umumnya tes berbasis peserta, mengurangi waktu untuk pekerjaan
komputer dilaksanakan dalam waktu yang penilaian tes dan membuat laporan tertulis,
sama. Sehingga dibutuhkan software dan menghilangkan pekerjaan logistik seperti
hardware yang mendukung, istilah dalam mendistribusikan, menyimpan dan
teknologi informasi yaitu client-server. Di menggunakan kertas.
tes
mana komputer peserta tes (client) terhubung Menurut Bjorner, Kosinski, dan Ware
dengan sistem tes berbasis komputer melalui dan Bjorner bahwa kombinasi CBT maupun
komputer server. Dalam hal ini jumlah client CAT dengan teori tes terutama TRB yang
jauh lebih banyak dari jumlah server, untuk memanfaatkan bank soal dapat memberikan
itulah dibutuhkan sistem tes berbasis komputer beberapa keuntungan antara lain, bank
yang layak pakai.
soal dapat diperluas secara berangsur- Pelaksanaan pengukuran di bidang angsur dengan menambahkan soal ataupun
pendidikan pada prinsipnya bertujuan untuk mengevaluasi butir soal yang ada, dan proses
mengetahui karakteristik suatu objek seperti respons peserta dapat dipantau/dimonitor
kemampuan, keberhasilan belajar, sikap, minat untuk memastikan mutu penilaian dan pola
atau ciri terpendam lainnya yang terdapat respons yang tidak konsisten dapat diselidiki.
pada peserta didik namun tidak kelihatan dan Pada dasarnya pelaksanaan Computer
tidak dapat diukur langsung. Untuk mengukur Based Test sama halnya dengan proses
berbagai karakteristik yang terpendam pembelajaran
itu sangat diperlukan alat ukur yang baik Computer Based Test atau tes berbasis
menggunakan
komputer.
sehingga mampu mengungkap secara benar komputer
ciri terpendam pada peserta didik. Alat ukur laboratorium komputer yang telah terkoneksi
yang baik adalah alat ukur yang memenuhi dengan jaringan dan sistemnya. Dalam
persyaratan dan mampu menghasilkan
Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer
informasi yang mengandung kesalahan sekecil Tingkat Kesukaran Butir (item difficulty mungkin.
index)
kesukaran butir soal butir berdasarkan teori tes klasik dan teori
Parameter yang digunakan pada analisis
Tingkat
adalah peluang menjawab benar suatu soal respons butir pada dasarnya adalah sama yaitu
pada kemampuan tertentu yang biasanya tingkat kesukaran, daya pembeda, tebakan
dinyatakan dalam bentuk indeks. Besarnya semu (pseudo guessing), dan kemampuan.
indeks kesukaran antara 0,00 sampai dengan Perbedaanya terletak pada formula, skala, dan
1,00 (Aiken : 66) (Linn,2000:55). satuan yang digunakan. Selain itu, analisis
0,00 1,00 butir suatu tes dengan teori tes klasik dan teori
Semakin besar indeks tingkat kesukaran respons butir pada prinsipnya juga dilakukan
maka semakin mudah soal itu. Berdasarkan untuk menaksir kemampuan seseorang
indeks tingkat kesukaran maka seharusnya yang diharapkan memiliki kesalahan sekecil
lebih tepat jika disebut tingkat kemudahan mungkin. Kesalahan pengukuran menurut teori
butir soal. Karena sudah menjadi kesepakatan tes klasik dinyatakan dengan kesalahan baku
para ahli maka sampai sekarang masih tetap pengukuran (Standar Error of Measurement/
menggunakan istilah tingkat kesukaran butir SEM) yang besarnya tergantung pada indeks
soal. Makna tingkat kesukaran (TK ) = 1, kehandalan tes. Untuk teori respons butir
artinya bahwa peserta tes menjawab benar kesalahan pengukuran dinyatakan dengan
soal itu, TK = 0, artinya tidak ada peserta tes kesalahan baku pengukuran (StandarError of
yang menjawab benar pada soal. Measurement/SEM) yang besarnya tergantung
Pada prinsipnya taraf kesukaran tes pada tingkat kemampuan seseorang dan fungsi
bentuk soal ini dihitung berdasarkan proporsi informasi tes. Adanya kesalahan yang melekat
jumlah peserta yang menjawab benar terhadap pada data hasil pengukuran ini disebabkan
jumlah total peserta tes.
oleh banyak faktor diantaranya adalah alat ukur itu sendiri, pelaksanan pengukuran,
objek pengukuran, dan teknik analisis yang P =
digunakan.
Keterangan :
Teori Tes Klasik
P = taraf sukar butir
B = jumlah peserta yang menjawab benar proses penelaahan butir soal melalui informasi
Analisis butir soal secara klasik adalah
(item score)
dari jawaban peserta didik guna meningkatkan T = jumlah total peserta tes mutu butir soal yang bersangkutan dengan menggunakan teori tes klasik. Kelebihan
Tingkat Kesukaran tes atau dapat dihitung analisis butir soal secara klasik adalah murah,
berdasarkan jumlah peserta yang menjawab dapat dilaksanakan seharihari dengan cepat
benar pada kelompok atas dan kelompok menggunakan komputer, murah, sederhana,
bawah yang dirumuskan sebagai berikut : familier dan dapat menggunakan data dari
beberapa peserta didik atau sampel kecil.
BA + BB
Aspek yang perlu diperhatikan dalam analisis N butir soal secara klasik adalah setiap butir soal
TK =
ditelaah dari segi: tingkat kesukaran butir,
Keterangan :
daya pembeda butir, dan penyebaran pilihan TK = Tingkat Kesukaran jawaban (untuk soal bentuk obyektif) atau
BA = jumlah jawaban benar pada kelompok frekuensi jawaban pada setiap pilihan jawaban.
atas (27 %)
Kuriositas, Edisi VI, Vol. 2, Desember 2013
BB = jumlah jawaban benar pada kelompok sejauh mana ketepatan dan kecermatan suatu bawah (27 %)
alat ukur dalam melakukan fungsi ukurnya. N = ukuran kelompok (jumlah peserta
Suatu alat tes dapat dikatakan mempunyai kelompok atas dan bawah)
validitas yang tinggi apabila alat tes Kriteria Indeks Kesulitan Butir Soal:
tersebut menjalankan fungsi ukurnya, atau • 0,00 - 0,30 = Soal kategori sukar
memberikan hasil ukur yang sesuai dengan • 0,31 - 0,70 = Soal kategori sedang
maksud dilakukannya pengukuran tersebut. • 0,71 - 1,00 = Soal kategori mudah
Sedangkan tes yang memiliki validitas rendah akan menghasilkan data yang tidak relevan
Daya pembeda butir soal tes mengacu dengan tujuan pengukuran. pada kemampuan butir dalam membedakan
tespada umumnya kemampuan antara peserta tes yang telah
Validitas
alat
digolongkan dalam tiga kategori, yaitu : (a) menguasai materi dan peserta tes yang tidak/
Validitas Konstruksi (Construct Validity) belum menguasai materi yang ditanyakan.
Validitas konstruk adalah validitas yang Daya pembeda dinyatakan dalam indeks.
menyangkut bangunan teoretik variabel Indeks daya pembeda berkisar antara -1,00
yang akan diukur. Sebuah tes dikatakan sampai dengan +1,00. Semakin tinggi
mempunyai validitas konstruk apabila butir- indeks daya pembeda soal artinya semakin
butir soal yang disusun dalam tes mengukur semakin mampu soal yang bersangkutan
setiap aspek berpikir dari sebuah variabel membedakan peserta tes /peserta tes yang
yang akan diukur melalui tes tersebut. telah memahami materi dengan peserta tes
Untuk menguji validitas konstruksi, dapat yang belum memahami materi. Semakin tinggi
digunakan pendapat dari para ahli (Judgmen daya pembeda suatu butir soal, maka semakin
Expert). Para ahli diminta pendapatnya kuat/baik butir soal tersebut. Jika indeks daya
tentang alat tes tersebut. (b) Validitas Isi pembeda bernilai negatif (DP < 0), berarti
(Content Validity);Validitas isi disebut juga lebih banyak kelompok bawah (peserta tes /
validitas kurikuler. Oleh karena itu, validitas peserta tes yang belum memahami materi)
ini erat kaitannya dengan materi yang akan menjawab benar soal tersebut dibandingkan
diukur dalam tes. Tentu saja materi yang dengan kelompok atas (peserta tes /peserta tes
dimaksud adalah materi yang terdapat dalam yang memahami materi).
kurikulum. Pengujian validitas isi dapat Dalam seleksi item, setiap item yang
dilakukan dengan membandingkan antara memiliki indeks lebih besar dari 0,50 dapat
isi alat tes dengan isi atau rancangan yang langsung dianggap sebagai item yang berdaya
telah ditetapkan. Validitas isi mencerminkan diskriminasi baik, item yang memiliki indeks
butir-butir dalam tes kurang dari 0,20 dapat langsung dibuang,
sejauh mana
mencerminkan materi yang disajikan dalam sedangkan item lainnya dapat ditelaah lebih
kurikulum. Sebuah tes dikatakan memiliki lanjut untuk direvisi (Crocker,1986:315).
validitas isi jika butir-butir tes bersifat Klasifikasi/Kriteria Daya Pembeda :
representatif terhadap isi materi dalam • 0,40 – 1,00 Soal diterima/baik
kurikulum tersebut. Pengujian validitas isi • 0,30 – 0,39 Soal diterima tetapi perlu
tidak melalui prosedur pengujian secara perbaikan
statistik, melainkan melalui analisis secara • 0,20 – 0,29 Soal diperbaiki
rasional. Pengetahuan terhadap kurikulum • 0,19 – 0,00 Soal tidak dipakai/dibuang
menjadi dasar berpijak yang penting untuk dapat melakukan analisis validitas isi. Cara
Validitas berasal dari kata validity (shahih yang praktis untuk melakukan analisis dalam bahasa arab) yang mempunyai arti
validitas isi adalah dengan melihat apakah
Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer
butir-butir tes telah disusun sesuai dengan blue-print (kisi-kisi) yang sudah dirancang X s = rata-rata skor siswa/peserta
sebelumnya. Blue print menjadi acuan.
tes yang menjawab salah
Sesuai dengan namanya, validitas ini SD t = simpangan baku skor total didasarkan pada kriteria tertentu. Dengan
p = proporsi jawaban benar terhadap demikian bukti adanya validitas ditunjukkan
semua jawaban siswa/peserta tes adanya hubungan korelasional skor pada
q =1-p
tes yang bersangkutan dengan skor suatu Selain validitas, alat ukur yang baik juga kriteria. harus reliabel. Oleh karena itu, alat ukur yang Pengujian validitas ini bersifat empirik, baik adalah alat ukur yang valid dan reliabel. artinya pengujian hanya dapat dilakukan Dalam kajian teoritis, reliabilitas adalah sejauh setelah mendapatkan data di lapangan. mana pengukuran dari suatu uji coba yang Apabila berdasarkan hasil analisis yang dilakukan tetap memiliki hasil yang sama dilakukan terhadap data hasil pengamatan meskipun dilakukan secara berulang-ulang di lapangan terbukti bahwa tes hasil belajar terhadap subjek dan dalam kondisi yang sama. dapat mengukur hasil belajar yang seharusnya Instrumen alat ukur dianggap bisa diandalkan diungkap secara tepat maka berarti alat tes apabila memberikan hasil yang konsisten tersebut mempunyai validitas empirik. Untuk untuk pengukuran yang sama dan tidak bisa keperluan pengujian jenis validitas ini dapat diandalkan bila pengukuran yang dilakukan dilakukan dengan dua cara yaitu dari segi secara berulang-ulang itu memberikan hasil kemampuannya dalam melakukan ramalan yang relatif tidak sama. Pengujian reliabilitas (predictive validity) serta daya ketepatan instrumen untuk memperoleh hasil yang bandingannya (concurent validity). reliabel bisa dilakukan dengan berbagai Perbedaan
metode statistik.
ramalan dengan validitas bandingan adalah Ada 3 cara yang dapat dilakukan untuk ketersediaan pembanding (kriterium). Pada menentukan reliabilitas skor tes, yaitu : validitas ramalan, kriterium diperoleh pada (a) Metode Tes Ulang (Test Retest Method) waktu yang akan datang setelah dilakukan diterapkan untuk menghindari
adanya tes yang akan diukur validitasnya tersebut. penyusunan dua seri tes. Teknisnya adalah Sedangkan pada validitas bandingan, kriterium sebuah tes yang sama diberikan dua kali sudah ada atau dapat diperoleh pada saat yang kepada responden yang sama dengan jarak sama dengan waktu untuk memperoleh data waktu tertentu. Jika hasil tes pertama tentang tes yang akan diukur validitasnya mempunyai kesejajaran dengan hasil tes yang tersebut tanpa harus menunggu masa yang kedua maka tes tersbut dikatakan reliable. akan datang. Uji validitas butis soal pilihan Oleh karena pengujian ini dilakukan terhadap ganda menggunakan korelasi point biserial sebuah tes yang diujicobakan dua kali maka yaitu korelasi antara data interval dan data sering disebut pula sebagai single-test-double- dikotomi. trial-method. Kelemahan metode ini adalah
jika jeda waktu tes terlalu singkat sedangkan
b X -X s r soal tes banyak mengungkapkan aspek pbis =
pq
SD t pengetahuan maka responden cenderung masih mengingat materi yang diteskan,
Keterangan : sehingga ada kemungkinan hasil tes yang
X b = rata-rata skor siswa/peserta kedua lebih baik daripada hasil tes pertama. tes yang menjawab benar
Sebaliknya jika jeda waktu tes pertama dengan
Kuriositas, Edisi VI, Vol. 2, Desember 2013
kedua terlalu lama dikhawatirkan banyak
Keterangan
faktor serta situasi dan kondisi sudah banyak k = jumlah butir soal berubah dan mempengaruhi hasil tes yang 2 SD
= varian skor total kedua. (b) Metode Tes Sejajar (Equivalent)
P = proporsi siswa yang menjawab benar mengharuskan adanya dua buah seri soal yang
q = 1 -p
mempunyai kesamaan tujuan, bobot soal, tingkat kesukaran, susunan soal, tetpai butir
Untuk analisis butir soal bisa digunakan –butir soalnya berbeda. Dengan kata lain, dua
analisis butir secara modern yaitu dengan buah tes yang digunakan harus sejajar (paralel,
penelaahan butir soal dengan menggunakan equivalen). Koefisien relibiabilitas diperoleh
Item Response Theory (IRT) atau teori jawaban dengan mengkorelasikan hasil tes pertama
peserta tes. Teori ini meruapakan teori yang dengan hasil tes kedua. Sudah tentu metode ini
menggunakan fungsi matematika untuk akan menambah kerepotan. Inilah kelemahan
menghubungkan antara peluang jawaban benar metode ini. Kelebihan dari metode ini adalah
suatu soal dengan kemampuan peserta tes. dapat memperbaiki kelemahan pada metode
Nama lain dari IRT adalah Latent Trait Theory pertama yaitu terhindarnya dari kondisi “siswa
(LTT) atau Characteristic Curve Theory (CCT). masih mengingat materi tes pertama”. Aspek
Untuk mengetahui kelebihan analisis ingatan dan hafalan pada pengerjaan tes
IRT, maka para evaluator perlu mengetahui pertama tidak terbawa pada saat mengerjakan
secara klasik. tes yang kedua.(c)
keterbatasan
analisis
Keterbatasan model pengukuran secara (Split – Half) ini dari kepraktisannya lebih
klasik bila dibandingkan dengan teori praktis dari pada dua metode sebelumnya.
jawaban butir soal adalah seperti berikut Metode ini hanya melakukan sekali tes
(Hambleton,1991:25) (1) Tingkat kemampuan kepada sekelompok subjek. Dengan demikian
dalam teori klasik adalah “true score”. Jika tidak perlu menunggu waktu maupun harus
tes sulit artinya tingkat kemampuan peserta mempunyai data dari tes sejenis untuk dapat
didik mudah. Jika tes mudah artinya tingkat menentukan
kemampuan peserta didik tinggi. (2) Tingkat diukur hasil pengukuran belahan pertama dan
reliabilitasnya.
Reliabilitas
kesukaran soal didefinisikan sebagai proporsi belahan kedua dari alat ukur yang sama.
peserta didik dalam grup yang menjawab benar Untuk menentukan reliabilitas alat ukur
soal. Mudah/sulitnya butir soal tergantung maka digunakan kriteria Kaplan (Kaplan &
pada kemampuan peserta didik yang dites Sacuzzo, 2005), yaitu:
dan kemampuan tes yang diberikan. (3) Daya R ≥ 0,70 = alat ukur dapat diandalkan
pembeda, reliabilitas, dan validitas soal/tes (kurang reliabel)
didefinisikan berdasarkan grup peserta didik. R < 0,70 = alat ukur kurang dapat
Asal mula IRT adalah kombinasi suatu diandalkan (reliabel)
versi hukum phi-gamma dengan suatu Untuk mengetahui koefisien reliabilitas tes
analisis faktor butir soal (item factor analysis) soal bentuk pilihan ganda digunakan rumus
kemudian bernama Teori Trait Laten (Laten Kuder Richadson 20 (KR-20) seperti berikut
Trait Theory), kemudian sekarang secara ini.
umum dikenal IRT.
Rumus Kuder Richardson 20 (KR – 20). Munculnya IRT didasari dari kelemahan analisis secara klasik, yaitu : Abilitas dalam
k ∑ pq
teori klasik adalah true score. Artinya jika tes
KR sulit artinya abilitas peserta tes rendah. Dan − 20 = 1 −
k-1 SD jika tes mudah artinya abilitas tinggi. Mudah/
sulitnya butir soal tergantung pada kemampuan
Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer
peserta tes yang dites dan kemampuan tes yang Hasil soal, kuis dan tes dibuat/disusun diberikan. Daya pembeda, reliabilitas, dan
dengan perangkat lunak ini dapat disimpan validitas tes/soal didefinisikan berdasarkan
dalam format Flash yang dapat berdiri sendiri kelompok peserta tes. Sedangkan kelebihan
(stand alone) di website. Dengan Easy Quiz, IRT adalah : IRT tidak berdasarkan kelompok
pengguna dapat membuat dan menyusun dependent, Skor peserta tes dideskripsikan
berbagai bentuk dan level soal yang berbeda, bukan tes dependent, Model ini menekankan
yaitu bentuk soal benar/salah (true/false), pada tingkat butir soal bukan tes, IRT tidak
pilihan ganda (multiple choices), pengisian memerlukan pararel tes untuk menentukan
kata ( fill in the blank), penjodohan (matching), reliabilitas tes dan IRT suatu model yang
Kuis dengan area gambar dan lain-lain. Bahkan memberikan suatu pengukuran ketepatan
dengan Easy Quiz dapat pula disisipkan untuk setiap skor reliabilitas.
berbagai gambar (images ) maupun file Flash Tujuan utama IRT adalah memberikan
(Flash movie) untuk menunjang pemahaman kesamaan antara statistik soal dan estimasi
peserta didik dalam pengerjaaan soal. kemampuan. Ada tiga keuntungan IRT, yaitu
Beberapa fasilitas yang tersedia dalam Easy : (1) asumsi pada populasi tingkat kesukaran,
Quiz selain dari sisi kemudahan penggunaan daya pembeda merupakan independen, (2)
(user friendly) soal-soal yang dihasilkan, asumsi pada populasi tingkat kesukaran, daya
diantaranya yaitu (1). Fasilitas umpan balik pembeda merupakan independen sampel
(feed-back) berdasar atas respon/jawaban dari yang menggambarkan untuk tujuan kalibrasi
peserta tes, (2). Fasilitas yang menampilkan soal, (3) statistik yang dipergunakan untuk
hasil tes/score dan langkah-langkah yang akan menghitung tingkat kemampuan peserta tes
diikuti peserta tes berdasar respon/ jawaban diperkirakan dapat terlaksana.
yang dimasukkan, (3). Fasilitas mengubah Ada empat macam model IRT, yaitu
teks dan bahasa pada tombol dan label sesuai (1) Model satu parameter (model Rasch),
dengan keinginan pembuat soal, (4). Fasilitas yaitu untuk menganalisis data yang hanya
memasukkan suara dan warna pada soal sesuai menitikberatkan pada parameter tingkat
dengan keinginan pembuat soal, dan (5). kesukaran soal. (2) Model dua parameter,
Fasilitas hyperlink; yaitu mengirim hasil/score yaitu untuk menganalisis data yang hanya
tes ke email atau LMS. (6) Fasilitas pembuatan menitikberatkan pada parameter tingkat
soal random, (7) Fasilitas keamanan dengan kesukaran dan daya pembeda soal. (3)Model
account/password, (8) Fasilitas tiga parameter, yaitu untuk menganalisis
User
pengaturan tampilan yang dapat di modifikasi, data yang menitikberatkan pada parameter
dll.
tingkat kesukaran soal, daya pembeda soal dan Kriteria yang digunakan peneliti untuk menebak. (4)Model empat parameter, yaitu
mengembangkan tes diagnostik berbasis untuk menganalisis data yang menitikberatkan
komputer ini mengacu pada kriteria pada parameter tingkat kesukaran soal, daya
kualitas suatu material yang dikemukakan beda soal, menebak dan penyebab lain.
oleh Nieveen. Menurut Nieveen (1999) Easy Quiz merupakan perangkat lunak
suatu material dikatakan berkualitas jika untuk pembuatan soal, kuis atau tes secara
memenuhi aspek-aspek kualitas produk online (berbasis web). Penggunaan Easy
antara lain: kevalidan (validity), kepraktisan Quiz dalam pembuatan soal tersebut sangat
(practicality), dan keefektifan (effectiveness). familiar/user friendly, sehingga sangat mudah
(Kevalidan (validity) Menurut (Nieven,1999) digunakan dan tidak memerlukan kemampuan
aspek validitas dari material dilihat dari bahasa pemrograman yang sulit untuk
apakah berbagai komponen dari material itu mengoperasikannya.
terkait secara konsisten antara satu dengan
Kuriositas, Edisi VI, Vol. 2, Desember 2013
yang lainnya. Sedangkan Arikunto (2008) beberapa mahasiswa. Tujuan dari ujicoba ini menjelaskan bahwa suatu tes dikatakan valid
untu melihat kualitas butir soal seperti tingkat jika tes tersebut dapat mengukur apa yang
kesukaran, validitas dan reliabilitas. Analisis hendak diukur dengan tepat. Validitas tes
butir soal dalam penelitian ini menggunakan ditinjau dari berbagai segi yaitu: validitas
software ITEMAN.
materi, validitas konstruksi (isi), dan validitas Tes yang sudah dikalibrasi selanjutnya bahasa. Berdasarkan definisi kevalidan dari
dapat digunakan dalam skala yang terbatas. para ahli, maka kriteria kevalidan tes yang
Tes pada penelitian ini digunakan untuk mid dikembangkan pada penelitian ini meliputi:
semester pada mata kuliah methodology of validitas materi yaitu kesesuaian soal dengan
research pada program pendidikan bahasa indikator yang telah ditentukan, validitas
inggris semester 5 di STAIN Parepare. Tes ini konstruksi yaitu sistematika
menggunakan tiga paket soal, yaitu paket soal soal dan pilihan jawaban, validitas bahasa
penulisan
1, paket soal 2 dan paket soal 3. yaitu penggunaan bahasa yang sesuai ejaan
Jika mengacu pada kualitas dan bobot yang yang disempurnakan (EYD) pada penulisan
sama pada ketiga paket soal tersebut, maka soal. (Kepraktisan (practicality), (Menurut
diduga tidak ada perbedaan hasil tes ketiga Nieveen,1999)
kelompok peserta tes dengan ketiga paket soal material dilihat dari kemudahan material
dapat digunakan. Keefektifan (effectiveness).
ini merupakan Maka model tes yang dikembangkan peneliti
Metode
penelitian
metode penelitian pengembangan dan dikatakan efektif dilihat dari komponen-
Penelitian (research and development), yaitu komponen antara lain: Kesesuaian hasil tes
pengembangan ujian berbasis komputer pada dengan tujuan tes serta respons dosen dan
mata kuliah methodology of research. Ada tiga respons mahapeserta tes mengenai keefektifan
tahap dalam penelitian ini, yaitu : Perakitan tes.
Soal Pada Sistem Komputer, Kalibrasi Tes dan ITEMAN merupakan program komputer
Pemanfaatan Pada Skala terbatas yang digunakan untuk menganalisis butir soal secara klasik. Program ini termasuk satu paket
Pengembangan Model dan Prosedur
Pengembangan
program dalam MicroCAT yang dikembangkan
oleh Assessment Systems Corporation dimulai Hasil yang diharapkan dari pengembangan tahun 1982 dan mengalami revisi pada tahun
model ini adalah suatu program computer based 1984, 1986, 1988, dan 1993; mulai dari versi
test (CBT) yang diimplementasikan pada ujian
2.00 sampai dengan versi 3.50. Assessment mata kuliah methodology of research. Model ini Systems Corporation beralamat di 23
kemudian diujicobakan dan dikalibrasi dengan University Avenue, Suite 400, St Paul, Minesota
menggunakan analisis IRT. 55114, United States of America.
Prosedur pengembangan dalam penelitian Pengembangan tes berbasis komputer
ini terdiri atas beberapa tahap, yaitu (1) (CBT) hakikatnya memindahkan tes yang
Tahap identifikasi bidang standar kompetensi biasanya menggunakan paper and pencil
yang akan diujikan pada ujian mata kuliah ke dalam sistem komputer dengan bantuan
methodology of research. Selain itu perlu software yang ada. Untu lebih praktisnya, dapat
ditentukan terlebih dahulu indikator-indikator digunakan software yang sudah ada seperti
pada tiap bidang kompetensi yang akan diujikan software easy quiz. Setelah tes dirakit dalam
. (2) Tahap menyusun soal dan bank soal sesuai sistem komputer maka langkah selanjutnya
dengan indikator bidang kompetensi yang akan melakukan kalibrasi atau standarisasi tes
diujikan. Setelah penentuan indikator pada dengan melakukan ujicoba terbatas kepada
tiap bidang kompetensi yang akan diujikan,
Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer
kemudian dibuatkan kisi-kisi soal. Setiap lebih tinggi bila dibandingkan dengan diolah indikator terdiri dari 2 soal dengan kualitas
secara manual atau menggunakan kalkulator/ yang sama. Penyusunan soal diperlukan
tangan. Program komputer yang digunakan sebelum diaplikasikan ke dalam sistem
untuk menganalisis data modelnya bermacam- komputer. (3) Tahap membuat program
macam tergantung tujuan dan maksud analisis CBT Setelah dipersiapkan soal, maka langkah
yang diperlukan.
selanjutnya adalah pembuatan program CBT Program yang sudah dikenal secara umum dengan menggunakan software easy quiz. (4)
adalah EXCEL, SPSS (Statitistical Program for Tahap Implementasi CBT Tahap akhir dari
Social Science), atau program khusus seperti pengembangan model ini adalah kalibrasi yang
ITEMAN (analisis secara kiasik), RASCAL, dilakukan pada peserta tes tingkat akhir yang
ASCAL, BILOG (analisis secara item respon akan mengikuti ujian. kalibrasi ini diperlukan
teori atau IRT), FACETS (analisis model Rasch untuk melihat kualitas soal, apakah soal
untuk data kualitatif.
tersebut sudah standar atau belum. Untuk Untuk penelitian ini analisis data analisis standar digunakan analisis klasik atau
digunakan program ITEMAN.Tahap awal analisis modern (IRT).
dalam mengoperasikan ITEMAN adalah Populasi pada penelitian ini adalah seluruh
membuat “file data” (control tile) yang berisi mahasiswa yang mengikuti perkuliahan
lima komponen utama. Baris pertama adalah methodology of research porgram pendidikan
baris pengontrol yang mendeskripsikan data, bahasa inggris STAIN Parepare Semester
Baris kedua adalah daftar kunci jawaban setiap lima. Adapun sampling frame penelitian ini
butir soal, Baris ketiga adalah daftar jumlah adalah 36 mahasiswa pada pemanfaatan skala
option untuk setiap butir soal,Baris keempat terbatas, yaitu mid semester mata kuliah
adalah daftar butir soal yang hendak dianalisis methodology of research. Teknik pengambilan
(jika butir yang akan dianalisis diberi tanda Y sampel menggunakan multistage random.
(yes), jika tidak diikutkan dalam analisis diberi Penelitian ini merupakan penelitian
tanda N (no) dan Baris kelima dan seterusnya pengembangan untuk menghasilkan model
adalah data siswa dan pilihan jawaban siswa. ujian pada mata kuliah methodology of
Cara menggunakan program ini, pertama research. Data yang diperoleh dalam
data diketik di DOS atau Windows. Cara penelitian ini adalah yang terkait dengan :
termudah adalah menggunakan program Data Hasil Kalibrasi dan Data pemanfaatan
Windows yaitu dengan mengetik data di pada skala terbatas (mid semester mata kuliah
tempat Notepad.
methodology of research Sedangkan untuk data yang terkait dengan Untuk data yang terkait dengan kalibrasi
pemanfaatan skala terbatas, yaitu pada mid butir soal pada ujicoba intrumen. Data yang
semester mata kuliah methodology of research. terekam (data dokumentasi), kemudian
Analisisnya menggunakan uji perbedaan one dianalisis dengan analisis modern, yaitu Item
way anova antara ketiga kelompok untuk Response Theory (IRT). Untuk mempermudah
masing-masing kelompok dengan paket soal analisis data menggunakan komputer. Analisis
yang berbeda tetapi dari segi kualitas dan bobot butir soal dengan komputer maksudnya adalah
soal sama. Adapun hipotesis statistik penelitian penelaahan butir soal secara kuantitatif yang
pada ketiga kelompok tersebut adalah : penghitungannya menggunakan bantuan
H 0 :µ 1 =µ 2 =µ 3
program komputer. Analisis data dengan
H 1 : Ada salah satu tanda yang tidak sama menggunakan program komputer adalah sangat
Untuk mempermudah dalam menganalisis tepat. Karena tingkat keakuratan hitungan
data, penulis memanfaatkan software SPSS dengan menggunakan program komputer
Versi 22.0.
Kuriositas, Edisi VI, Vol. 2, Desember 2013
P embahasan
ITEMAN untuk analisis butir soal. Berikut analisis butir soal untuk tiap-tiap paket soal :
Dalam pembuatan tes dengan perangkat
a. Paket Soal 1
lunak (software) bisa digunakan software yang sudah ada seperti wondershare quiz creator,
Untuk analisis butir soal digunakan tingkat test creator dan easy creator. Software
kesukaran, Validitas dan reliabilitas butir tersebut memiliki kelebihan dan kekurangnnya
soal dengan menggunakan software ITEMAN masing-masing. Untuk penelitian ini peneliti
dalam analisis.
menggunakan software easy quiz. Selain Berdasarkan hasil analisis IRT (ITEMAN), mudah untuk digunakan, hasil test program
maka dapat disimpulkan tingkat kesukaran software easy quiz langsung dibackup dalam
( Difficulty Item Index) sebagai berikut : word. Sehingga hasilnya dengan mudah dapat
Tabel 1
dianalisis. Rekapitulasi Tingkat Kesukaran Butir Soal Langkah dalam pembuatan tes dengan
Paket Soal 1
software esy quiz adalah sebagai berikut: Pembuatan materi soal yang akan diteskan
Butir Soal
Keterangan
disesuaikan dengan silabus mata kuliah 1 Sedang methodology or research yang pada pertemuan
2 Sedang
3 pertama kuliah sudah diberitahukan kepada Sedang 4 Sedang
mahasiswa. Butir soal yang diberikan 5 Sukar
sebanyak 20 soal dengan paket soal sebanyak 6 Sedang
3 paket. Paket soal ini setara dalam indikator 7 Sedang dan kompetensi dasarnya, begitupun secara
8 Sedang validitas konseptual terutama dalam kontennya
9 Sedang setara antar paket soal. Penggunaan 3 paket
10 Sedang soal untuk menghindari kebocoran soal.
11 Sedang 12 Sedang
Soal yang sudah dirakit dimasukkan dalam 13 Sedang software easy quiz yang sudah tersedia. 14 Sukar
Setelah menginput dan mensetting maka 15 Sedang langkah selanjutnya adalah mengklik set run.
16 Sedang Kualitas tes, termasuk bentuk tes pilihan
17 Sedang ganda (dikotomi) dapat diungkap melalui
18 Sedang analisis butir soal secara teoretis (telaah) dan
19 Mudah
20 analisis empiris. Analisis butir soal secara Sedang kualitatif dilakukan untuk menilai butir soal
Tabel 1 di atas menujukkan bahwa tingkat ditinjau dari aspek materi,konstruksi, dan kesukaran paket soal 1(85%) dalam kategori bahasa. Analisis secara kuantitatif menekankan
sedang.
pada analisiskarakteristik butir soal secara Analisis kualitas butir paket soal 1 empiris. Karakteristik butir soal antara lain selanjutnya adalah analisis validitas atau meliputi indeks kesukaran (p), daya beda (d), kriteria baik tidaknya butir soal. Menurut dan distribusi respons. Ebel dan Frisbie dalam Essentials of Analisis
EducationalMeasurement Kriteria baik menggunakan pendekatan tes klasik (Clasical tidaknya butir soal adalah bila korelasi point Test Theory atau CTT) maupun pendekatan tes
biserial: >0.40 = butir soal sangat baik; 0.30 modern (Item Respons Theory atau IRT). Pada -0.39 = soal baik, tetapi perlu perbaikan; penelitian ini, penulis menggunakan sofware
0.20 - 0.29 = soal dengan beberapa catatan,
Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer
biasanyadiperlukan perbaikan; < 0. 19 = soal
Tabel 3
jelek, dibuang, atau diperbaiki melalui revisi. Kesimpulan Tingkat Kesukaran Butir Soal Berikut kesimpulan kriteria baik tidaknya butir
Paket Soal 2
soal pada paket soal 1 :
Butir Soal
Keterangan
Tabel 2 1 Mudah 2 Sedang
Rekapitulasi Kriteria Baik Tidaknya Butir Soal 3 Sedang
Paket Soal 1 4 Sedang
Butir Soal
Kualitas Butir
5 Mudah
1 sangat baik
6 Mudah
2 sangat baik
7 Sedang
3 sangat baik
8 Sedang
4 sangat baik
9 Sedang
5 sangat baik
10 Mudah
6 sangat baik
10 sangat baik
15 Sedang
11 sangat baik
13 sangat baik
18 Mudah
14 sangat baik
16 Baik 17 Baik
Tabel 3 di atas menujukkan bahwa tingkat
18 Baik
kesukaran soal paket 2(55%) dalam kategori
19 Baik sedang. 20 Baik
Berikut ini adalah kesimpulan kriteria baik tidaknya butir soal paket soal 2 :
Berdasarkan kriteria Ebel dan Frisbie, maka butir soal pada paket soal 1 yang didrop
Tabel 4
atau tidak dipergunakan yaitu butir soal Rekapitulasi Kriteria Baik Tidaknya Butir Soal 7,8,9,12 dan 15. Sehingga hanya 15 butir soal
Paket Soal 2
yang memenuhi standar atau baku.
Butir Soal
Kualitas Butir
Selanjutnya analisis kalibrasi adalah 1 sangat baik reliabilitas tes secara keseluruhan. Analisis ini
2 Baik bertujuan untuk melihat secara keseluruhan
3 Dibuang tentang kualitas tes.
4 sangat baik Dari hasil analisis diperoleh reliabilitas
5 sangat baik
6 tes untuk paket soal 1 sebesar 0,756. Menurut sangat baik 7 Dibuang
Feldt dan Brehmman mengatakan bahwa suatu 8 Baik instrumen yang memiliki koefisien reliabilitas r 9 sangat baik
≥0,7 sudah dikatakan reliabel. tes untuk paket 10 sangat baik
soal 1 bisa dipercaya penggunaannya. 11 sangat baik Berdasarkan hasil analisis IRT (ITEMAN),
12 sangat baik maka dapat disimpulkan tingkat kesukaran
13 Dibuang ( Difficulty Item Index)sebagai berikut :
14 Baik 15 Baik
Kuriositas, Edisi VI, Vol. 2, Desember 2013
16 Baik
Tabel 6
17 sangat baik
Rekapitulasi Kriteria Baik Tidaknya Butir Soal
18 sangat baik
Paket Soal 2
19 sangat baik
20 Dibuang
Butir Soal
Kualitas Butir
1 Dibuang 2 Baik
Butir soal pada paket soal 2 yang didrop 3 Sangat Baik
atau tidak dipergunakan yaitu butir soal 4 Dibuang 3,7,13dan 20. Sehingga hanya 16 butir soal
5 Dibuang yang memenuhi standar atau baku.
6 sangat baik Dari hasil analisis diperoleh reliabilitas
7 sangat baik tes untuk paket soal 2 sebesar 0,763. Artinya
8 sangat baik tes untuk Paket soal 2 reliabel atau konsisten,
9 Dibuang 10 sangat baik
sehingga penggunaannya bisa dipercaya. 11 Baik Berdasarkan hasil analisis IRT (ITEMAN), 12 sangat baik
maka dapat disimpulkan tingkat kesukaran 13 sangat baik ( Difficulty Item Index)sebagai berikut :
14 sangat baik 15 sangat baik
Tabel 5 16 Dibuang
Kesimpulan Tingkat Kesukaran Butir Soal 17 sangat baik Paket Soal 3
18 Dibuang Butir Soal
2 Sukar 3 Sedang
Butir soal pada paket soal 3 yang didrop
4 Sedang
atau tidak dipergunakan yaitu butir soal
5 Mudah
1,4,5,9,18,19 dan 20. Sehingga hanya 12 butir
6 Mudah
soal yang memenuhi standar atau baku.
7 Sedang
Dari hasil analisis diperoleh reliabilitas tes
8 Sedang
untuk paket soal 3 sebesar 0,584. Artinya tes
9 Sukar
10 Sukar
untuk paket soal 3 kurang reliabel atau kurang
11 Sukar
konsisten, sehingga penggunaannya kurang
12 Sukar
bisa dipercaya.
13 Sedang
Setelah semua paket soal dianalisis
14 Sukar
kualitasnya, maka soal dipilah kembali
15 Sedang
disesuaikan dengan indikatornya dan kualitas
16 Sedang
soalnya disamakan atau relatif disamakan
17 Sedang 18 Mudah
antar paket soal yang disediakan. Setalah
19 Sukar
dikalibrasi maka butir soal yang dipergunakan
adalah 15 soal untuk penelitian ini. Tes Mid Semester diberikan tiga paket soal Tabel 5 di atas menujukkan bahwa tingkat
20 Sedang
dengan kualitas yang sama pada kelompok kesukaran soal paket 3 (45 %) dalam kategori
rombongan belajar mahasiswa mata kuliah sedang.
methodology of research.
Berikut ini adalah kesimpulan kriteria baik Deskripsi hasil mid semester pada mata tidaknya butir soal paket soal 3 :
kuliah methodology of research untuk tiga
Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer