PENGEMBANGAN TES BERBASIS KOMPUTER SRI MULIANAH

PENGEMBANGAN TES BERBASIS KOMPUTER SRI MULIANAH

Universitas Negeri |Jakarta

WAHYU HIDAYAT

Universitas Kebangsaan Malaysia

a bstract

This study aims to find practical procedure for applying the model to the test on the computer based test methodology of research subjects in order to develop tests in STAIN Parepare.This research method is a method of research and development, namely the development of computer-based test in the of research methodology subject . There are three stages in this study, namely Assembling Problem In Computer Systems, Calibration Test,Utilization In a limited scale .The results of research studies indicate that the development of the test can be done using a computer ( computer base test) . The use of computers as a substitute for tests that use paper and pencil is more efficient and effective. Keywords: Computer Based Test and Examine.

a bstrak

Penelitian ini bertujuan untuk menemukan prosedur praktis untuk menerapkan model untuk tes pada komputer berbasis metodologi tes subjek penelitian untuk mengembangkan tes di STAIN Parepare. Metode penelitian ini adalah metode penelitian dan pengembangan, yaitu pengembangan tes berbasis komputer dalam metodologi penelitian subjek. Ada tiga tahap dalam penelitian ini, yaitu Perakitan Masalah dalam Sistem Komputer, Kalibrasi Test dan Pemanfaatan dalam skala terbatas. Hasil studi penelitian menunjukkan bahwa pengembangan tes dapat dilakukan dengan menggunakan komputer (tes dasar komputer). Penggunaan komputer sebagai pengganti untuk tes yang menggunakan kertas dan pensil lebih efisien dan efektif. Kata Kunci: Tes Berbasis Komputer dan Periksa

PenDahuluan

penerapan teknologi informasi dalam proses pembelajaran telah mengubah model dan

pola pembelajaran pada dunia pendidikan telah menyentuh hampir semua sektor.

mereka. Ada banyak sistem pembelajaran Tak terkecuali sektor pendidikan. Dalam

yang menggunakan alat bantu komputer, bidang pendidikan, teknologi informasi

salah satunya yaitu aplikasi pembelajaran yang telah

mengacu pada teknologi berbasis Multimedia layanan administrasi, proses pembelajaran,

dan berbasis Web (Internet). Computer-Based pendaftaran ulang, perpustakaan, akses nilai,

Instruction (CBI) merupakan bentuk aplikasi pencarian referensi secara cepat dan mudah,

komputer yang diterapkan dalam proses proses penelitian, pembayaran SPP, bahkan

pembelajaran.

untuk seleksi penerimaan mahasiswa baru. Pada awalnya, penerapan Computer- Keberadaan teknologi telah membantu sektor

Based Education popular menggunakan pendidikan menjadi lebih mudah, efektif dan

program Computer-Assisted Instruction efisien.

(CAI), Computer-Assisted Learning (CAL), Di negara-negara

Computer-Managed Instruction (CMI), dan teknologi sudah berlangsung lama. Dan

Guidance. Begitupun

Kuriositas, Edisi VI, Vol. 2, Desember 2013

dalam sistem

dalam penerimaan CPNS, karena sistem khususnya sistem pengujian (testing) dapat

evaluasi

pembelajaran

dianggap lebih efisien dan praktis. juga memanfaatkan teknologi informasi, yaitu

Sekolah Tinggi Agama Islam Negeri dilakukannya

(STAIN) Parepare sebagai perguruan tinggi Computer Based Test (CBT) atau evaluasi/

yang sudah memiliki jaringan internet, sudah tes berbasis komputer. Peserta didik dapat

selayaknya untuk melakukan inovasi dalam melakukan tes dari tempat yang berbeda, baik

mengembangkan tes berbasis komputer. selain itu dalam jaringan internet maupun dalam

pengembangan kelimuan dan teknologi, juga perlu jaringan intranet dalam suatu organisasi.

dilihat kefektifan dan keefisien pengembangan tes Computer Based Test dapat dijadikan

seperti ini. Manfaat lain dari pengembangan tes ini sebagai sarana dalam evalusi pembelajaran.

adalah membangun bank soal yang terstandar. Dibebarapa sekolah evaluasi pembelajaran

Hal ini amat jarang dilakukan di perguruan baik ulangan harian atau ujian sekolah masih

tinggi. Karena pengembangan computer based test menggunakan cara manual yaitu dengan paper

(CBT) belum pernah dilakukan di STAIN Parepare. and pencil . Cara ini dianggap tidak efisien

Maka sebagai ujicoba pengembangan computer dan praktis, diantaranya dalam hal biaya

based test (CBT), peneliti mengembangkannya penyediaan bahan soal dan pemeriksaan.

pada mata kuliah methodology of research, Dengan model evaluasi pembelajaran

dimana penulis mengampu 3 kelas di program memanfaatkan teknologi informasi sistem

pendidikan bahasa inggris.

evaluasi pembelajaran akan lebih efektif dan Berdasarkan paparan di atas, penulis efisien serta mampu melakukan evaluasi

memandang perlunya sebuah pengembangan secara cepat, tepat dan memudahkan dalam

model tes dengan Computer Based Test (CBT). melakukan pengukuran serta penilaian itu

Alasan penulis mengkaji ini adalah : 1) Sebagai sendiri. Diharapkan semua kendala yang

upaya mencari terobosan baru mengenai ditemui pada saat menjalankan cara manual

sistem evaluasi pembalajarn yang lebih efisien dapat diperkecil atau bahkan dihilangkan.

dan efektif, 2) Sistem tes di STAIN Parepare Keunggulan

masih menggunakan paper and pencil. aplikasi model CBT anatara lain : (1)Hasil tes

dengan

menggunakan

Istilah tes bukanlah suatu istilah yang dapat diketahui saat itu juga dengan cepat

asing ditelinga kita. Tentunya makna tes yang sesaat setelah peserta selesai mengikuti tes

dimaksud dalam penelitian ini adalah tes yang (hemat waktu). (2) Tidak perlu tim khusus

relevan dengan pengukuran (measurement) untuk mengoreksi soal karena sistem yang

suatu prestasi belajar (achievement learning). akan langsung mengoreksi dan mengkalkulasi

Menurut Linn & Gronlund dalam Wahyu jumlah soal yang benar dan salah (hemat

Hidayat tentang tes

tenaga). (3) Tidak perlu menggandakan “an Instrument or systematic procedure kertas-kertas soal dan lembar jawaban untuk

for measuring a sample behaviour” dibagikan ke peserta tes (hemat biaya).(4)

(Wahyu,2012:18).

Dapat membangun bank soal Lee J. Cronbach menambahkan Perkembangan tes berbasis komputer

“a systematic procedure for observing a akhir-akhir ini menjadi tren dibeberapa instansi

person’s behaviour and describing it with termasuk instansi pemerintah. Salah satunya

the aid of a numerical scale or a category dalam penerimaan calon pegawai negeri sipili

system”

(CPNS). Pemerintah melaksanakan seleksi atau Saifuddin Azwar, menarik kesimpulan tes dengan memanfaatakan media komputer,

tentang pengertian tes, antara lain:Tes adalah yang disebut dengan computer asessment test

prosedur yang sistematis. Maksudnya item- (CAT). Ke depan sistem CAT akan diterapakan

item dalam tes disusun menurut cara dan

Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer

aturan tertentu; prosedur administrasi tes dan informasi dalam menentukan target dan taraf pemberian angka (scoring) terhadap hasilnya

serap mahasiswa terhadap pelajaran yang harus jelas dan dispesifikasikan secara

telah diberikan. Berkaitan dengan pemberian terperinci; setiap orang yang mengambil tes itu

nilai yang penentuan keputusan mengenai harus mendapat item-item yang sama dalam

hasil atau kemampuan belajar siswa atau tes kondisi sebanding.

penempatan.

Tes berisi sampel perilaku. Artinya Selain itu, tes juga dapat diklasifikasikan betapun panjangnya suatu tes, item yang

berdasarkan waktu, yaitu (a) Kecepatan ada di dalamnya tidak akan dapat mencakup

Test (Speed Test) Speed tes adalah tes yang seluruh isi materi yang mungkin ditanyakan,

didasarkan atau ditentukan oleh batasan dan kelayakan suatu tes tergantung pada

waktu. Peserta tes dibatasi waktunya dalam sejauhmana item-item dalam tes itu mewakili

mengerjakan soal tes. Ciri–cirinya yaitu waktu secara representative kawasan (domain)

dibatasi dan tidak ada tingkat kesulitan. perilaku yang diukur.

Contoh dari speed test adalah tes Skolastik Tes mengukur perilaku. Artinya item-

atau tes potensi/kemampuan akademik. (b) item dalam tes menghendaki agar subjek

Kekuatan Tes (Power Test)Power Tes adalah menunjukkan apa yang diketahui atau apa yang

tes yang didasarkan sejauhmana kemampuan telah dipelajari subjek dengan cara menjawab

peserta tes mengerjakan soal tes. Peserta tes pertanyaan-pertanyaan atau mengerjakan

tidak dibatasi waktunya dalam mengerjakan tugas-tugas yang dikehendaki tes.

soal tes. Contohnya tes kognitif Tes dilihat dari segi kegunaan untuk

Computer Based Test (CBT);Tes biasanya mengukur peserta didik, Suharsimi Arikunto

cara pengukuran membedakan atas adanya 3 macam tes

dihubungkan dengan

terhadap penguasaan materi tertentu. Hasil dari menurut (azwar,2003:23) Tes diagnostik; Tes

tes salah satunya digunakan untuk membuat ini merupakan tes yang diberikan sesudah

keputusan sekolah atau guru terhadap satu pelajaran disajikan, tujuannya adalah

muridnya. Hasil tes dianggap sebagai bukti untuk mengetahui apakah peserta didik

yang valid dari individu ,yang dapat digunakan mendapat kesukaran pada bacaan tertentu

misalnya untuk kenaikan kelas, promosi dari pelajaran yang diberikan. Penyusunan

jabatan, dan kelulusan. Sebelum adanya tes tes

berbasis komputer, biasanya tes dilakukan dititikberatkan pada materi dimana peserta

untuk keperluan

ini

biasanya

secara tertulis dalam kertas (paper based test), didik melakukan banyak kesalahan atau

tetapi seiring dengan perkembangan teknologi banyak yang tidak bisa menjawab. Tes

informasi tes tertulis mulai bergeser digantikan diagnostik bersangkut paut dengan usaha

dengan tes berbasis komputer bahkan internet. membentuk siswa mengatasi kesulitan

Tes berbasis komputer (CBT) adalah belajarnya. Tes formatif; Tes ini merupakan

metode penyajian tes sedemikian hingga tes yang diberikan sesudah satu kegiatan belajar

respons peserta tes terhadap tes tersebut dapat mengumpulkan informasi tentang kekuatan

disimpan dan dianalisis secara elektronik. dan kelemahan seseorang dalam pelajaran

Dengan kata lain tes berbasis komputer tersebut. Berkaitan dengan umpan balik yang

dilaksanakan dengan menggunakan bantuan dimaksudkan untuk acuan memperbaiki proses

software komputer).

belajar mengajar. Ada empat bentuk model tes berbasis Tes sumatif adalah adalah tes yang

komputer dan internet yang dikembangkan diberikan sesudah jumlah kegiatan belajar

oleh ITC, yaitu (a) Terbuka (Open Mode); Tes diselesaikan dalam satu periode tertentu

dengan model terbuka seperti ini, dapat diikuti tujuannya adalah untuk mengumpulkan data/

siapapun dan tanpa pengawasan siapapun,

Kuriositas, Edisi VI, Vol. 2, Desember 2013

contohnya tes yang dapat diakses secara pelaksanaan tes berbasis komputer (CBT) terbuka di internet. Peserta tes tidak perlu

ada beberapa hal yang perlu diperhatikan melakukan registrasi peserta. (b)Terkontrol

diantaranya : ke-ontetikan peserta test, bank (Controlled Mode);Tes dengan model seperti

soal, sistem Computer-based test itu sendiri. ini, sama dengan tes dengan model terbuka

Proses otentikasi dalam tes berbasis yaitu tanpa pengawasan siapapun, tetapi

komputer (CBT), merupakan hal yang sangat peserta tes hanya yang sudah terdaftar, dengan

penting, untuk menentukan siapa saja yang cara memasukkan username dan password.

bisa mengikuti tes. Biasanya dalam proses ini, (c) Supervised Mode; Pada model ini terdapat

peserta tes akan diberikan sebuah username supervisor yang mengidentifikasi peserta tes

dan password, yang akan digunakan untuk untuk diotentikasi dan memvalidasi kondisi

login sehingga peserta dapat masuk dan pengambilan tes. Untuk tes di internet mode ini

mengikuti tes.

menuntut administrator tes untuk meloginkan Ketersediaan soal dalam jumlah yang cukup peserta dan mengkonfirmasi bahwa tes telah

banyak menjadi syarat selanjutnya dalam tes diselesaikan dengan benar pada akhir tes. (d)

berbasis komputer (CBT). Dari jumlah soal Managed Mode;Pada model ini biasanya tes

yang cukup banyak memungkinkan pemilihan dilaksanakan secara terpusat. Organisasi yang

soal secara random sehingga antar peserta mengatur proses tes dapat mendefinisikan

tes akan mendapatkan soal yang berbeda. dan meyakinkan unjuk kerja dan spesifikasi

Hal ini dilakukan untuk menghindari adanya peralatan di pusat tes.

kerjasama antara peserta test. Ada banyak keuntungan melakukan tes

Sistem Computer Based Test yang telah melalui komputer, diantaranya : mengijinkan

melalui uji kelayakan sangat diperlukan, melakukan tes di saat yang tepat bagi

mengingat pada umumnya tes berbasis peserta, mengurangi waktu untuk pekerjaan

komputer dilaksanakan dalam waktu yang penilaian tes dan membuat laporan tertulis,

sama. Sehingga dibutuhkan software dan menghilangkan pekerjaan logistik seperti

hardware yang mendukung, istilah dalam mendistribusikan, menyimpan dan

teknologi informasi yaitu client-server. Di menggunakan kertas.

tes

mana komputer peserta tes (client) terhubung Menurut Bjorner, Kosinski, dan Ware

dengan sistem tes berbasis komputer melalui dan Bjorner bahwa kombinasi CBT maupun

komputer server. Dalam hal ini jumlah client CAT dengan teori tes terutama TRB yang

jauh lebih banyak dari jumlah server, untuk memanfaatkan bank soal dapat memberikan

itulah dibutuhkan sistem tes berbasis komputer beberapa keuntungan antara lain, bank

yang layak pakai.

soal dapat diperluas secara berangsur- Pelaksanaan pengukuran di bidang angsur dengan menambahkan soal ataupun

pendidikan pada prinsipnya bertujuan untuk mengevaluasi butir soal yang ada, dan proses

mengetahui karakteristik suatu objek seperti respons peserta dapat dipantau/dimonitor

kemampuan, keberhasilan belajar, sikap, minat untuk memastikan mutu penilaian dan pola

atau ciri terpendam lainnya yang terdapat respons yang tidak konsisten dapat diselidiki.

pada peserta didik namun tidak kelihatan dan Pada dasarnya pelaksanaan Computer

tidak dapat diukur langsung. Untuk mengukur Based Test sama halnya dengan proses

berbagai karakteristik yang terpendam pembelajaran

itu sangat diperlukan alat ukur yang baik Computer Based Test atau tes berbasis

menggunakan

komputer.

sehingga mampu mengungkap secara benar komputer

ciri terpendam pada peserta didik. Alat ukur laboratorium komputer yang telah terkoneksi

yang baik adalah alat ukur yang memenuhi dengan jaringan dan sistemnya. Dalam

persyaratan dan mampu menghasilkan

Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer

informasi yang mengandung kesalahan sekecil Tingkat Kesukaran Butir (item difficulty mungkin.

index)

kesukaran butir soal butir berdasarkan teori tes klasik dan teori

Parameter yang digunakan pada analisis

Tingkat

adalah peluang menjawab benar suatu soal respons butir pada dasarnya adalah sama yaitu

pada kemampuan tertentu yang biasanya tingkat kesukaran, daya pembeda, tebakan

dinyatakan dalam bentuk indeks. Besarnya semu (pseudo guessing), dan kemampuan.

indeks kesukaran antara 0,00 sampai dengan Perbedaanya terletak pada formula, skala, dan

1,00 (Aiken : 66) (Linn,2000:55). satuan yang digunakan. Selain itu, analisis

0,00 1,00 butir suatu tes dengan teori tes klasik dan teori

Semakin besar indeks tingkat kesukaran respons butir pada prinsipnya juga dilakukan

maka semakin mudah soal itu. Berdasarkan untuk menaksir kemampuan seseorang

indeks tingkat kesukaran maka seharusnya yang diharapkan memiliki kesalahan sekecil

lebih tepat jika disebut tingkat kemudahan mungkin. Kesalahan pengukuran menurut teori

butir soal. Karena sudah menjadi kesepakatan tes klasik dinyatakan dengan kesalahan baku

para ahli maka sampai sekarang masih tetap pengukuran (Standar Error of Measurement/

menggunakan istilah tingkat kesukaran butir SEM) yang besarnya tergantung pada indeks

soal. Makna tingkat kesukaran (TK ) = 1, kehandalan tes. Untuk teori respons butir

artinya bahwa peserta tes menjawab benar kesalahan pengukuran dinyatakan dengan

soal itu, TK = 0, artinya tidak ada peserta tes kesalahan baku pengukuran (StandarError of

yang menjawab benar pada soal. Measurement/SEM) yang besarnya tergantung

Pada prinsipnya taraf kesukaran tes pada tingkat kemampuan seseorang dan fungsi

bentuk soal ini dihitung berdasarkan proporsi informasi tes. Adanya kesalahan yang melekat

jumlah peserta yang menjawab benar terhadap pada data hasil pengukuran ini disebabkan

jumlah total peserta tes.

oleh banyak faktor diantaranya adalah alat ukur itu sendiri, pelaksanan pengukuran,

objek pengukuran, dan teknik analisis yang P =

digunakan.

Keterangan :

Teori Tes Klasik

P = taraf sukar butir

B = jumlah peserta yang menjawab benar proses penelaahan butir soal melalui informasi

Analisis butir soal secara klasik adalah

(item score)

dari jawaban peserta didik guna meningkatkan T = jumlah total peserta tes mutu butir soal yang bersangkutan dengan menggunakan teori tes klasik. Kelebihan

Tingkat Kesukaran tes atau dapat dihitung analisis butir soal secara klasik adalah murah,

berdasarkan jumlah peserta yang menjawab dapat dilaksanakan seharihari dengan cepat

benar pada kelompok atas dan kelompok menggunakan komputer, murah, sederhana,

bawah yang dirumuskan sebagai berikut : familier dan dapat menggunakan data dari

beberapa peserta didik atau sampel kecil.

BA + BB

Aspek yang perlu diperhatikan dalam analisis N butir soal secara klasik adalah setiap butir soal

TK =

ditelaah dari segi: tingkat kesukaran butir,

Keterangan :

daya pembeda butir, dan penyebaran pilihan TK = Tingkat Kesukaran jawaban (untuk soal bentuk obyektif) atau

BA = jumlah jawaban benar pada kelompok frekuensi jawaban pada setiap pilihan jawaban.

atas (27 %)

Kuriositas, Edisi VI, Vol. 2, Desember 2013

BB = jumlah jawaban benar pada kelompok sejauh mana ketepatan dan kecermatan suatu bawah (27 %)

alat ukur dalam melakukan fungsi ukurnya. N = ukuran kelompok (jumlah peserta

Suatu alat tes dapat dikatakan mempunyai kelompok atas dan bawah)

validitas yang tinggi apabila alat tes Kriteria Indeks Kesulitan Butir Soal:

tersebut menjalankan fungsi ukurnya, atau • 0,00 - 0,30 = Soal kategori sukar

memberikan hasil ukur yang sesuai dengan • 0,31 - 0,70 = Soal kategori sedang

maksud dilakukannya pengukuran tersebut. • 0,71 - 1,00 = Soal kategori mudah

Sedangkan tes yang memiliki validitas rendah akan menghasilkan data yang tidak relevan

Daya pembeda butir soal tes mengacu dengan tujuan pengukuran. pada kemampuan butir dalam membedakan

tespada umumnya kemampuan antara peserta tes yang telah

Validitas

alat

digolongkan dalam tiga kategori, yaitu : (a) menguasai materi dan peserta tes yang tidak/

Validitas Konstruksi (Construct Validity) belum menguasai materi yang ditanyakan.

Validitas konstruk adalah validitas yang Daya pembeda dinyatakan dalam indeks.

menyangkut bangunan teoretik variabel Indeks daya pembeda berkisar antara -1,00

yang akan diukur. Sebuah tes dikatakan sampai dengan +1,00. Semakin tinggi

mempunyai validitas konstruk apabila butir- indeks daya pembeda soal artinya semakin

butir soal yang disusun dalam tes mengukur semakin mampu soal yang bersangkutan

setiap aspek berpikir dari sebuah variabel membedakan peserta tes /peserta tes yang

yang akan diukur melalui tes tersebut. telah memahami materi dengan peserta tes

Untuk menguji validitas konstruksi, dapat yang belum memahami materi. Semakin tinggi

digunakan pendapat dari para ahli (Judgmen daya pembeda suatu butir soal, maka semakin

Expert). Para ahli diminta pendapatnya kuat/baik butir soal tersebut. Jika indeks daya

tentang alat tes tersebut. (b) Validitas Isi pembeda bernilai negatif (DP < 0), berarti

(Content Validity);Validitas isi disebut juga lebih banyak kelompok bawah (peserta tes /

validitas kurikuler. Oleh karena itu, validitas peserta tes yang belum memahami materi)

ini erat kaitannya dengan materi yang akan menjawab benar soal tersebut dibandingkan

diukur dalam tes. Tentu saja materi yang dengan kelompok atas (peserta tes /peserta tes

dimaksud adalah materi yang terdapat dalam yang memahami materi).

kurikulum. Pengujian validitas isi dapat Dalam seleksi item, setiap item yang

dilakukan dengan membandingkan antara memiliki indeks lebih besar dari 0,50 dapat

isi alat tes dengan isi atau rancangan yang langsung dianggap sebagai item yang berdaya

telah ditetapkan. Validitas isi mencerminkan diskriminasi baik, item yang memiliki indeks

butir-butir dalam tes kurang dari 0,20 dapat langsung dibuang,

sejauh mana

mencerminkan materi yang disajikan dalam sedangkan item lainnya dapat ditelaah lebih

kurikulum. Sebuah tes dikatakan memiliki lanjut untuk direvisi (Crocker,1986:315).

validitas isi jika butir-butir tes bersifat Klasifikasi/Kriteria Daya Pembeda :

representatif terhadap isi materi dalam • 0,40 – 1,00 Soal diterima/baik

kurikulum tersebut. Pengujian validitas isi • 0,30 – 0,39 Soal diterima tetapi perlu

tidak melalui prosedur pengujian secara perbaikan

statistik, melainkan melalui analisis secara • 0,20 – 0,29 Soal diperbaiki

rasional. Pengetahuan terhadap kurikulum • 0,19 – 0,00 Soal tidak dipakai/dibuang

menjadi dasar berpijak yang penting untuk dapat melakukan analisis validitas isi. Cara

Validitas berasal dari kata validity (shahih yang praktis untuk melakukan analisis dalam bahasa arab) yang mempunyai arti

validitas isi adalah dengan melihat apakah

Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer

butir-butir tes telah disusun sesuai dengan blue-print (kisi-kisi) yang sudah dirancang X s = rata-rata skor siswa/peserta

sebelumnya. Blue print menjadi acuan.

tes yang menjawab salah

Sesuai dengan namanya, validitas ini SD t = simpangan baku skor total didasarkan pada kriteria tertentu. Dengan

p = proporsi jawaban benar terhadap demikian bukti adanya validitas ditunjukkan

semua jawaban siswa/peserta tes adanya hubungan korelasional skor pada

q =1-p

tes yang bersangkutan dengan skor suatu Selain validitas, alat ukur yang baik juga kriteria. harus reliabel. Oleh karena itu, alat ukur yang Pengujian validitas ini bersifat empirik, baik adalah alat ukur yang valid dan reliabel. artinya pengujian hanya dapat dilakukan Dalam kajian teoritis, reliabilitas adalah sejauh setelah mendapatkan data di lapangan. mana pengukuran dari suatu uji coba yang Apabila berdasarkan hasil analisis yang dilakukan tetap memiliki hasil yang sama dilakukan terhadap data hasil pengamatan meskipun dilakukan secara berulang-ulang di lapangan terbukti bahwa tes hasil belajar terhadap subjek dan dalam kondisi yang sama. dapat mengukur hasil belajar yang seharusnya Instrumen alat ukur dianggap bisa diandalkan diungkap secara tepat maka berarti alat tes apabila memberikan hasil yang konsisten tersebut mempunyai validitas empirik. Untuk untuk pengukuran yang sama dan tidak bisa keperluan pengujian jenis validitas ini dapat diandalkan bila pengukuran yang dilakukan dilakukan dengan dua cara yaitu dari segi secara berulang-ulang itu memberikan hasil kemampuannya dalam melakukan ramalan yang relatif tidak sama. Pengujian reliabilitas (predictive validity) serta daya ketepatan instrumen untuk memperoleh hasil yang bandingannya (concurent validity). reliabel bisa dilakukan dengan berbagai Perbedaan

metode statistik.

ramalan dengan validitas bandingan adalah Ada 3 cara yang dapat dilakukan untuk ketersediaan pembanding (kriterium). Pada menentukan reliabilitas skor tes, yaitu : validitas ramalan, kriterium diperoleh pada (a) Metode Tes Ulang (Test Retest Method) waktu yang akan datang setelah dilakukan diterapkan untuk menghindari

adanya tes yang akan diukur validitasnya tersebut. penyusunan dua seri tes. Teknisnya adalah Sedangkan pada validitas bandingan, kriterium sebuah tes yang sama diberikan dua kali sudah ada atau dapat diperoleh pada saat yang kepada responden yang sama dengan jarak sama dengan waktu untuk memperoleh data waktu tertentu. Jika hasil tes pertama tentang tes yang akan diukur validitasnya mempunyai kesejajaran dengan hasil tes yang tersebut tanpa harus menunggu masa yang kedua maka tes tersbut dikatakan reliable. akan datang. Uji validitas butis soal pilihan Oleh karena pengujian ini dilakukan terhadap ganda menggunakan korelasi point biserial sebuah tes yang diujicobakan dua kali maka yaitu korelasi antara data interval dan data sering disebut pula sebagai single-test-double- dikotomi. trial-method. Kelemahan metode ini adalah

jika jeda waktu tes terlalu singkat sedangkan

b X -X s r soal tes banyak mengungkapkan aspek pbis =

pq

SD t pengetahuan maka responden cenderung masih mengingat materi yang diteskan,

Keterangan : sehingga ada kemungkinan hasil tes yang

X b = rata-rata skor siswa/peserta kedua lebih baik daripada hasil tes pertama. tes yang menjawab benar

Sebaliknya jika jeda waktu tes pertama dengan

Kuriositas, Edisi VI, Vol. 2, Desember 2013

kedua terlalu lama dikhawatirkan banyak

Keterangan

faktor serta situasi dan kondisi sudah banyak k = jumlah butir soal berubah dan mempengaruhi hasil tes yang 2 SD

= varian skor total kedua. (b) Metode Tes Sejajar (Equivalent)

P = proporsi siswa yang menjawab benar mengharuskan adanya dua buah seri soal yang

q = 1 -p

mempunyai kesamaan tujuan, bobot soal, tingkat kesukaran, susunan soal, tetpai butir

Untuk analisis butir soal bisa digunakan –butir soalnya berbeda. Dengan kata lain, dua

analisis butir secara modern yaitu dengan buah tes yang digunakan harus sejajar (paralel,

penelaahan butir soal dengan menggunakan equivalen). Koefisien relibiabilitas diperoleh

Item Response Theory (IRT) atau teori jawaban dengan mengkorelasikan hasil tes pertama

peserta tes. Teori ini meruapakan teori yang dengan hasil tes kedua. Sudah tentu metode ini

menggunakan fungsi matematika untuk akan menambah kerepotan. Inilah kelemahan

menghubungkan antara peluang jawaban benar metode ini. Kelebihan dari metode ini adalah

suatu soal dengan kemampuan peserta tes. dapat memperbaiki kelemahan pada metode

Nama lain dari IRT adalah Latent Trait Theory pertama yaitu terhindarnya dari kondisi “siswa

(LTT) atau Characteristic Curve Theory (CCT). masih mengingat materi tes pertama”. Aspek

Untuk mengetahui kelebihan analisis ingatan dan hafalan pada pengerjaan tes

IRT, maka para evaluator perlu mengetahui pertama tidak terbawa pada saat mengerjakan

secara klasik. tes yang kedua.(c)

keterbatasan

analisis

Keterbatasan model pengukuran secara (Split – Half) ini dari kepraktisannya lebih

klasik bila dibandingkan dengan teori praktis dari pada dua metode sebelumnya.

jawaban butir soal adalah seperti berikut Metode ini hanya melakukan sekali tes

(Hambleton,1991:25) (1) Tingkat kemampuan kepada sekelompok subjek. Dengan demikian

dalam teori klasik adalah “true score”. Jika tidak perlu menunggu waktu maupun harus

tes sulit artinya tingkat kemampuan peserta mempunyai data dari tes sejenis untuk dapat

didik mudah. Jika tes mudah artinya tingkat menentukan

kemampuan peserta didik tinggi. (2) Tingkat diukur hasil pengukuran belahan pertama dan

reliabilitasnya.

Reliabilitas

kesukaran soal didefinisikan sebagai proporsi belahan kedua dari alat ukur yang sama.

peserta didik dalam grup yang menjawab benar Untuk menentukan reliabilitas alat ukur

soal. Mudah/sulitnya butir soal tergantung maka digunakan kriteria Kaplan (Kaplan &

pada kemampuan peserta didik yang dites Sacuzzo, 2005), yaitu:

dan kemampuan tes yang diberikan. (3) Daya R ≥ 0,70 = alat ukur dapat diandalkan

pembeda, reliabilitas, dan validitas soal/tes (kurang reliabel)

didefinisikan berdasarkan grup peserta didik. R < 0,70 = alat ukur kurang dapat

Asal mula IRT adalah kombinasi suatu diandalkan (reliabel)

versi hukum phi-gamma dengan suatu Untuk mengetahui koefisien reliabilitas tes

analisis faktor butir soal (item factor analysis) soal bentuk pilihan ganda digunakan rumus

kemudian bernama Teori Trait Laten (Laten Kuder Richadson 20 (KR-20) seperti berikut

Trait Theory), kemudian sekarang secara ini.

umum dikenal IRT.

Rumus Kuder Richardson 20 (KR – 20). Munculnya IRT didasari dari kelemahan analisis secara klasik, yaitu : Abilitas dalam

k  ∑ pq 

teori klasik adalah true score. Artinya jika tes

KR sulit artinya abilitas peserta tes rendah. Dan − 20 =  1 −

k-1  SD   jika tes mudah artinya abilitas tinggi. Mudah/

sulitnya butir soal tergantung pada kemampuan

Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer

peserta tes yang dites dan kemampuan tes yang Hasil soal, kuis dan tes dibuat/disusun diberikan. Daya pembeda, reliabilitas, dan

dengan perangkat lunak ini dapat disimpan validitas tes/soal didefinisikan berdasarkan

dalam format Flash yang dapat berdiri sendiri kelompok peserta tes. Sedangkan kelebihan

(stand alone) di website. Dengan Easy Quiz, IRT adalah : IRT tidak berdasarkan kelompok

pengguna dapat membuat dan menyusun dependent, Skor peserta tes dideskripsikan

berbagai bentuk dan level soal yang berbeda, bukan tes dependent, Model ini menekankan

yaitu bentuk soal benar/salah (true/false), pada tingkat butir soal bukan tes, IRT tidak

pilihan ganda (multiple choices), pengisian memerlukan pararel tes untuk menentukan

kata ( fill in the blank), penjodohan (matching), reliabilitas tes dan IRT suatu model yang

Kuis dengan area gambar dan lain-lain. Bahkan memberikan suatu pengukuran ketepatan

dengan Easy Quiz dapat pula disisipkan untuk setiap skor reliabilitas.

berbagai gambar (images ) maupun file Flash Tujuan utama IRT adalah memberikan

(Flash movie) untuk menunjang pemahaman kesamaan antara statistik soal dan estimasi

peserta didik dalam pengerjaaan soal. kemampuan. Ada tiga keuntungan IRT, yaitu

Beberapa fasilitas yang tersedia dalam Easy : (1) asumsi pada populasi tingkat kesukaran,

Quiz selain dari sisi kemudahan penggunaan daya pembeda merupakan independen, (2)

(user friendly) soal-soal yang dihasilkan, asumsi pada populasi tingkat kesukaran, daya

diantaranya yaitu (1). Fasilitas umpan balik pembeda merupakan independen sampel

(feed-back) berdasar atas respon/jawaban dari yang menggambarkan untuk tujuan kalibrasi

peserta tes, (2). Fasilitas yang menampilkan soal, (3) statistik yang dipergunakan untuk

hasil tes/score dan langkah-langkah yang akan menghitung tingkat kemampuan peserta tes

diikuti peserta tes berdasar respon/ jawaban diperkirakan dapat terlaksana.

yang dimasukkan, (3). Fasilitas mengubah Ada empat macam model IRT, yaitu

teks dan bahasa pada tombol dan label sesuai (1) Model satu parameter (model Rasch),

dengan keinginan pembuat soal, (4). Fasilitas yaitu untuk menganalisis data yang hanya

memasukkan suara dan warna pada soal sesuai menitikberatkan pada parameter tingkat

dengan keinginan pembuat soal, dan (5). kesukaran soal. (2) Model dua parameter,

Fasilitas hyperlink; yaitu mengirim hasil/score yaitu untuk menganalisis data yang hanya

tes ke email atau LMS. (6) Fasilitas pembuatan menitikberatkan pada parameter tingkat

soal random, (7) Fasilitas keamanan dengan kesukaran dan daya pembeda soal. (3)Model

account/password, (8) Fasilitas tiga parameter, yaitu untuk menganalisis

User

pengaturan tampilan yang dapat di modifikasi, data yang menitikberatkan pada parameter

dll.

tingkat kesukaran soal, daya pembeda soal dan Kriteria yang digunakan peneliti untuk menebak. (4)Model empat parameter, yaitu

mengembangkan tes diagnostik berbasis untuk menganalisis data yang menitikberatkan

komputer ini mengacu pada kriteria pada parameter tingkat kesukaran soal, daya

kualitas suatu material yang dikemukakan beda soal, menebak dan penyebab lain.

oleh Nieveen. Menurut Nieveen (1999) Easy Quiz merupakan perangkat lunak

suatu material dikatakan berkualitas jika untuk pembuatan soal, kuis atau tes secara

memenuhi aspek-aspek kualitas produk online (berbasis web). Penggunaan Easy

antara lain: kevalidan (validity), kepraktisan Quiz dalam pembuatan soal tersebut sangat

(practicality), dan keefektifan (effectiveness). familiar/user friendly, sehingga sangat mudah

(Kevalidan (validity) Menurut (Nieven,1999) digunakan dan tidak memerlukan kemampuan

aspek validitas dari material dilihat dari bahasa pemrograman yang sulit untuk

apakah berbagai komponen dari material itu mengoperasikannya.

terkait secara konsisten antara satu dengan

Kuriositas, Edisi VI, Vol. 2, Desember 2013

yang lainnya. Sedangkan Arikunto (2008) beberapa mahasiswa. Tujuan dari ujicoba ini menjelaskan bahwa suatu tes dikatakan valid

untu melihat kualitas butir soal seperti tingkat jika tes tersebut dapat mengukur apa yang

kesukaran, validitas dan reliabilitas. Analisis hendak diukur dengan tepat. Validitas tes

butir soal dalam penelitian ini menggunakan ditinjau dari berbagai segi yaitu: validitas

software ITEMAN.

materi, validitas konstruksi (isi), dan validitas Tes yang sudah dikalibrasi selanjutnya bahasa. Berdasarkan definisi kevalidan dari

dapat digunakan dalam skala yang terbatas. para ahli, maka kriteria kevalidan tes yang

Tes pada penelitian ini digunakan untuk mid dikembangkan pada penelitian ini meliputi:

semester pada mata kuliah methodology of validitas materi yaitu kesesuaian soal dengan

research pada program pendidikan bahasa indikator yang telah ditentukan, validitas

inggris semester 5 di STAIN Parepare. Tes ini konstruksi yaitu sistematika

menggunakan tiga paket soal, yaitu paket soal soal dan pilihan jawaban, validitas bahasa

penulisan

1, paket soal 2 dan paket soal 3. yaitu penggunaan bahasa yang sesuai ejaan

Jika mengacu pada kualitas dan bobot yang yang disempurnakan (EYD) pada penulisan

sama pada ketiga paket soal tersebut, maka soal. (Kepraktisan (practicality), (Menurut

diduga tidak ada perbedaan hasil tes ketiga Nieveen,1999)

kelompok peserta tes dengan ketiga paket soal material dilihat dari kemudahan material

dapat digunakan. Keefektifan (effectiveness).

ini merupakan Maka model tes yang dikembangkan peneliti

Metode

penelitian

metode penelitian pengembangan dan dikatakan efektif dilihat dari komponen-

Penelitian (research and development), yaitu komponen antara lain: Kesesuaian hasil tes

pengembangan ujian berbasis komputer pada dengan tujuan tes serta respons dosen dan

mata kuliah methodology of research. Ada tiga respons mahapeserta tes mengenai keefektifan

tahap dalam penelitian ini, yaitu : Perakitan tes.

Soal Pada Sistem Komputer, Kalibrasi Tes dan ITEMAN merupakan program komputer

Pemanfaatan Pada Skala terbatas yang digunakan untuk menganalisis butir soal secara klasik. Program ini termasuk satu paket

Pengembangan Model dan Prosedur

Pengembangan

program dalam MicroCAT yang dikembangkan

oleh Assessment Systems Corporation dimulai Hasil yang diharapkan dari pengembangan tahun 1982 dan mengalami revisi pada tahun

model ini adalah suatu program computer based 1984, 1986, 1988, dan 1993; mulai dari versi

test (CBT) yang diimplementasikan pada ujian

2.00 sampai dengan versi 3.50. Assessment mata kuliah methodology of research. Model ini Systems Corporation beralamat di 23

kemudian diujicobakan dan dikalibrasi dengan University Avenue, Suite 400, St Paul, Minesota

menggunakan analisis IRT. 55114, United States of America.

Prosedur pengembangan dalam penelitian Pengembangan tes berbasis komputer

ini terdiri atas beberapa tahap, yaitu (1) (CBT) hakikatnya memindahkan tes yang

Tahap identifikasi bidang standar kompetensi biasanya menggunakan paper and pencil

yang akan diujikan pada ujian mata kuliah ke dalam sistem komputer dengan bantuan

methodology of research. Selain itu perlu software yang ada. Untu lebih praktisnya, dapat

ditentukan terlebih dahulu indikator-indikator digunakan software yang sudah ada seperti

pada tiap bidang kompetensi yang akan diujikan software easy quiz. Setelah tes dirakit dalam

. (2) Tahap menyusun soal dan bank soal sesuai sistem komputer maka langkah selanjutnya

dengan indikator bidang kompetensi yang akan melakukan kalibrasi atau standarisasi tes

diujikan. Setelah penentuan indikator pada dengan melakukan ujicoba terbatas kepada

tiap bidang kompetensi yang akan diujikan,

Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer

kemudian dibuatkan kisi-kisi soal. Setiap lebih tinggi bila dibandingkan dengan diolah indikator terdiri dari 2 soal dengan kualitas

secara manual atau menggunakan kalkulator/ yang sama. Penyusunan soal diperlukan

tangan. Program komputer yang digunakan sebelum diaplikasikan ke dalam sistem

untuk menganalisis data modelnya bermacam- komputer. (3) Tahap membuat program

macam tergantung tujuan dan maksud analisis CBT Setelah dipersiapkan soal, maka langkah

yang diperlukan.

selanjutnya adalah pembuatan program CBT Program yang sudah dikenal secara umum dengan menggunakan software easy quiz. (4)

adalah EXCEL, SPSS (Statitistical Program for Tahap Implementasi CBT Tahap akhir dari

Social Science), atau program khusus seperti pengembangan model ini adalah kalibrasi yang

ITEMAN (analisis secara kiasik), RASCAL, dilakukan pada peserta tes tingkat akhir yang

ASCAL, BILOG (analisis secara item respon akan mengikuti ujian. kalibrasi ini diperlukan

teori atau IRT), FACETS (analisis model Rasch untuk melihat kualitas soal, apakah soal

untuk data kualitatif.

tersebut sudah standar atau belum. Untuk Untuk penelitian ini analisis data analisis standar digunakan analisis klasik atau

digunakan program ITEMAN.Tahap awal analisis modern (IRT).

dalam mengoperasikan ITEMAN adalah Populasi pada penelitian ini adalah seluruh

membuat “file data” (control tile) yang berisi mahasiswa yang mengikuti perkuliahan

lima komponen utama. Baris pertama adalah methodology of research porgram pendidikan

baris pengontrol yang mendeskripsikan data, bahasa inggris STAIN Parepare Semester

Baris kedua adalah daftar kunci jawaban setiap lima. Adapun sampling frame penelitian ini

butir soal, Baris ketiga adalah daftar jumlah adalah 36 mahasiswa pada pemanfaatan skala

option untuk setiap butir soal,Baris keempat terbatas, yaitu mid semester mata kuliah

adalah daftar butir soal yang hendak dianalisis methodology of research. Teknik pengambilan

(jika butir yang akan dianalisis diberi tanda Y sampel menggunakan multistage random.

(yes), jika tidak diikutkan dalam analisis diberi Penelitian ini merupakan penelitian

tanda N (no) dan Baris kelima dan seterusnya pengembangan untuk menghasilkan model

adalah data siswa dan pilihan jawaban siswa. ujian pada mata kuliah methodology of

Cara menggunakan program ini, pertama research. Data yang diperoleh dalam

data diketik di DOS atau Windows. Cara penelitian ini adalah yang terkait dengan :

termudah adalah menggunakan program Data Hasil Kalibrasi dan Data pemanfaatan

Windows yaitu dengan mengetik data di pada skala terbatas (mid semester mata kuliah

tempat Notepad.

methodology of research Sedangkan untuk data yang terkait dengan Untuk data yang terkait dengan kalibrasi

pemanfaatan skala terbatas, yaitu pada mid butir soal pada ujicoba intrumen. Data yang

semester mata kuliah methodology of research. terekam (data dokumentasi), kemudian

Analisisnya menggunakan uji perbedaan one dianalisis dengan analisis modern, yaitu Item

way anova antara ketiga kelompok untuk Response Theory (IRT). Untuk mempermudah

masing-masing kelompok dengan paket soal analisis data menggunakan komputer. Analisis

yang berbeda tetapi dari segi kualitas dan bobot butir soal dengan komputer maksudnya adalah

soal sama. Adapun hipotesis statistik penelitian penelaahan butir soal secara kuantitatif yang

pada ketiga kelompok tersebut adalah : penghitungannya menggunakan bantuan

H 0 :µ 1 =µ 2 =µ 3

program komputer. Analisis data dengan

H 1 : Ada salah satu tanda yang tidak sama menggunakan program komputer adalah sangat

Untuk mempermudah dalam menganalisis tepat. Karena tingkat keakuratan hitungan

data, penulis memanfaatkan software SPSS dengan menggunakan program komputer

Versi 22.0.

Kuriositas, Edisi VI, Vol. 2, Desember 2013

P embahasan

ITEMAN untuk analisis butir soal. Berikut analisis butir soal untuk tiap-tiap paket soal :

Dalam pembuatan tes dengan perangkat

a. Paket Soal 1

lunak (software) bisa digunakan software yang sudah ada seperti wondershare quiz creator,

Untuk analisis butir soal digunakan tingkat test creator dan easy creator. Software

kesukaran, Validitas dan reliabilitas butir tersebut memiliki kelebihan dan kekurangnnya

soal dengan menggunakan software ITEMAN masing-masing. Untuk penelitian ini peneliti

dalam analisis.

menggunakan software easy quiz. Selain Berdasarkan hasil analisis IRT (ITEMAN), mudah untuk digunakan, hasil test program

maka dapat disimpulkan tingkat kesukaran software easy quiz langsung dibackup dalam

( Difficulty Item Index) sebagai berikut : word. Sehingga hasilnya dengan mudah dapat

Tabel 1

dianalisis. Rekapitulasi Tingkat Kesukaran Butir Soal Langkah dalam pembuatan tes dengan

Paket Soal 1

software esy quiz adalah sebagai berikut: Pembuatan materi soal yang akan diteskan

Butir Soal

Keterangan

disesuaikan dengan silabus mata kuliah 1 Sedang methodology or research yang pada pertemuan

2 Sedang

3 pertama kuliah sudah diberitahukan kepada Sedang 4 Sedang

mahasiswa. Butir soal yang diberikan 5 Sukar

sebanyak 20 soal dengan paket soal sebanyak 6 Sedang

3 paket. Paket soal ini setara dalam indikator 7 Sedang dan kompetensi dasarnya, begitupun secara

8 Sedang validitas konseptual terutama dalam kontennya

9 Sedang setara antar paket soal. Penggunaan 3 paket

10 Sedang soal untuk menghindari kebocoran soal.

11 Sedang 12 Sedang

Soal yang sudah dirakit dimasukkan dalam 13 Sedang software easy quiz yang sudah tersedia. 14 Sukar

Setelah menginput dan mensetting maka 15 Sedang langkah selanjutnya adalah mengklik set run.

16 Sedang Kualitas tes, termasuk bentuk tes pilihan

17 Sedang ganda (dikotomi) dapat diungkap melalui

18 Sedang analisis butir soal secara teoretis (telaah) dan

19 Mudah

20 analisis empiris. Analisis butir soal secara Sedang kualitatif dilakukan untuk menilai butir soal

Tabel 1 di atas menujukkan bahwa tingkat ditinjau dari aspek materi,konstruksi, dan kesukaran paket soal 1(85%) dalam kategori bahasa. Analisis secara kuantitatif menekankan

sedang.

pada analisiskarakteristik butir soal secara Analisis kualitas butir paket soal 1 empiris. Karakteristik butir soal antara lain selanjutnya adalah analisis validitas atau meliputi indeks kesukaran (p), daya beda (d), kriteria baik tidaknya butir soal. Menurut dan distribusi respons. Ebel dan Frisbie dalam Essentials of Analisis

EducationalMeasurement Kriteria baik menggunakan pendekatan tes klasik (Clasical tidaknya butir soal adalah bila korelasi point Test Theory atau CTT) maupun pendekatan tes

biserial: >0.40 = butir soal sangat baik; 0.30 modern (Item Respons Theory atau IRT). Pada -0.39 = soal baik, tetapi perlu perbaikan; penelitian ini, penulis menggunakan sofware

0.20 - 0.29 = soal dengan beberapa catatan,

Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer

biasanyadiperlukan perbaikan; < 0. 19 = soal

Tabel 3

jelek, dibuang, atau diperbaiki melalui revisi. Kesimpulan Tingkat Kesukaran Butir Soal Berikut kesimpulan kriteria baik tidaknya butir

Paket Soal 2

soal pada paket soal 1 :

Butir Soal

Keterangan

Tabel 2 1 Mudah 2 Sedang

Rekapitulasi Kriteria Baik Tidaknya Butir Soal 3 Sedang

Paket Soal 1 4 Sedang

Butir Soal

Kualitas Butir

5 Mudah

1 sangat baik

6 Mudah

2 sangat baik

7 Sedang

3 sangat baik

8 Sedang

4 sangat baik

9 Sedang

5 sangat baik

10 Mudah

6 sangat baik

10 sangat baik

15 Sedang

11 sangat baik

13 sangat baik

18 Mudah

14 sangat baik

16 Baik 17 Baik

Tabel 3 di atas menujukkan bahwa tingkat

18 Baik

kesukaran soal paket 2(55%) dalam kategori

19 Baik sedang. 20 Baik

Berikut ini adalah kesimpulan kriteria baik tidaknya butir soal paket soal 2 :

Berdasarkan kriteria Ebel dan Frisbie, maka butir soal pada paket soal 1 yang didrop

Tabel 4

atau tidak dipergunakan yaitu butir soal Rekapitulasi Kriteria Baik Tidaknya Butir Soal 7,8,9,12 dan 15. Sehingga hanya 15 butir soal

Paket Soal 2

yang memenuhi standar atau baku.

Butir Soal

Kualitas Butir

Selanjutnya analisis kalibrasi adalah 1 sangat baik reliabilitas tes secara keseluruhan. Analisis ini

2 Baik bertujuan untuk melihat secara keseluruhan

3 Dibuang tentang kualitas tes.

4 sangat baik Dari hasil analisis diperoleh reliabilitas

5 sangat baik

6 tes untuk paket soal 1 sebesar 0,756. Menurut sangat baik 7 Dibuang

Feldt dan Brehmman mengatakan bahwa suatu 8 Baik instrumen yang memiliki koefisien reliabilitas r 9 sangat baik

≥0,7 sudah dikatakan reliabel. tes untuk paket 10 sangat baik

soal 1 bisa dipercaya penggunaannya. 11 sangat baik Berdasarkan hasil analisis IRT (ITEMAN),

12 sangat baik maka dapat disimpulkan tingkat kesukaran

13 Dibuang ( Difficulty Item Index)sebagai berikut :

14 Baik 15 Baik

Kuriositas, Edisi VI, Vol. 2, Desember 2013

16 Baik

Tabel 6

17 sangat baik

Rekapitulasi Kriteria Baik Tidaknya Butir Soal

18 sangat baik

Paket Soal 2

19 sangat baik

20 Dibuang

Butir Soal

Kualitas Butir

1 Dibuang 2 Baik

Butir soal pada paket soal 2 yang didrop 3 Sangat Baik

atau tidak dipergunakan yaitu butir soal 4 Dibuang 3,7,13dan 20. Sehingga hanya 16 butir soal

5 Dibuang yang memenuhi standar atau baku.

6 sangat baik Dari hasil analisis diperoleh reliabilitas

7 sangat baik tes untuk paket soal 2 sebesar 0,763. Artinya

8 sangat baik tes untuk Paket soal 2 reliabel atau konsisten,

9 Dibuang 10 sangat baik

sehingga penggunaannya bisa dipercaya. 11 Baik Berdasarkan hasil analisis IRT (ITEMAN), 12 sangat baik

maka dapat disimpulkan tingkat kesukaran 13 sangat baik ( Difficulty Item Index)sebagai berikut :

14 sangat baik 15 sangat baik

Tabel 5 16 Dibuang

Kesimpulan Tingkat Kesukaran Butir Soal 17 sangat baik Paket Soal 3

18 Dibuang Butir Soal

2 Sukar 3 Sedang

Butir soal pada paket soal 3 yang didrop

4 Sedang

atau tidak dipergunakan yaitu butir soal

5 Mudah

1,4,5,9,18,19 dan 20. Sehingga hanya 12 butir

6 Mudah

soal yang memenuhi standar atau baku.

7 Sedang

Dari hasil analisis diperoleh reliabilitas tes

8 Sedang

untuk paket soal 3 sebesar 0,584. Artinya tes

9 Sukar

10 Sukar

untuk paket soal 3 kurang reliabel atau kurang

11 Sukar

konsisten, sehingga penggunaannya kurang

12 Sukar

bisa dipercaya.

13 Sedang

Setelah semua paket soal dianalisis

14 Sukar

kualitasnya, maka soal dipilah kembali

15 Sedang

disesuaikan dengan indikatornya dan kualitas

16 Sedang

soalnya disamakan atau relatif disamakan

17 Sedang 18 Mudah

antar paket soal yang disediakan. Setalah

19 Sukar

dikalibrasi maka butir soal yang dipergunakan

adalah 15 soal untuk penelitian ini. Tes Mid Semester diberikan tiga paket soal Tabel 5 di atas menujukkan bahwa tingkat

20 Sedang

dengan kualitas yang sama pada kelompok kesukaran soal paket 3 (45 %) dalam kategori

rombongan belajar mahasiswa mata kuliah sedang.

methodology of research.

Berikut ini adalah kesimpulan kriteria baik Deskripsi hasil mid semester pada mata tidaknya butir soal paket soal 3 :

kuliah methodology of research untuk tiga

Sri Mulianah, Wahyu Hidayat – Pengembangan Tes Berbasis Computer