Pengembangan Tes Pilihan Ganda

5. Pengembangan Tes Pilihan Ganda

Evaluasi teknik tes lebih dominan digunakan oleh guru untuk mengukur hasil belajar siswa dalam evaluasi hasil b elajar di seko lah. Tes pada umumnya digunakan untuk menilai dan mengukur hasil belajar siswa, terutama hasil belajar kognitif berkenaan d engan penguasaan bahan pengajaran sesuai dengan tujuan pendidikan dan pengajaran. Di seko lah seringkali tes buatan gu ru yang disebut teacher made test digunakan untu k menilai hasil b elajar siswa. Tes yang dibuat oleh gu ru terutama menilai kemajuan siswa dalam pencapaian tujuan-tujuan pembelajaran yang dirumuskan dalam indikator p encapaian ko mpetensi. Indikator merupakan kompetensi dasar secara spesifik yang dapat d ijadikan ukuran u ntuk mengetahui ketercapaian hasil pembelajaran (Cartono, 2006: 155).

Secara umum ada beb erapa prinsip dasar yang p erlu dicermati dalam menyusu n tes hasil belajar agar tes terseb ut dapat mengukur tujuan pemb elajaran atau mengukur kemampuan dan keterampilan peserta didik yang diharap kan, setelah mereka menyelesaikan suatu unit pengajaran tertentu (Anas Su dijono, 2005: 97).

(1) tes hasil belajar harus dapat mengukur secara jelas hasil belajar (lea rning outcomes ) yang telah d itetapkan sesuai d engan tujuan instruksional; (2) butir-butir soal tes harus merupakan sampel yang representatif dari populasi bahan pelajaran yang telah diajarkan; (3) bentuk so al yang dikeluarkan dalam tes hasil belajar harus dibuat bervariasi; (4) tes hasil belajar harus did esain sesuai dengan kegunaannya u ntuk memperoleh hasil yang diinginkan; (5) tes hasil belajar harus memiliki reliabilitas yang dap at diandalkan.

Tes hasil belajar d isamping harus dapat dijadikan alat pengukur keberhasilan b elajar siswa, juga haru s dapat dijadikan alat untuk memperoleh info rmasi yang berguna untuk memperb aiki cara belajar siswa dan cara mengajar guru itu sendiri. Dalam penilaian, untuk mendapatkan informasi yang akurat dibutuhkan tes yang handal. Tes tersebut harus memiliki b ukti-bukti validitas, reliab ilitas d an unsur-unsur tes yang berkualitas baik. Sehingga dip erlukan suatu pengemb angan yang m ampu menghasilkan tes yang memenuhi semua kriteria tersebut.

Djemari Mardapi (2008: 88) merumuskan pegembangan suatu tes harus melalui langkah-langkah sebagai berikut, “(1) menyusu n spesifikasi tes; (2) menulis soal tes; (3) menelaah so al tes; (4) melakukan uji co ba tes; (5) menganalisis butir soal; (6) memperbaiki tes; (7) merakit tes; (8) melaksanakan tes; (9) menafsirkan hasil tes”. Kedelapan langkah pengembangan tes terseb ut merupakan suatu langkah hirarki yang harus dilakukan secara berurutan. Ole h karenanya dibutu hkan kesabaran dan kecermatan dalam mengembangkan tes.

Pen yusunan sp esifikasi instrumen mencakup, “(1) menetapkan tujuan; (2) menyusun kisi-kisi; (3) memilih bentuk instrumen; d an (4) menentukan panjang instrumen” (Cartono, 2006: 158). Ditinjau dari tujuannya, ada empat macam tes yang banyak digunakan di sekolah yaitu tes p enemp atan, tes diagnostik, tes fo rmatif d an tes sumatif. Pengujian berbasis kemampuan dasar pada umu mnya menggu nakan tes diagnostik, formatif d an sumatif (Djemari Mardapi, 2008: 68).

Kisi-kisi merup akan tabel matrik berisi spesifikasi item tes yang akan dibuat sebagai acuan b agi penulis. Dengan adanya kisi-kisi maka siapapun yang menulis item tes akan menghasilkan item yang isi d an tingkat kesulitannya relatif sama. Ada emp at langkah dalam mengembangkan kisi-kisi tes yaitu: “(1) menulis tujuan umum pelajaran; (2) membuat d aftar poko k b ahasan dan sub po kok bahasan yang akan diujikan; (3) menentu kan indikator; (4) menentukan jumlah soal tiap poko k bahasan dan subpoko k bahasan” (Djemari Mardapi, 2008: 91).

Pemilihan b entu k tes yang tepat ditentu kan oleh tu juan tes, jumla h peserta tes, waktu yang tersedia untuk memeriksa lemb ar jawaban, caku pan materi tes dan karakteristik mata pelajaran yang d iujikan (Djemari M ardap i, 2008: 91). Apabila jumlah peserta tes banyak, waktu singkat dan cakup an materi yang diu jikan banyak maka tes objektif pilihan ganda sangat tepat digunakan. Kelebihan tes objektif pilihan adalah objektivitas penskoran tinggi karena sistem penskorannya jelas.

Panjang tes ditentukan oleh waktu yang tersedia dengan memp erhatika n bahan dan tingkat kelelahan peserta tes. Ujian tertulis b iasanya menggunakan waktu u jian 90 hingga 1 50 menit. Khusus untu k tes baku penentuan waktu ujian Panjang tes ditentukan oleh waktu yang tersedia dengan memp erhatika n bahan dan tingkat kelelahan peserta tes. Ujian tertulis b iasanya menggunakan waktu u jian 90 hingga 1 50 menit. Khusus untu k tes baku penentuan waktu ujian

Penulisan item tes merupakan la ngkah menjabarkan indikator menjadi pertanyaan-pertanyaan yang karakteristiknya sesuai perincian pada kisi-kisi yang telah dibuat. Langkah penulisan item tes ini harus dilakukan secara hati-hati karena akan mempengaruhi ku alitas item tes. Ku alitas tes keseluruhan sangat terpengaru h o leh tingkat keb aikan masing-masing item tes yang menyu sunnya. Pertanyaa n ditulis sejelas mungkin sehingga jawaban yang diharapkan jelas pula (Djemari Mard ap i, 2008: 93).

Menelaah item tes merup akan tahapan yang dilakukan setelah item selesai disusun. Penelaahan diperlu kan dengan asu msi mu ngkin saja terdapat kesalahan p ada item tes, baik dari segi materi, konstruk mau pu n bahasanya. Telaah item tes sebaiknya dilakukan oleh orang lain karena seringka li kekurangan dari segi tata bahasa dan substansi tidak terlihat oleh pembuat tes. Akan leb ih baik la gi jika telaah dilakukan oleh sejumlah o rang yang terdiri dari para ahli yang secara b ersama d alam tim menelaah atau mengoreksi item tes. Telaah sep erti ini disebut juga telaah kualitatif (Djemari Mardapi, 2008: 95).

Uji coba tes dilakukan seb elum item tes digunakan dalam tes sesungguhnya. Tes yang secara teori su dah b aik harus diuji pu la secara empirik agar didapatkan kepastian baik atau tidakn ya tes tersebut. Uji coba ini dapat digunakan sebagai sarana memp ero leh data empirik tentang tingkat kebaikan item tes yang telah disusu n. Data hasil uji cob a akan dip akai pada tahap selanju tnya dalam pengembanga n tes yaitu menganalisis item tes. Berdasarkan hasil analisis item tes akan diperoleh data empirik yang menunjukkan tingkat kebaikan item tes yaitu dengan melihat tingkat reliabilitas, tingkat kesukaran, daya pembeda dan seb againya. Telaah pada tahap ini dilakukan secara empirik sehingga disebut juga telaah kuantitatif (Djemari Mardapi, 2008: 95).

Item tes yang b elum memenuhi standar yang ditetapkan akan direvisi pada tahap memp erbaiki tes. Sedangkan item tes yang telah memenuhi standar akan langsung digunakan pada tahap selanjutnya. Item tes yang lolos pada tahap Item tes yang b elum memenuhi standar yang ditetapkan akan direvisi pada tahap memp erbaiki tes. Sedangkan item tes yang telah memenuhi standar akan langsung digunakan pada tahap selanjutnya. Item tes yang lolos pada tahap

Berdasarkan uraian tahapan pengemb angan tes di atas diketahui b ahwa item tes akan d itelaah dengan dua cara yaitu secara kualitatif d an kuantitatif.

a. Telaah kualitatif

Elvin Yusliana Ekawati dan Surantoro (2010: 182) menyatakan, “telaah kualitatif adalah analisis yang dilakukan oleh beberapa o rang ahli (expert) seperti do sen pembimbing seb elum tes diu jicob akan atau digunakan”. Dengan d emikian telaah kualitatif d ilaku kan dengan mem inta p ertimbanga n para p akar. Hasil telaah secara kualitatif su dah mewakili validitas isi suatu item soal (Elvin Yusliana Ekawati dan S urantoro, 2010 : 187 ).

Telaah kualitatif dilakukan berd asarkan pemikiran yang rasio nal. Walaupun sub jektif, namun yang terlibat merup akan seorang ahli pada bid ang

yang d iu kur dan dilakukan dalam su atu fo rum diskusi sehingga hasiln ya dap at dipertanggu ngjawabkan (Djem ari M ardapi, 2008: 18). Pop ham (2008: 52) mengatakan,“Even though th ere are different ways of determining wheth er test based inferences a re apt to be va lid, th e overriding fo cu s is on the accuracy of

an a ssessmen t ba sed in ference” . Hal yang terpenting d alam menentukan valid tidaknya item tes yang d idasarkan pada pendapat ahli adalah keakuratan kesimpulan yang diambil oleh ahli tersebut. Telaah kualitatif yang dilakuka n oleh ahli, meliputi telaah terhadap aspek konstruksi, materi dan bahasa.

1) Asp ek Materi Aspek materi berkaitan dengan substansi keilmuan yang ditanyakan serta tingkat berpikir yang terlibat. Aspek materi yang ditelaah antara lain: “(1 ) so al sesuai indikator (menuntut tes tertulis untuk bentuk pilihan gand a); (2) materi yang ditanyakan sesu ai dengan kompetensi (urgensi, relevansi, kontinuitas, keterpakaian se hari-hari tinggi); (3 ) pilihan 1) Asp ek Materi Aspek materi berkaitan dengan substansi keilmuan yang ditanyakan serta tingkat berpikir yang terlibat. Aspek materi yang ditelaah antara lain: “(1 ) so al sesuai indikator (menuntut tes tertulis untuk bentuk pilihan gand a); (2) materi yang ditanyakan sesu ai dengan kompetensi (urgensi, relevansi, kontinuitas, keterpakaian se hari-hari tinggi); (3 ) pilihan

2) Asp ek Ko nstru ksi Aspek konstruksi berkaitan dengan p enulisan soal. Depdiknas (2009 : 5), dari segi konstruksi penulisan so al p ilihan gand a harus memperhatikan b eberapa hal berikut ini:

(1) pokok soal dirumuskan dengan singkat, jelas dan tegas; (2) rumusan pokok soal d an pilihan jawaban merupakan p ernyataan yang dip erlukan saja; (3 ) pokok soal tid ak memberi petunjuk kunci jawaban; (4) pokok soal beb as d ari p ernyataan yang bersifat negatif gand a; (5) pilihan jawaban ho mogen dan logis ditinjau dari segi materi; (6) gambar, grafik, tabel, diagram dan sejenisnya yang terd apat pada soal harus jelas dan berfu ngsi; (7 ) panjang pilihan jawaban harus relatif sama; (8) pilihan jawab an tidak menggunakan pernyataan “semu a jawaban di atas benar/salah” d an sejenisnya; (9) pilihan jawaban yang berbentuk angka atau waktu disusun berdasarkan urutan b esar kecilnya nilai angka atau kronologisnya; (10) butir soal tid ak bergantung pada jawaban soal sebelumnya.

3) Asp ek Bahasa Aspek bahasa berkaitan dengan hal yang ditanyakan. Penulisan soal p ilihan ganda harus memp erhatikan aspek b ahasa seb agai berikut: “(1) menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia; (2) menggunakan bahasa yang komu nikatif; (3) tidak menggunakan bahasa yang berlaku setempat; (4) pilihan jawaban tidak mengulang kata/kelompok kata yang sama kecuali merupakan satu kesatuan p engertia n” (Depdiknas, 2009 : 6 ).

b. Telaah Kuantitatif

Telaah kuantitatif dapat dilakukan menggunakan d ua p endekatan yaitu pendekatan secara klasik dan modern. “Analisis b utir soal secara klasik adalah proses penelaahan butir soal melalui informasi dari jawaban peserta didik guna meningkatkan mutu butir soal yang bersangkutan dengan menggu nakan teo ri tes klasik” (Depdiknas, 2008: 11). Analisis secara klasik dila kukan dengan asu msi, “(1) tidak ada korelasi antara skor yang sebenarnya d an skor kesalahan; (2) sepanja ng tid ak terjadi kesalahan Telaah kuantitatif dapat dilakukan menggunakan d ua p endekatan yaitu pendekatan secara klasik dan modern. “Analisis b utir soal secara klasik adalah proses penelaahan butir soal melalui informasi dari jawaban peserta didik guna meningkatkan mutu butir soal yang bersangkutan dengan menggu nakan teo ri tes klasik” (Depdiknas, 2008: 11). Analisis secara klasik dila kukan dengan asu msi, “(1) tidak ada korelasi antara skor yang sebenarnya d an skor kesalahan; (2) sepanja ng tid ak terjadi kesalahan

a) Reliabilitas Reliabilitas secara umum dikenal seb agai ke handalan. Reliabilitas berasal dari kata rely yang artinya p ercaya dan reliable yang artin ya dapat dip ercaya. Linn dan Grounlund (2000: 107) menyatakan, “Reliability refers to the consistency of mea surement; that is, how consistent tests scores o r oth er assessment resu lt are from one measuremen t to ano ther ”. Thorndike dan Hagen men yatakan, “Reliabilitas berhubungan dengan aku rasi instrumen d alam mengukur apa yang d iukur, kecermatan hasil ukur dan seb erapa akurat seandainya dilakukan pengukuran u lang” (Purwanto, 2009: 154). Arends (1998: 199 ) menyatakan, “A test is considered reliable wh en it produces dependable, consistent scores for person who ta ke it more than once over period of time”. Su atu tes jika memb erikan hasil pengukuran yang relatif tetap secara konsisten meski digu nakan secara berulang maka dikatakan tes tersebut reliable.

Sebagai alat u kur, tes harus memenuhi persyaratan reliabilitas. Tes yang tidak reliabel tidak dapat d igunakan untuk mengu kur kemampuan belajar peserta d idik karena tid ak mengumpulkan informasi apapu n. Cruickshank (1999: 257) menyatakan, “A test tha t la cks reliability produces sco res that do not accurately reflect students understanding or ability due to some erro r in th e test itself”. Apab ila alat ukur yang digunakan tidak reliabel maka data hasil p engukurann ya tidak dapat d ipercaya karena adanya kemungkinan kesalahan pada tes itu sendiri.

Reliabilitas suatu item tes dap at ditentukan dengan berbagai metode. Purwanto (2009: 156) menyebu tkan terd apat lima metode untuk mencari reliab ilitas suatu tes yaitu metod e Flanagan, Ru lon, Kuder Richardson, Hoyt dan Alpha Cronbach. Metode yang biasa nya digunakan untuk menghitung reliabilitas ad alah yang dikemukakan ole h Kuder dan Richardson (rumu s KR-20) sebagai b eriku t:

KR-20 : reliabilitas tes secara keseluruhan

: proporsi subjek yang menjawab benar

: proporsi subjek yang menjawab salah (q = 1- p) : jumlah hasil perkalian antara p dan q

: banyaknya item

: standar d eviasi dari tes Keputusan suatu tes dinyatakan reliabel atau tidak didasarkan pad a koefisien reliabilitas tes tersebut. Koefisien reliabilitas harus diusahakan setinggi mungkin. Namun koefisien yang tid ak tinggi dapat pula din yatakan cu kup reliabel dalam pengukuran tertentu asalkan tidak d igunakan sebagai dasar pengambilan keputusan yang bersifat individual.

b) Taraf Kesukaran Taraf kesukaran adalah “angka yang menunjukkan proporsi siswa yang menjawab b etul su atu soal” (Slameto, 2001: 218). Saiffudin Azwar (2002 : 134 ) menyatakan, “Indeks kesukaran adalah ratio penjawab item dengan benar dan b anyakn ya penjawab item”. Untuk menentukan taraf ke sukaran dari tiap item tes dap at digunakan ru mus sebagai b eriku t:

TK : taraf kesukaran n 1 : banyaknya peserta tes yang menjawab benar

N : ju mlah peserta tes yang menjawab

Lewis R. Aiken men yatakan, “Tingkat kesukaran soal ad alah peluang untuk menjawab b enar suatu soal pada tingkat kemamp uan tertentu yang bia san ya d inyatakan dalam indeks” (Depdiknas, 2008: 11 ). Ind eks taraf kesukaran ini pada umu mnya d inyatakan dalam bentuk p roporsi yang besarnya b erkisar dari 0,00 hingga 1,00. Semakin besar ind eks taraf kesukaran yang d ip ero leh dari hasil hitu ngan, berarti semakin mudah so al tersebut.

Item tes hasil belajar dinyatakan sebagai item yang baik apabila item tersebut tid ak terlalu sukar dan tidak terlalu mud ah, dengan kata lain taraf kesukaran item tersebut adalah sed ang (Anas Sudijono , 2005: 370). Item tes yang cenderung mudah lebih tepat digunakan sebagai tes diagnostik. Item tes yang cenderung su lit lebih sesuai digunakan pada tes seleksi. Sed angkan item tes yang termasu k dalam interval sedang cocok digunakan untu k mengukur hasil belajar siswa (Elvin Yusliana Ekawati dan Surantoro, 2010: 185).

c) Daya Pemb eda Daya pemb eda item tes adalah kemampuan suatu item tes dapat

membedakan antara siswa yang tidak atau kurang atau belum menguasai materi yang ditanyakan (Depdiknas, 2008 : 13). Elvin Yusliana Ekawati dan Surantoro (2010: 185) mengartikan daya pembeda sebagai berikut, “Daya beda soal ad alah kemampuan suatu soal untu k membedakan antara siswa yang mempunyai kemampuan tinggi dengan siswa yang mempunyai kemampuan rendah”. Berd asarkan pengertian tersebut d aya pembeda dapat digunakan untuk mengelompokkan siswa berdasarkan kemampuan dan pemahamannya terhad ap materi.

Penentuan daya pembeda item tes dapat d ilakukan dengan indeks korelasi, diskriminasi, d an keselarasan item. Ada empat macam teknik korelasi ya ng biasa digu nakan untuk menghitu ng d aya pembeda, yaitu (1) teknik point b iserial; (2) teknik biserial; (3) teknik phi; d an (4) teknik tetrachorik ( Elvin Yusliana Ekawati dan Su rantoro, 2010 :185). Teknik yang Penentuan daya pembeda item tes dapat d ilakukan dengan indeks korelasi, diskriminasi, d an keselarasan item. Ada empat macam teknik korelasi ya ng biasa digu nakan untuk menghitu ng d aya pembeda, yaitu (1) teknik point b iserial; (2) teknik biserial; (3) teknik phi; d an (4) teknik tetrachorik ( Elvin Yusliana Ekawati dan Su rantoro, 2010 :185). Teknik yang

M P : rata-rata sko r kriteria yang menjawab benar M T : rata-rata sko r kriteria yang menjawab salah S T : simpagan b aku sko r kriteria total p : propo rsi subjek yang menjawab benar terhadap semua subjek q :1–p

Besarnya daya pembeda berkisar antara -1 sampai 1. Item tes yang daya bedanya negatif menunju kkan terbaliknya kualitas peserta tes. Tanda negatif menunjukkan bahwa item tes tersebut menyesatkan karena kelompok bawah menjawab benar sedangkan kelompok atas menjawab salah ( Elvin Yusliana Ekawati dan S urantoro, 2010:186) .

d) Efektivita s Pengeco h Purwanto (2009: 108) menyatakan, “Pengecoh adalah pilihan jawaban yang bukan merupakan kunci jawaban”. Pengecoh diberika n dengan tujuan untuk menyesatkan peserta d idik ag ar tidak memilih jawaban yang benar. Kualitas suatu item tes dapat dilihat d ari efektivitas pengeco hn ya. Efektivitas pengecoh diartikan sebagai seberapa baik pilihan yang salah dapat mengeco h peserta tes yang memang tidak mengetahui d) Efektivita s Pengeco h Purwanto (2009: 108) menyatakan, “Pengecoh adalah pilihan jawaban yang bukan merupakan kunci jawaban”. Pengecoh diberika n dengan tujuan untuk menyesatkan peserta d idik ag ar tidak memilih jawaban yang benar. Kualitas suatu item tes dapat dilihat d ari efektivitas pengeco hn ya. Efektivitas pengecoh diartikan sebagai seberapa baik pilihan yang salah dapat mengeco h peserta tes yang memang tidak mengetahui

Pengeco h d ikatakan berfungsi efektif apab ila p aling tidak d ipilih oleh sejumlah peserta tes. Pengecoh yang tidak dipilih sama sekali berarti pengeco h tersebut tidak berfungsi karena terlalu mencolok. Pengeco h yang demikian tid ak akan efektif digu nakan (Purwanto, 2009 : 108 ). Saiffudin Azwar (2007: 143) menambahkan, “Distraktor yang tidak ada pemilihnya mu ngkin sekali disebabkan karena isinya yang tidak relevan atau kalimat yang tidak tersusu n dengan baik sehingga tampak jelas sebagai pilihan yang salah”. Apabila pengecoh dip ilih secara merata maka termasu k pengecoh yang sangat baik. Sed angkan apabila pengeco h lebih banyak dipilih oleh kelompok atas dibanding kelompok bawah maka pengecoh terseb ut menyesatkan. Suharsimi Ariku nto (2010: 206) menyatakan, “Suatu distraktor dap at dikata kan berfungsi baik jika paling sedikit dipilih oleh 5 % peserta tes”. Artin ya jika pengecoh dipilih kurang dari 5% peserta tes maka pengeco h tersebu t tidak berfungsi dengan baik.

Tes hasil belajar d isamping harus dapat dijadikan alat pengukur keberhasilan b elajar siswa, juga haru s dapat dijadikan alat untuk memperoleh info rmasi yang berguna untuk memperb aiki cara belajar siswa dan cara mengajar guru itu sendiri. Dalam penilaian, untuk mendapatkan informasi yang akurat dibutuhkan tes yang hand al, di mana tes tersebut harus memenuhi unsur-unsur tes yang berkualitas baik. Zaman (2010: 61) menyatakan, ”Tests p lay important role in giving feedback sta keholders in educa tion on variou s aspects therefore quality of tests has always been ho t issue since long; consequ ently literature is full of co mprehensive d iscu ssion on validity, reliability and chara cteristics of quality assessment progra ms, so that to bring impro vement in feedback” . Tes d engan kualitas yang baik akan menghasilkan u mpan balik ya ng akurat sehingga dap at membawa perubahan pembelajaran ke arah yang leb ih baik.

Unsu r-unsur tes ya ng b aik meliputi validitas, reliabilitas, daya pembeda, taraf kesukaran dan efektivitas pengecoh. Sayangnya tidak semua guru merupakan spesialis d alam bidang penilaian sehingga tidak banyak dari mereka melakukan analisis terhadap instrumen p enilaian yang digunakannya. Guru lebih sering menggunakan pengalam annya dalam menyusu n tes darip ada mengaplikasikan penilaian standar. Crisp dan Palmer (2007: 89) mengatakan:

Academics are generally not specialists in the research discipline of assessment, and they do not routinely analyze their assessments using the accepted standards a sso ciated with validity and reliability. Academics tend to rely on the accumulated discipline-based history a bout wh at constitutes an acceptable assessment standard, ra th er than attempt to apply quantitative principles fro m another discip line, especia lly if there is uncertainty about ho w to apply these princip les appropriately.

Analisis item tes merupakan hal yang jarang dilakukan di Indonesia. Penyebab tidak dilaku kannya analisis item tes o leh p ara pendidik dilatarb elakangi berbagai macam hal. Beb an mengajar 24 jam serta adanya tugas tambahan dira sa terlalu berat bagi pend idik. “Ketentuan mengajar guru yang ditetapkan minimal 24 jam tatap muka ju stru mendorong berkembangnya guru yang tidak profesional” (Kompas, 2012: 12). Widodo (2010 : 59 ) mengu ngkapkan lima hal yang melatarbelakangi tidak dilakukannya ana lisis item tes di Indonesia. Kelima hal tersebut adalah,

Pertama, tidak ada tuntutan sehingga dapat d iab aikan; ked ua, tidak memiliki waktu luang karena jam mengajarnya penuh, sebab menganalisis b utir soal memerlukan waktu ekstra yang banyak; ketiga, belum mengetahui manfaat dari menganalisis butir so al-so al tes, karena soal yang hamp ir sama untuk siswa tahu n lalu hasilnya b agus tetapi untu k siswa tahun sekarang kurang memuaskan; keempat, tid ak mengetahui cara-cara meganalisis b utir so al- soal tes; dan kelima, bila soal yang telah d ianalisis dan digunakan kembali untuk tes tidak bermanfaat karena sud ah menjadi kebiasaan bahwa soal tes dib agikan kepad a siswa dan siswa belajar dari so al tersebut.

Zakaria menyatakan, “Salah satu penyebab peringkat anak Indonesia rendah adalah kemampuan guru dalam membuat tes masih rendah, sehingga pengukuran tidak akurat” (Suwarto , 2009: 42). Kemampuan p endidik dalam membu at item tes sangat dip erlukan, dengan demikian item tes tersebut dapat digunakan mengukur kemampuan p eserta d idik dengan akurat. Namun hingga saat ini item tes yang ada di sekolah masih merupakan item p oo l, yaitu item tes Zakaria menyatakan, “Salah satu penyebab peringkat anak Indonesia rendah adalah kemampuan guru dalam membuat tes masih rendah, sehingga pengukuran tidak akurat” (Suwarto , 2009: 42). Kemampuan p endidik dalam membu at item tes sangat dip erlukan, dengan demikian item tes tersebut dapat digunakan mengukur kemampuan p eserta d idik dengan akurat. Namun hingga saat ini item tes yang ada di sekolah masih merupakan item p oo l, yaitu item tes