EVALUASI ANALISIS ITEM

BAB I
PENDAHULUAN
A. Latar Belakang
Dalam dunia pendidikan, penilaian merupakan bagian yang tidak terpisahkan dari proses
belajar mengajar. Sistem penilaian yang baik akan mendorong guru menggunakan strategi
mengajar yang lebih baik dan memotivasi anak untuk belajar lebih giat. Penilaian biasanya
dimulai dengan kegiatan pengukuran. Pengukuran (measurement) merupakan cabang ilmu
statistika terapan yang bertujuan untuk membangun dasar-dasar pengembangan tes yang lebih
baik sehingga menghasilkan tes yang berfungsi secara optimal, valid, dan reliabel.
Proses belajar mengajar dilaksanakan tidak hanya untuk kesenangan atau bersifat mekanis
saja tetapi mempunyai misi atau tujuan bersama. Dalam usaha untuk mencapai misi dan tujuan
itu perlu diketahui apakah usaha yang dilakukan sudah sesuai dengan tujuan? Untuk mengetahui
apakah tujuan pendidikan sudah tercapai perlu diadakan tes. Sebuah tes yang dapat baik sebagai
alat pengukur harus dianalisis terlebih dahulu. Dalam menganalisis butir soal dalam tes harus
memperhatikan daya serap, tingkat kesukaran, daya beda, fungsi pengecoh, validitas dan
reabilitas. Hal tersebut dilakukan agar tes yang diberikan kepada siswa sesuai dengan daya serap
siswa, tingkat kesukarannya, dan soal yang diberikan pun harus valid. Sehingga, tujuan dari
pembelajaran dapat tercapai.
B. Rumusan Masalah
Rumusan masalah dalam makalah ini, yaitu:
a. Apakah yang dimaksud dengan analisis butir soal ?

b. apa saja jenis analisis butir soal ?
c. Bagaimana cara mengaplikasikan analisis butir soal secara kualitatif dan kuantitatif?
d. Apa manfaat dari menganalisis butir soal?

C. Tujuan
Tujuan dari penyusunan makalah ini, yaitu:
a. Untuk mengetahui apa yang dimaksud dengan analisis butir soal ?
b. Untuk mengetahui jenis analisis butir soal ?
c. Untuk mengaplikasikan analisis butir soal secara kualitatif dan kuantitatif?
d. Apa manfaat dari menganalisis butir soal?

BAB II
PEMBAHASAN
A. Pengertian Analisis Item
Setelah perumusan indikator perilaku jelas, maka penulisan item baru dapat dilakukan.
Setiap item mengacu pada satu indikator perilaku tertentu (Azwar, 2009). Tes yang baik
adalah tes yang reliabel dan valid. Jika demikian maka item-item dalam tes itu pun harus
baik. Item yang baik adalah item yang reliabel dan valid, di mana item dapat berfungsi
membedakan kemampuan antar individu penempuh tes (Cohen & Swerdlik, 2005). Untuk
mengetahui karakteristik item yang baik tersebut maka dilakukanlah proses analisis terhadap

item.
Analisis item merupakan prosedur statistika yang digunakan untuk membantu membuat
keputusan tentang item-item mana yang baik, mana item yang perlu direvisi dan mana item
yang harus dibuang (Cohen & Swerdlik, 2005). Azwar (2009) juga berpendapat serupa di
mana menurutnya analisis item merupakan proses pengujian parameter item (daya beda dan
tingkat kesulitan item) guna mengetahui apakah item memenuhi persyaratan psikometris
untuk disertakan sebagai bagian dari tes. Lebih lanjut lagi, Azwar (2009) mengatakan bahwa
hasil analisis item menjadi dasar dalam seleksi item, di mana item-item yang tidak memenuhi
syarat psikometris akan disingkirkan atau direvisi terlebih dahulu.
Teknik untuk melakukan analisis item dapat dilakukan secara kualitatif dan kuantitatif.
Secara garis besar analisis kualitatif dilakukan terkait dengan validitas isi dan prosedur
penulisan yang baik, sedangkan analisis kuantitatif terkait dengan pengukuran tingkat
kesulitan item dan daya beda (Anastasi & Urbina, 1997). Analisis secara kualitatif dilakukan
untuk mengetahui apakah item telah mewakili domain atau ranah perilaku sesuai dengan
konstruk yang hendak diukur dan apakah dari segi prosedur penulisan, item tersebut sudah
dibuat dengan baik (Anastasi & Urbina, 1997). Untuk melihat apakah item telah ditulis
sesuai dengan indikator perilaku yang hendak diungkap sebaiknya melibatkan pakar yang
memang ahli dalam masalah atribut yang hendak diukur (Azwar, 2009). Sedangkan, terkait
dengan penulisan item, Azwar (2009) memaparkan beberapa kaidah penulisan item yang


baik, diantaranya menggunakan kalimat yang sederhana, jelas dan mudah dimengerti oleh
responden, namun tetap harus mengikuti tata tulis dan bahasa yang baku, hindari penafsiran
ganda pada kalimat item, penulisan item mengacu pada indikator perilaku atau pada
komponen atribut, oleh karena itu sebaiknya jangan menulis item yang secara langsung
menanyakan atribut yang hendak diungkap, perhatikan indikator perilaku yang hendak
diungkap sehingga stimulus dan pilihan jawaban tetap relevan dengan tujuan pengukuran, isi
item tidak boleh mengandung social desirability atau item yang sesuai dengan keinginan
sosial pada umumnya atau dianggap baik dari sudut pandang norma sosial karena item yang
mengandung social desirability akan cenderung disetujui oleh semua orang karena orang
akan berpikir normatif dan bukan karena sesuai dengan keadaan dirinya, hindari stereotip
jawaban, maka sebaiknya sebagian dari item-item dibuat dalam arah favorable dan sebagian
lagi unfavorable.
Setelah tahap analisis kualitatif selesai, yaitu termasuk setelah terkumpul jumlah item
yang dinilai cukup, di mana menurut Cohen dan Swerdlik (2005) sebaiknya jumlah item
yang dibuat sebanyak 2 kali lipat item akhir yang direncakaan, sedangkan menurut Azwar
(2009) jumlahnya biasanya tiga kali lipat dari jumlah item akhir yang direncanakan, maka
setelah itu item-item tersebut disusun dalam format semi-final dan siap dilakukan uji coba
secara empiris kepada subjek tes (Azwar, 2009). Setelah dilakukan pengujian empiris (fieldtested) maka hasil uji coba terebut dianalisis dengan teknik analisis kuantitatif, seperti yang
telah dikemukakan sebelumnya, dengan melihat bagaimana tingkat kesulitan item dan daya
bedanya, serta daya pengecoh jika item tersebut dalam format pilihan ganda.

Pengertian tingkat kesulitan item terkait dengan persentase (proporsi) orang/subjek yang
menjawab benar pada item tertentu. Semakin besar persentasenya maka berarti semakin
banyak orang yang bisa menjawab atau semakin mudahnya item tersebut (Anastasi &
Urbina, 1997).
Teknik selanjutnya, selain analisis tingkat kesulitan item, adalah analisis terhadap daya
beda item. Menurut Anastasi dan Urbina (1997), daya beda item mengacu pada sejauh mana
item dapat membedakan dengan tepat antara peserta tes yang memiliki kemampuan dengan
yang tidak terhadap perilaku yang menjadi objek pengukuran. Teknik analisis ini dapat

dilakukan dengan perhitungan indeks diskriminasi dengan menggunakan metode kelompokkelompok ekstrem dan indeks korelasi (Crocker & Algina, 1986).
Teknik analisis item berikutnya berlaku pada item yang bersifat pilihan ganda. Menurut
Cohen dan Swerdlik (2005), meski tidak menyebutkan istilah ‘Daya Pengecoh’ namun
analisis alternatif pilihan jawaban yang dimaksudkan serupa dengan makna analisis daya
pengecoh ini digunakan untuk melihat apakah alternatif pilihan jawaban yang salah bekerja
dengan baik pada subjek yang berada pada upper group dan lower group. Teknik ini
dilakukan dengan cara membandingkan berapa subjek pada upper group dengan lower group
yang memilih masing-masing alternatif jawaban pada item tertentu. Alternatif jawaban terdiri
dari satu jawaban yang benar dan yang dimaksud dengan jawaban pengecoh adalah beberapa
pilihan jawaban lainnya yang salah. Pada prinsipnya, untuk mengetahui apakah pengecoh
berfungsi baik pada suatu item atau tidak adalah dengan melihat apakah jawaban yang benar

(kunci jawaban) banyak dipilih oleh kelompok subjek yang tergolong dalam upper group
dibanding lower group (Cohen & Swerdlik, 2005).
Seperti yang telah dikemukakan sebelumnya, tes yang baik adalah tes yang reliabel dan
valid, dan dengan begitu sama pula artinya bahwa item tes yang baik pun yang reliabel dan
valid (Cohen & Swerdlik, 2005). Baik-tidaknya suatu tes tidak dapat mengacu pada berapa
jumlah item-item yang ada di dalamnya. Meski banyaknya item dalam tes dapat saja
berpotensi meningkatkan reliabilitas hasil pengukuran (Azwar, 2009), namun tidak dapat
dipastikan berapa batas jumlah item yang dapat dikatakan membuat tes menjadi tes yang
baik.
Selain itu, meski tes yang dikatakan baik adalah tes yang reliabel dan valid, namun tes
yang baik tidak cukup jika hanya reliabel dan valid saja, tergantung pula dari kualitas itemitem yang membangunnya, apakah item-item tersebut memiliki fungsi yang sama dengan
fungsi pengukuran yaitu dapat membedakan subjek berkemampuan tinggi dengan yang
berkemampuan rendah. Dengan kata lain, tidak cukup hanya dikatakan bahwa semakin
banyak item pada suatu tes maka tes dapat semakin baik, yang lebih tepat adalah semakin
banyak item-item tes yang baik (secara kualitatif dan kuantitatif seperti yang telah
dipaparkan pada sub-bab sebelumnya) maka semakin baik tes tersebut (Lababa, 2008). Bisa

saja apabila tes dengan jumlah item yang banyak (atau bahkan jumlahnya sedikit) tetapi hasil
analisis terhadap item-item tersebut menunjukkan bahwa banyak item-item yang tidak
berfungsi dengan baik sesuai dengan tujuan pengukuran, maka tes tersebut tidak dapat

dikatakan sebagai tes yang baik.
Adaptasi tes sama dengan mengadaptasi pada sejumlah item yang membangun tes
tersebut. Ada beberapa hal yang perlu diperhatikan ketika ingin melakukan adaptasi tes.
International Test Commision (ITC) menyarankan langkah-langkah yang dianggap cukup
baik untuk dapat menjadi panduan peneliti atau pengembang tes ketika melakukan adaptasi
pada sebuah tes (Hambleton & Patsula, 1999).
Tahapan itu antara lain:


Yakinkan bahwa terdapat konstruk yang setara dengan konstruk yang ingin diukur pada
budaya dan sesuai bahasa kelompok subjek target tes. Untuk itu perlu dilakukan
konsultasi atau diskusi dengan psikolog atau pakar dalam konstruk yang dimaksud.



Putuskan apakah mengadaptasi tes yang sudah ada atau mengembangkan tes baru.
Perhatikan tujuan mengadaptasi tes, keuntungan dan kerugian jika mengadaptasi
dibanding membuat tes baru.




Pilihlah pakar alih bahasa yang baik atau kredibel. Sebaiknya libatkan lebih dari seorang
pakar ahli bahasa. Selain itu libatkan pula pakar yang ahli dalam konstruk yang akan
diukur.



Menerjemahkan dan mengadaptasi tes. Gunakan metode forward-backward translation
pada item-item tes, dimana setelah menerjemahkan bahasa asli tes ke dalam bahasa target
adaptasi, lalu terjemahkan kembali bahasa target adaptasi tersebut ke bahasa asli tes
untuk melihat apakah makna dari maksud item tersebut tidak berbeda.



Ulas kembali tes yang telah diadaptasi dan lakukan revisi bila perlu.



Lakukan uji coba terhadap tes yang telah diadaptasi tersebut. Upaya melakukan uji coba
dengan pilot test perlu dilakukan terhadap sejumlah kecil orang-orang yang memiliki

karakteristik serupa dengan subjek yang sebenarnya.



Lakukan field-test dengan melibatkan subjek yang lebih besar.



Pilih desain statistika yang tepat untuk mengkaitkan skor hasil tes yang telah diadaptasi
dengan tes aslinya.



Jika pengembang tes menekankan pada perbandingan antar-budaya, yakinkan bahwa
bahasa pada tes asli dan tes adaptasi adalah setara.



Lakukan uji validitas pada tes yang diadaptasi.




Catat seluruh proses konstruksi dalam mengadaptasi hingga pengujian validitas (tahap 1
hingga 10) dan buatlah manual/ pedoman administrasi tes yang telah diadaptasi tersebut.



Latihlah para pengguna tes secara langsung, meskipun telah disediakan manual
administrasi tes.



Lakukan pemantauan dan evaluasi terhadap tes yang diadaptasi.

B. Teknis Analisis Item
Teknik untuk melakukan analisis item dapat dilakukan secara kualitatif dan kuantitatif.
Secara garis besar analisis kualitatif dilakukan terkait dengan validitas isi dan prosedur
penulisan yang baik, sedangkan analisis kuantitatif terkait dengan pengukuran tingkat
kesulitan item dan daya beda (Anastasi & Urbina, 1997).
1. Teknik Analisis Secara Kualitatif

Ada beberapa teknik yang dapat digunakan untuk menganalisis butir soal secara
kualitatif, diantaranya adalah teknik moderator dan teknik panel. Teknik moderator
merupakan teknik berdiskusi yang di dalamnya terdapat satu orang sebagai penengah.
Berdasarkan teknik ini, setiap butir soal didiskusikan secara bersama-sama dengan beberapa

ahli seperti guru yang mengajarkan materi, ahli materi, penyusun atau pengembang
kurikulum, ahli penilaian, ahli bahasa, berlatar belakang psikologi.
Teknik ini sangat baik karena setiap butir soal dilihat secara bersama-sama berdasarkan
kaidah penulisannya. Di samping itu, para penelaah dipersilakan mengomentari berdasarkan
kompetensinya masing-masing. Setiap komentar atau masukan dari peserta diskusi dicatat.
Setiap butir soal dapat dituntaskan secara bersama-sama, perbaikannya seperti apa. Namun,
kelemahan teknik ini memiliki kelemahan karena memerlukan waktu lama untuk
rnendiskusikan setiap satu butir soal.
Teknik berikutnya adalah Teknik Panel yakni suatu teknik menelaah butir soal
berdasarkan kaidah penulisan butir soal. Kaidah itu diantaranya materi, konstruksi, bahasa
atau budaya, kebenaran kunci jawaban atau pedoman penskoran. Caranya beberapa penelaah
diberikan butir-butir soal yang akan ditelaah, format penelaahan, dan pedoman penilaian atau
penelaahan. Pada tahap awal, semua orang yang terlibat dalam kegiatan penelaahan
disamakan persepsinya, kemudian mereka berkerja sendiri-sendiri di tempat berbeda. Para
penelaah dipersilakan memperbaiki langsung pada teks soal dan memberikan komentarnya

serta memberikan nilai pada setiap butir soal dengan kriteria: soal baik, perlu diperbaiki, atau
diganti.
Dalam menganalisis butir soal secara kualitatif, penggunaan format penelaahan soal akan
sangat membantu dan mempermudah prosedur pelaksanaannya. Format penelaahan soal
digunakan sebagai dasar untuk menganalisis setiap butir soal. Format penelaahan soal yang
dimaksud adalah format penelaahan butir soal: uraian, pilihan ganda, instrumen non-tes.
Berikut disajikan keempat format penelaahan butir soal.
a. Format Penelaahan Butir Soal Bentuk Uraian
Mata pelajaran :
Kelas/semester :
Penelaah :

No

Aspek yang ditelaah

A

Materi

1

Soal sesuai dengan indikator (menuntut tes tertulis untuk

Nomor soal
1

2

bentuk Uraian)
2

Batasan pertanyaan dan jawaban yang diharapkan sudah
sesuai

3

Materi yang ditanyakan sesuai dengan kompetensi (urgensi,
relevansi, kontinuitas, keterpakaian sehari-hari tinggi)

4

Isi materi yang ditanyakan sesuai dengan jenjang jenis
sekolah atau tingkat kelas

B

Konstruksi

1

Menggunakan kata tanya atau perintah yang menuntut
jawaban uraian

2

Ada petunjuk yang jelas tentang cara mengerjakan soal

3

Ada pedoman penskorannya

4

Tabel, gambar, grafik, peta, atau
yang sejenisnya disajikan dengan jelas dan terbaca

C

Bahasa/Budaya

1

Rumusan kalimat komunikatif

2

Butir soal menggunakan bahasa Indonesia yang baku

3

Tidak menggunakan kata/ungkapan yang menimbulkan
penafsiran ganda atau salah pengertian

4

Tidak menggunakan bahasa yang berlaku setempat/tabu

Keterangan: Berilah tanda (V) bila tidak sesuai dengan aspek yang ditelaah!
b. Format Penelaahan Butir Soal Bentuk Pilihan Ganda

3

4

5



Mata pelajaran :
Kelas/semester :
Penelaah :

No

Aspek yang ditelaah

Nomor soal

A

Materi

1

1

Soal sesuai dengan indikator (menuntut tes tertulis untuk
bentuk pilihan ganda)

2

Materi yang ditanyakan sesuai dengan kompetensi (urgensi,
relevansi, kontinuitas, keterpakaian sehari-hari tinggi)

3

Pilihan jawaban homogen dan logis

4

Hanya ada satu jawaban

B

Konstruksi

1

Pokok soal dirumuskan dengan singkat, jelas, dan tegas

2

Rumusan pokok soal dan pilihan jawaban merupakan
pernyataan yang diperlukan saja

3

Pokok soal tidak memberi petunjuk kunci jawaban

4

Pokok soal bebas dan pernyataan yang bersifat negatif ganda

5

Pilihan jawaban homogen dan logis ditinjau dari segi materi

6

Gambar, grafik, tabel, diagram, atau sejenisnya jelas dan
berfungsi

7

Panjang pilihan jawaban relatif sama

8

Pilihan jawaban tidak menggunakan pernyataan "semua
jawaban di atas salah/benar" dan sejenisnya

9

Pilihan jawaban yang berbentuk angka/waktu disusun
berdasarkan urutan besar kecilnya angka atau kronologisnya

2

3

4

5



10

Butir soal tidak bergantung pada jawaban soal sebelumnya

C

Bahasa/Budaya

1

Menggunakan bahasa yang sesuai dengan kaidah bahasa
Indonesia

2

Menggunakan bahasa yang komunikatif

3

Tidak menggunakan bahasa yang berlaku setempat/tabu

4

Pilihan jawaban tidak mengulang kata/kelompok kata yang
sama, kecuali merupakan satu kesatuan pengertian

Keterangan: Berilah tanda (V) bila tidak sesuai dengan aspek yang ditelaah!
c. Format Penelaahan untuk Instrumen Non-Tes
Mata pelajaran :
Kelas/semester :
Penelaah:

No

Aspek yang ditelaah

Nomor soal

A

Materi

1

1

Pernyataan/soal sudah sesuai dengan rumusan indikator
dalam kisi-kisi

2

Aspek yang diukur pada setiap pernyataan sudah sesuai
dengan tuntutan dalam kisi-kisi (misal untuk tes sikap: aspek
koginisi, afeksi, atau konasi dan pernyataan positif atau
negatifnya

B

Konstruksi

1

Pernyataan dirumuskan dengan singkat (tidak melebihi 20
kata) dan jelas

2

3

4

5



2

Kalimatnya bebas dari pernyaatn yang tidak relevan objek
yang dipersoalkan atau kalimatnya merupakan pernyataan
yang diperlukan saja

3

Kalimatnya bebas dari pernyataan yang bersifat negatif
ganda

4

Kalimatnya bebas dari pernyataan yang mengacu pada masa
lalu

5

Kalimatnya bebas dari pernyataan faktual atau dapat
diinterpretasikan sebagai fakta

6

Kalimatnya bebas dari pernyataan yang mungkin disetujui
atau dikosongkan oleh hampir semua responden

7

Setiap pernyataan hanya berisi satu gagasan secara lengkap

8

Kalimatnya bebas dari pernyataan yang tidak pasti pasti
seperti semua, selalu, kadang-kadang, tidak satu pun, tidak
pernah

9

Kalimatnya tidak banyak menggunakan kata hanya, sekedar,
semata-mata

C

Bahasa/Budaya

1

Bahasa soal harus komunikatif dan sesuai dengan jenjang
pendidikan siswa atau responden

2

Soal menggunakan bahasa Indonesia baku

3

Tidak menggunakan bahasa yang berlaku setempat/tabu

Keterangan: Berilah tanda (V) bila tidak sesuai dengan aspek yang ditelaah!
2.

Teknis Analisis Secara Kuantitatif
Penelaahan soal secara kuantitatif adalah penelaahan butir soal didasarkan pada data

empirik. Data empirik ini diperoleh dari soal yang telah diujikan. Ada dua pendekatan dalam
analisis secara kuantitatif, yaitu pendekatan secara klasik dan modern.

Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui informasi
dari jawaban peserta didik tes guna meningkatkan mutu butir soal yang bersangkutan dengan
menggunakan teori tes klasik. Kelebihan analisis butir soal secara klasik adalah murah,
sederhana, familiar, dapat dilaksanakan sehari-hari dengan cepat menggunakan komputer, dan
dapat menggunakan data dari beberapa peserta didik atau sampel kecil (Millman dan Greene,
1993: 358). Analisis jenis butir ini yang lazim digunakan dalam praktik di lapangan, terutama
oleh guru disekolah.
Aspek yang perlu diperhatikan dalam analisis butir soal secara klasik adalah setiap butir
soal ditelaah dari segi: tingkat kesukaran butir, daya pembeda butir, dan penyebaran pilihan
jawaban (untuk soal bentuk obyektif) atau fungsi pengecoh pada setiap pilihan jawaban,
reliabilitas dan validitas soal.
1. Tingkat Kesukaran
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada
tingkat kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks. Indeks
tingkat kesukaran ini pada umumnya dinyatakan dalam bentuk proporsi yang besarnya
berkisar 0,00 - 1,00 (Aiken (1994: 66). Semakin besar indeks tingkat kesukaran yang
diperoleh dari hasil hitungan, berarti semakin mudah soal itu. Suatu soal memiliki TK=
0,00 artinya bahwa tidak ada siswa yang menjawab benar dan bila memiliki TK= 1,00
artinya bahwa siswa menjawab benar. Perhitungan indeks tingkat kesukaran ini dilakukan
untuk setiap nomor soal. Pada prinsipnya, skor rata-rata yang diperoleh peserta didik
pada butir soal yang bersangkutan dinamakan tingkat kesukaran butir soal itu. Rumus ini
dipergunakan untuk soal selected response item, yaitu (Nitko, 1996: 310).
Tingkat Kesuk aran (TK)=

jumla h siswa yang menjawab benar butir soal
jumla h siswa yang mengikuti tes

Atau dengan menggunakan rumus:
P=

B
N

P = proporsi (indeks kesukaran)
B = jumlah siswa yang menjawab benar

N = jumlah peserta tes
Tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya
untuk keperluan ujian semester digunakan butir soal yang memiliki tingkat kesukaran
sedang, untuk keperluan seleksi digunakan butir soal yang memiliki tingkat kesukaran
tinggi atau sukar, dan untuk keperluan diagnostik biasanya digunakan butir soal yang
memiliki tingkat kesukaran rendah atau mudah.
Klasifikasi tingkat kesulitan soal dapat menggunakan kriteria berikut:
N

Range Tingkat Kesukaran

Kategori

Keputusan

o
1
2
3

0,8-1,0
0,3-0,7
0,0-0,3

Mudah
Sedang
Sulit

Ditolak/direvisi
Diterima
Ditolak/direvisi

Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu kegunaan bagi guru dan
kegunaan bagi pengujian dan pengajaran (Nitko, 1996: 310-313). Kegunaannya bagi guru
adalah: (1) sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi
masukan kepada siswa tentang hasil belajar mereka, (2) memperoleh informasi tentang
penekanan kurikulum atau mencurigai terhadap butir soal yang bias. Adapun
kegunaannya bagi pengujian dan pengajaran adalah: (a) pengenalan konsep yang
diperlukan untuk diajarkan ulang, (b) tanda-tanda terhadap kelebihan dan kelemahan
pada kurikulum sekolah, (c) memberi masukan kepada siswa, (d) tanda-tanda
kemungkinan adanya butir soal yang bias, (e) merakit tes yang memiliki ketepatan data
soal.
Contoh : Tes formatif IPA, 10 soal bentuk pilihan ganda, option 4, dengan proporsi 2 soal
mudah, 6 soal sedang dan 2 soal sukar, jumlah siswa = 20 orang.

No

Kemampuan

Judgment p Jumlah siswa yang Nilai

indeks Keteranagn

yang diukur

soal

menjawab

kesukaran

indeks kesukaran

1

Pengetahuan

Mudah

18

0,90

Mudah

2

Pengetahuan

Mudah

12

0,60

Sedang

3

Pemahaman

Sedang

10

0,50

Sedang

4

Aplikasi

Sedang

12

0,60

Sedang

5

Aplikasi

Sedang

9

0,45

Sedang

6

Pemahaman

Sedang

20

1,00

Mudah

7

Analisa

Sedang

6

0,30

Sukar

8

Pemahaman

Sedang

10

0,50

Sedang

9

Sintesa

Sukar

4

0,20

Sukar

10

Sintesa

Sukar

9

0,45

Sedang

Dalam mencari indeks kesukaran menggunakan rumus yang telah ditulis di atas:
P=

B 18
= =0,90
N 20
Dari contoh di atas diperoleh hasil, yaitu : soal nomor 1, 3, 4, 5, 8 dan 9, terdapat
kesesuaian antara judgement dengan hasil analisa, soal nomor 2 yang di judgement
mudah ternyata termasuk soal sedang, soal nomor 6 yang di judgement sedang ternyata
termasuk soal mudah, soal nomor 7 yang dijudgement sedang, ternyata termasuk sukar
dan soal nomor 10 yang dijudgement sukar, ternyata termasuk soal sedang.
Atas dasar hasil di atas, soal yang harus diperbaiki adalah:
Soal nomor 2, diturunkan ke dalam kategori mudah,
Soal nomor 6, dinaikkan ke dalam kategori sedang,
Soal nomor 7 diturunkan ke dalam kategori sedang,
Soal nomor 10, dinaikkan ke dalam kategori sukar.

2. Daya Pembeda
Daya pembeda soal adalah kemampuan suatu butir soal dapat membedakan antara
siswa yang menguasai materi yang ditanyakan dan siswa yang belum menguasai materi
yang diujikan. Daya pembeda butir soal memiliki manfaat berikut. Pertama untuk

meningkatkan mutu setiap butir soal melalui data empiriknya. Berdasarkan indeks daya
pembeda, setiap butir soal dapat diketahui apakah butir soal itu baik, direvisi atau ditolak.
Kedua, untuk mengetahui seberapa jauh masing-masing soal dapat mendeteksi
atau membedakan kemampuan siswa, yaitu siswa yang telah memahami atau belum
memahami materi yang diajarkan guru. Apabila suatu soal tidak dapat membedakan
kedua kemampuan siswa itu maka butir soal itu dapat dicurigai kemungkinannya: a)
Kunci jawaban butir soal itu tidak tepat. b) Butir soal itu memiliki 2 atau lebih kunci
jawaban yang benar. c) Kompetensi yang diukur tidak jelas. d) Pengecoh tidak berfungsi.
e) Materi yang ditanyakan terlalu sulit, sehingga banyak siswa yang menebak dan f)
Sebagian besar siswa yang memahami materi yang ditanyakan berpikir ada yang salah
informasi dalam butir soalnya.
Untuk menentukan daya pembeda dibedakan menjadi kelompok kecil (kurang
dari 100 orang) dan kelompok besar (100 orang ke atas).
a) Untuk kelompok kecil
Seluruh kelompok test dibagi dua sama besar, 50% kelompok atas dan 50% kelompok
bawah.

b) Untuk Kelompok Besar
Mengingat biaya dan waktu untuk menganalisis, maka untuk kelompok besar
biasanya hanya di ambil kedua kutubnya saja, yaitu 27% skor teratas sebagai
kelompok atas ( JA) dan 27% skor terbawah sebagai kelompok bawah (JB ).
JA = jumlah kelompok atas
JB = jumlah kelompok bawah

Hasil perhitungan dengan menggunakan rumus di atas dapat menggambarkan
tingkat kemampuan soal dalam membedakan antar peserta tes yang sudah memahami
materi yang diujikan dengan peserta tes yang belum atau tidak memahami materi yang
diujikan. Adapun klasifikasinya sebagai berikut :
D = 0,00 – 0,20 = jelek (poor)
D = 0,20 – 0,40 = cukup (satisfactory)
D = 0,40 – 0,70 = baik (good)
D = 0,70 – 1,00 = baik sekali (excellent)
D = negative, semuanya tidak baik, jadi semua butir soal yang mempunyai nilai D
negative sebaiknya di buang saja.
Contoh perhitungan: Dari hasil analisis tes yang terdiri dari 10 butir soal yang dikerjakan
oleh 14 orang siswa, terdapat dalam tabel sebagai berikut :

Dari angka-angka yang belum teratur kemudian dibuat array (urutan penyebaran),
dari skor yang paling tinggi ke skor yang paling rendah.

Kelompok atas

Kelompok bawah

10

6

8

6

8

6

7

5

7

5

7

5

7

3

7 orang

7 orang

Array ini sekaligus menunjukkan adanya kelompok atas (JA ) dan kelompok
bawah (JB) dengan pemiliknya sebagai berikut:
Kelompok atas (JA)

Kelompok bawah (JB)

B=7

A=5

C=8

D=5

E = 10

F=6

I=8

G=6

J=7

H=6

K=7

L=5

N=7

M=3

7 orang

7 orang

Perhatikan pada tabel analisis 10 butir soal 14 siswa.
Di belakang nama siswa di tuliskan huruf A atau B sebagai tanda kelompok. Hal
ini untuk mempermudah menentukan BA dan BB
BA = Banyaknya siswa yang menjawab benar pada kelompok atas (A)
BB = Banyaknya siswa yang menjawab benar pada kelompok bawah (B)

Sudah disebutkan diatas bahwa soal yang baik adalah soal yang dapat
membedakan antara anak pandai dan anak kurang pandai, dilihat dari dapat dan tidaknya
megerjakan soal itu.
Marilah kita lihat kita perhatikan analisis lagi, khusus untuk butir soal nomor 1.



Dari kelompok atas yang dapat menjawab betul 8 orang.
Dari kelompok bawah yang menjawab betul 3 orang.

Kita tetapkan dalam rumus diskriminasi:

Dengan demikian maka indeks diskriminasi untuk soal ni 1 adalah 0,5.
Sekarang kita perhatikan butir soal nomor 8 :

Butir soal ini jelek karena lebih banyak di jawab benar oleh kelompok bawah
dibandingkan dengan jawaban benar dari kelompok atas. Ini berarti bahwa untuk
menjawab soal dengan benar, dapat dialakukan dengan menebak. Butir soal yang baik
adalah butir-butir soal yang mempunyai indeks diskriminasi 0,4 sampai 0,7.

3. Teknik Analisis Fungsi Distraktor
Pada saat membicarakan tentang tes obyektif bentuk multiple choice item telah
dikemukakan bahwa pada tes obyektif multiple choice item tersebut untuk setiap butir
item yang dikeluarkan dalam tes telah dilengkapi dengan beberapa kemungkian jawaban
atau yang sering dikenal dengan istilah option atau alternative.
Option atau alternatif itu jumlahnya berkisar antara tiga smpai dengan lima buah,
dan dari kemungkinan – kemungkinan jawab yang terpasang pada setiap pada setiap butir
item itu salah satunya adalah merupakan jawaban betul atu disebut dengan kunci
jawaban, sedangakan sisanya adalah merupakan jawaban salah. Jawaban – jawaban salah
itulah yang bisa dikenal denag istilah distraktor (distraktor merupakan jawaban
pengecoh).
Tujuan utama dari pemasangan distraktor pada setiap butir item itu adalah agar
dari sekian banyak test, yang mengikuti tes ada yang tertarik memilihnya, sebab mereka
menyangka bahwa distraktor yang mereka pilih itu merupakan jawaban betul. Jadi
mereka terkecoh, menganggap bahwa distraktor yang terpasang pada item itu sebagai
kunci jawaban item, pada hal bukan. Tentu saja, makin banyak siswa yang terkecoh,
maka kita dapat menyatakan bahwa distraktor itu semakin dapat menjalankan
fungsinyadengan sebaik – baiknya. Sebaliknya, apabila distraktor yang dipasang pada
setiap butir item itu tidak laku maksudnya tak ada seorang pun dari sekian banyak testee
yang merasa tertarik atau terangsang untuk memilih distraktor tersebut sebagai jawaban
betul, maka hal ini mengandung makna bahwa distraktor tersebut tidak menjalankan
fungsinya dengan baik.
Berikut ini dikemukakan sebuah contoh bagaimana cara menganalisis fungsi
distraktor. Misalnya tes dibidang studi pendidikan moral pancasila diikuti oleh 50 siswa
madrasah tsanawiyah. Bentuk soalnya adalah multiple choice dengan item sebanyak 40
butir, dimana setiap butir item dilengkapi dengan lima alternatif yaitu A,B,C,D dan E.
dari 40 butir item tersebut diatas, khusus untuk butir item no 1, 2, dan 3.
Soal pilihan ganda :
1. logam Zn dengan larutan ZnSO4; dan logam Cu dengan larutan CuSO4. Diketahui data potensial
standar masing-masing logam sebagai berikut :
E° Ni = -0,52 volt
E° Zn = -0,76 volt

E° Cu = +0,34 volt
Jika kita ingin merancang sel volta dengan beda potensial +1,10 volt, maka elektroda yang digunakan
adalah….
A. Ni anoda; Cu katoda
B. Ni anoda; Zn katoda
C. Cu anoda; Ni katoda
D. Cu anoda; Zn katoda
E. Zn anoda; Cu katoda
Pembahasan:
Menentukan EoSel atau beda potensial = +1,10 volt diperoleh dari selisih Eokatoda – EoAnoda, yang
memiliki selisih +1,10 volt jika Katodanya Cu dan anodanya Zn Eosel = EoCu – EoZn = +0,34 – (-0,76) =
+1,10 volt.
JAWABAN E
2. Pernyataan berikut berhubungan dengan sel volta :
a. pada katoda terjadi reaksi reduksi
b. pada anoda terjadi reaksi oksidasi
c. pada sel volta, katoda merupakan elektroda negatif
d. logam yang memiliki potensial lebih tinggi berperan sebagai elektroda positif
e. logam yang memiliki potensial lebih rendah berperan sebagai elektroda negatif
Dari pernyataan di atas, yang tidak benar adalah….
A. a
B. b
C. c
D. d
E. e
Pembahasan:
Katoda yaitu elektroda bermuatan positif dimana terjadi reaksi reduksi yang dialami oleh logam yang

potensialnnya lebih tinggi. Begitu pula sebaliknya untuk anoda. Jawaban yang salah adalah no.3 pada
sel volta, katoda merupakan elektroda negatif, seharusnya merupakan elektroda positif. JAWABAN C
3. Elektrolisis larutan garam logam alkali dan larutan alkali tanah tidak dapat membentuk logamnya,
tetapi terbentuk gas hidrogen. Hal ini disebabkan oleh
A. E° reduksi ion logam alkali < E° reduksi H2O
B. E° reduksi ion logam alkali > E° reduksi H2O
C. E° reduksi ion logam alkali = E° reduksi H2O
D. E° reduksi ion logam alkali > E° reduksi ion H+
E. E° reduksi ion logam alkali < E° reduksi ion H+
Pembahasan:
Elektrolisis larutan garam alkali dan alkali tanah yang bereaksi di katodanya adalah air bukan ion
logamnya. Hal ini disebabkan karena E° reduksi ion logam alkali lebih kecil dari E° reduksi H2O. Sehingga
H2O lebih mudah mengalami reduksi. JAWABAN A

Dengan pola penyebaran jawaban item sebagaimana tergambar pada analisis di
atas maka dengan mudah dapat diketahui, berapa persen testee yang telah terkecoh untuk
memilih distraktor yang dipasangkan pada item 1, 2 dan 3 yaitu :
1. Untuk kunci jawaban adalah E, sedangkan pengecoh/distraktornya adalah A, B, C,
dan D.
Pengecoh A dipilih oleh 4 orang, berarti 4/50 * 100% = 8%. Jadi pengecoh A sudah
dapat menjalankan fungsinya dengan baik, sebab angka persentasenya sudah lebih
dari 5%.
Pengecoh B dipilih oleh 6 orang , berarti 6/50 * 100% = 12% maka distraktornya
berfungsi dengan baik.
Pengecoh C dipilih oleh 5 orang , berarti 5/50 * 100% = 10% maka distraktornya
berfungsi dengan baik.
Pengecoh D dipilih oleh 5 orang , berarti 5/50 * 100% = 10% maka distraktornya
berfungsi dengan baik.
Jadi keempat pengecoh yang dipasangkan pada item nomor 1 itu sudah dapat
menjalankan fungsinya dengan sebaik – baiknya.

2. Untuk item no 2, kunci jawaban adalah C, sedangkan pengecohnya adalah A, B, D
dan E.
Pengecoh A dipilih oleh 1orang, berarti 1/50 * 100% = 2%. Jadi pengecoh A belum
dapat menjalankan fungsinya dengan baik, sebab angka persentasenya kurang dari
5%.
Pengecoh C dipilih oleh 2 orang , berarti 2/50 * 100% = 4% maka distraktornya tidak
berfungsi dengan baik.
Pengecoh D dipilih oleh 1 orang , berarti 1/50 * 100% = 2% maka distraktornya tidak
berfungsi dengan baik.
Pengecoh E dipilih oleh 2 orang , berarti 2/50 * 100% = 4% maka distraktornya tidak
berfungsi dengan baik.
Jadi keempat pengecoh yang dipasangkan pada item nomor 2 itu belum dapat
dijalankan fungsinya seperti yang diharapkan.
3. Untuk item nomor 3, kunci jawaban adalah A, sedangkan pengecohnya adalah C, B,
D, dan E.
Pengecoh A,B dan D masing – masing dipilih oleh 1 orang berarti 1/50 * 100% = 2%
jadi tiga buah pengecoh itu belum berfungsi.
Pengecoh E dipilih oleh 37 orang, berarti 37 /50* 100% = 74% maka distraktornya
berfungsi dengan baik.
Untuk butir item nomor 1 siswa yang menjawab benar sebanyak 30 orang, berarti
indeks kesukaran itemnya (P) = 30/50 = 0,60 (drajat kesukaran itemnya baik, yaitu
terletak antara 0,30 sampai 0,70). Untuk butir item nomor 2, jumlah siswa yang
jawabannya betul adalah 44 orang, berarti angka indeks kesukaran itemnya = 44/50 =
0,88 (butir item nomor 2 ini termasuk kategori terlalu mudah). Sedangkan butir item
nomor 3 dijawab betul oleh 10 orang siswa: berarti angka indeks kesukarannya
itemnya = 10/50 = 0,20 (butir item nomor 3 termasuk kategori terlalu sukar).
C. Tujuan dan manfaat menganalisis butir soal
Kegiatan menganalisis butir soal merupakan suatu kegiatan yang harus dilakukan guru
untuk meningkatkan mutu soal yang telah ditulis. Kegiatan ini merupakan proses
pengumpulan, peringkasan, dan penggunaan informasi dari jawaban siswa untuk membuat

keputusan tentang setiap penilaian. Soal yang bermutu adalah soal yang dapat memberikan
informasi setepat-tepatnya sesuai dengan tujuannya di antaranya dapat menentukan peserta
didik mana yang sudah atau belum menguasai materi yang diajarkan guru.
Tujuan menganalisis butir soal adalah :
1. Untuk mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu
sebelum soal digunakan.
2. Untuk membantu meningkatkan tes melalui revisi atau membuang soal yang tidak efektif,
serta untuk mengetahui informasi diagnostik pada siswa apakah mereka sudah/belum
memahami materi yang telah diajarkan.
Manfaat dari kegiatan menganalisis butir soal, diantaranya adalah:
1. Dapat membantu para pengguna tes dalam evaluasi atas tes yang digunakan,
2. Sangat relevan bagi penyusunan tes informal dan lokal seperti tes yang disiapkan guru
untuk siswa dikelas,
3. Mendukung penulisan butir soal yang efektif,
4. Secara materi dapat memperbaiki tes di kelas,
5. Meningkatkan validitas soal dan reliabilitas
6. Menentukan apakah suatu fungsi butir soal sesuai dengan yang diharapkan,
7. Memberi masukan kepada guru tentang kesulitan siswa,
8. Memberi masukan pada aspek tertentu untuk pengembangan kurikulum,
9. Merevisi materi yang dinilai atau diukur,
10. Meningkatkan keterampilan penulisan soal

Menganalisis butir soal dapat dilakukan secara kualitatif maupun kuantitatif. Analisis
secara kualitatif biasanya yang ditelaah antara lain dari segi materi, konstruksi,
bahasa/budaya, kebenaran kunci jawaban atau pedoman penskorannya. Sedangkan analisis
secara kuantitatif, yang ditelaah adalah tingkat kesukaran butir soal, daya pembeda butir
soal, dan penyebaran pilihan jawaban (untuk soal bentuk obyektif) atau frekuensi jawaban
pada setiap pilihan jawaban.
Untuk menganalisis secara kuantitatif, terutama untuk jenis soal (1) gabungan antara soal
pilihan ganda dan Uraian, atau (2) soal uraian saja, maka dalam proses penghitungannya kita
dapat menggunakan kalkulator, atau memanfaatkan kelebihan dari program computer.
Program computer yang sudah dikenal secara umum, seperti EXCEL, SPSS, atau program
khusus seperti ITEMAN, RASCAL, ASCAL, BILOG, FACETS tentunya dapat kita
manfaatkan sebesar-besarnya. Akan tetapi, dari sekian program computer yang ada, ternyata
program excel yang paling banyak digunakan oleh sebagian besar guru, karena sudah
memasyarakat dikalangan guru.

BAB III
PENUTUP
A. KESIMPULAN

Analisis Item Soal adalah merupkan suatu prosedur yang sistematis, yang akan
memberikan informasi-informasi yang sangat khusus terhadap butir tes yang akan kita
susun.
Penganalisisan terhadap butir-butir soal dapat dilakukan dari tiga segi yaitu :
1. Teknik analisis kesukaran item soal. Angka indeks kesukaran item ini dapat diperoleh
dengan menggunakan rumus yang dikemukakan oleh Dubois yaitu :

Tingkat Kesukaran (TK )=

jumlah siswa yang menjawab benar butir soal
jumlah siswa yang mengikuti tes

Atau dengan menggunakan rumus:
P=

B
N

P = proporsi (indeks kesukaran)
B = jumlah siswa yang menjawab benar
N = jumlah peserta tes
2. Teknik analisis daya pembeda. Daya pembeda soal adalah kemampuan suatu soal
untuk membedakan antara siswa yang pandai (berkemampuan tinggi) dengan siswa
yang bodoh (berkemampuan rendah).
Rumus untuk menentukan indeks diskriminasi adalah :
3. Teknik analisis fungsi distraktor. Jawaban – jawaban salah itulah yang bisa dikenal
dengan istilah distraktor (distraktor merupakan jawaban pengecoh).

4. Manfaat dari kegiatan menganalisis butir soal, diantaranya adalah dapat membantu
para pengguna tes dalam evaluasi atas tes yang digunakan, sangat relevan bagi

penyusunan tes informal dan lokal seperti tes yang disiapkan guru untuk siswa
dikelas, mendukung penulisan butir soal yang efektif, secara materi dapat
memperbaiki tes di kelas, meningkatkan validitas soal dan reliabilitas serta
meningkatkan keterampilan penulisan soal

B. SARAN
-

DAFTAR PUSTAKA

Anastasi, A. & Urbina, S. 1997. Psychological Testing. 7th edition. New Jersey: PrenticeHall.
Arikunto, Suharsimi. 2007. Dasar-dasar Evaluasi Pendidikan. Jakarta: PT Bumi Aksara.
Azwar Saifuddin. 2009. Reliabilitas dan Validitas. Cetakan IX. Yogyakarta: Pustaka
Pelajar.
Azwar, Saifuddin. 2009. Penyusunan Skala Psikologi. Cetakan XII. Yogyakarta: Pustaka
Pelajar.
Cohen, R,J. & Swerdlik, M.E. 2005. Psychological Testing and Assessment. 6th edition.
New York: McGraw-Hill Companies, Inc.
Crocker, L. & Algina, J. 1986. Introduction to classical and modern test theory. Fort
Worth : Harcourt Brace Jovanovich College Publishers.
Hambleton, Ronald & Patsula, Liane.1999. Increasing The Validity of Adapted Tests,
Myths to be Avoided and Guidelines for Improving Test Adaptation Practices.
August 1999. Association of Test Publishers. Diunduh pada tanggal 3 April 2010
dari http://www.testpublishers.org/journal01.htm
Lababa, Djunaidi. 2008. Analisis Butir Soal dengan Teori Tes Klasik: Sebuah Pengantar.
Iqra, Volume 5, Januari-Juni 2008.
Rafi’I,Suryatna. 1990. Teknik Evaluasi. Bandung: Penerbit Angkasa.
Rosnita. 2007. Evaluasi Pendidikan. Bandung: Cita Pustaka Setia.
Sudijono, anas. 2009. Pengantar evaluasi pendidikan. Jakarta: Rajawali Pers.
Toha, M. Chabib. 1996. Teknik Evaluasi Pendidikan. Jakarta: PT Raja Grafindo Persada.