DAYA BEDA DAN TINGKAT KESUKARAN SOAL

DAYA BEDA DAN TINGKAT
KESUKARAN SOAL
Standar
DAYA BEDA
Menganalisis tingkat kesukaran soal artinya mengkaji soal- soal tes dari segi kesulitanya
sehingga dapat di peroleh soal-soal mana yang termasuk mudah ,sedang dan sukar.
Sedangkan menganalisis daya pembeda artinya mengkaji soal-soal tes dari segi kesanggupan
tes tersebut dalam kategori lemah atau rendah dan kategori kuat atau tinngi prestasinya
(Wayan Nurkancana, 1983; 134).
A. Taraf kesukaran tes
Asumsi yang digunakan untuk memperoleh kwalitas yang baik, disamping memenuhi
validitas dan reliabilitas adalah daya keseimbangan dari tingkat kesulitan soal tersebut.
Keseimbangan yang dimaksutkan adalah adanya soal-soal yang termasuk mudah sedang dan
sukar secara porposional. Tingkat kesukaran soal dipandang dari kesanggupan atau
kemampuan siswa dalam menjawabnya, bukan dilihat dari segi guru dalam melakukan
analisis pembuat soal.
Ada beberapa dasar pertimbangan dalam menentukan proporsi jumlah soal kategori mudah
sedang dan sukar.Pertimbangan pertama adalah adanya keseimbangan, yakni jumlah soal
sama untuk ke tiga kategori tersebut. dan ke dua proposi jumlah soal untuk ke tiga kategori
tersebut artinya sebagian besar soal berada dalam kategori sedang sebagian lagi termasuk
kategori mudah dan sukar dengan proporsi yang seimbang.

Perbandingan antara soal mudah sedang sukar bisa di buat 3-4-3. Artinya, 30% soal kategori
mudah 40% soal kategori sedang dan 30% lagi soal kategori sukar.
Di samping itu oleh karena suatu tes dimaksutkan untuk memisahkan antara murid-murid
yang betul-betul mempelajari suatu pelajaran dengan murid-murid yang tidak mempelajari
pelajaran itu, maka tes atau item yang baik adalah tes atau item yang betul-betul dapat
memisahkan ke dua golongan murid tadi. Jadi setiap item disamping harus mempunyai
derajat kesukaran tertentu, juga harus mampu membedakan antara murid yang pandai
dengan murid yang kurang pandai.
Setelah judgment dilakukan oleh guru kemudian soal tersebut di uji cobakan dan dianalisis
apakah judgment tersebut sesuai atau tidak. Cara melakukan analisis untuk menentukan
tingkat kesukaran soal adalah dengan menggunakan rumus sebagai berikut.
B
I=

N

Keterangan:
I =Indeks kesulitan untuk setiap butir soal
B =Banyaknya siswa yang menjawab benar setiap butir soal
N =Banyaknya yang memberikan jawaban pada soal yang di maksudkan.

Kriteria yang digunakan makin kecil indeks yang di peroleh makin sulit soal tersebut.
Sebaliknya makin besar indeks yang diperoleh makin mudah soal tersebut.
Menurut keiteria yang sering di ikuti indeks kesukaran sering di klasifikasikan sebagai
berikut :
 · Soal dengan P 0 – 0,30 adalah soal kategori sukar.
 · Soal dengan P 0,31 – 0,70 adalah soal kategori sedang.
 · Soal dengan P 0,71 – 1,00 adakah soal kategori mudah.
Contoh:
Guru SKI memberikan 10 pertanyaan piihan berganda denga komposisi 3 soal mudah , 4 soal
sedang , dan 3 soal sukar. Jika di lukiskan susunan soalnya adalah sebagai berikut :
No soal

Abilitas yang Diukur
Pengetahuan

Tingkat kesukaran soal
Mudah

Aplikasi


Sedang

Pemahaman

Mudah

Analisis

Sedang

Evaluasi

Sukar

Sitesis

Sukar

Pemahaman


Mudah

Aplikasi

Sedang

Analisis

Sedang

Sitesis

Sukar

1
2
3
4
5
6

7
8
9
10
Kemudian soal tersebut di berikan kepada 10 orang siswa dan tidak seorang pun yang tidak
mengisi seluruh pertanyaan tersebut. Setelah di periksa hasilnya adalah sebagai berikut.

No
soal

Banyakya siswa Banyaknya siswa yang Indeks Kategori
yang menjawab
menjawab (B)
soal
(N)
B
N

1


20

18

0,9

Mudah

2

20

12

0,6

Sedang

3


20

10

0,5

Mudah

4

20

20

1,0

Seang

5


20

6

0,3

Sukar

6

20

4

0,2

Sukar

7


20

16

0,8

Mudah

8

20

11

0,55

Sedang

9


20

17

0,85

Sedang

10

20

5

0,25

Sukar

Dari sebaran di atas ternyata ada tiga soal yang meleset, yakni soal nomor 3 yang semula di
proyeksikan kedalam kategori mudah, setelah di coba ternyata termasuk kedalam kadegori

sedang.demikian,juga soal nomor 4 yang semula di proyeksikan sededang ternyata termasuk
kedalam kategori mudah . nomor 9 semula di kategorikan sedang ternyata termasuk kedalam
kategori mudah. Sedangkan tujuh soal yang lainya sesuai dengan proyeksi semula atas dasar
tersebut ketiga soal diatas harus diperbaiki kembali.
Soal no : 3 dinaikan dalam kategori sedang.
Soal no : 4 diturunkan dalam kategori mudah.
Soal no : 9 di turunkan kedalam kategori mudah.
B. Analisis Daya Pembeda
Salah satu tujuan analisis kuantitatif soal adalah untuk menentukan dapat tidaknya suatu soal
membedakan kelompok dalam aspek yang di ukur sesuai dengan perbedaan yang ada dlam
kelompok itu.
Indeks yang di gunakan dalam membedakan peserta tes yang berkemampuan tinggi dengan
peserta tes yang berkemampuan rendah adalah indeks daya pembeda.
Indeks ini

menunjukkan kesesuaian antara fungsi soal dengan fungsi tes secara keseluruhan. Dengan
demikian validitas soal ini sama dengan daya pembeda soal yaitu daya yang membedakan
antara peserta tes yang berkemampuan tinggi dengan peserta tes yang berkemampuan rendah.
1.

Hubungan antara tingkat kesukaran dan daya pembeda.

Tingkat kesukaran berpengaruh langsung pada daya pembeda soal. Jila setiap orang memilih
benar jawaban ( P = 1 ), atau jika setiap orang memiliki benar jawaban (P = 0) maka soal
tidak dapat digunakan untuk membedakan kemampuan peserta tes. oleh kaena itu soal yang
baik adalah soal yang memiliki daya pembeda antara peserta tes kelompok atas dan
kelompok rendah. Kelompok rendah memiliki tingkat kemampuam 0.50 dan akan diperoleh
daya pembeda kelompok atas maksimal 1.00.
2.

Daya pembeda soal pilihan ganda

Bagaimana menentukan daya pembeda soal pilihan ganda?Yang menunjukkan tingkat
kesukaran soal pilihan ganda. Daya pembeda di tentukan dengan melihat kelompok atas dan
kelompok bawah berdasarkam sekor total. perhatikan tabel berikut.
Skor
Nomor soal
Total

No Peserta

1
2

1

2

3

4

5

6

7

8

9

10

1

1

1

1

1

1

1

1

0

0

Aan
8

Adi
3

3

Ana

1

0

0

0

1

0

0

0

1

0
7

4

Andi
1

5

1

1

1

0

1

1

1

0

0

8

Candra
4

6

dian

1

1

1

1

1

1

1

1

0

0
8

7

Risma
1

8

0

1

0

1

0

0

0

1

0

3

sasa
6

9

titik

1

1

1

1

1

1

1

1

0

0
4

10

uun
1

0

0

0

1

0

0

0

1

0

1

1

1

1

0

1

1

0

0

0

4

1

0

0

1

1

0

0

0

1

0

1

0

0

0

0

0

1

1

1

0

Untuk memudahkan perhitungan sekor yang terdapat pada tabel di urutkan dari peserta tes
yang memperoleh skor yang tinggi menuju peserta yang memperoleh sekor yang rendah.
Perhatikan tabel berikut:
Nomor soal
No Peserta

Skor
1

2

3

4

5

6

7

8

9

10

1

1

1

1

1

1

1

1

0

0

Aan
1

8

Dian
2

8
Andi

1

1

1

1

1

1

1

1

0

0

3

8
Ana

4

1

1

1

1

1

1

1

1

0

0

7

Sasa
5

6
Candra

1

1

1

1

0

1

1

1

0

0

6

4
Titik

7

1

1

1

1

0

1

1

0

0

0

1

0

1

0

1

0

0

0

1

0

4

Uun
8

4
Adi

9

3
Risma

10

1

0

0

1

1

0

0

0

1

0

1

0

0

0

1

0

0

1

1

0

1

0

0

0

1

0

0

0

1

0

1

0

0

0

1

0

0

0

1

0

3

Jumlah
jawaban benar

10

5

6

6

8

5

5

5

5

0

10

10

10

10

10

10

10

10

10

10

Jumlah peserta
Kesukaran

0.00 0.50 0.60 0.60 0.80 0.50 0.50 0.50 0.5

1.00

Keterangan :
Skor Siswa kelompok atas 6 – 10
Skor Siswakelompok bawah 5 – 1
Berikut ini cara menghitung daya beda:
Nilai DB akan merentang antara nilai -1,00 hingga +1.00. dengan mengambil soal comtoh di
atas beberapa kondisi soal dapat di jelaskan sebagai berikut:
contoh : soal nomor 2 semua siswa kelompok atas dapat menjawab benar dan semua siswa
kelompok bawah menjawab salah, maka DB akan + 1,00. DB dapat di tentukan besarnya
dengan rumus sebagi berikut : PT – PR
TB

RB


T

T

PT =Proporsi siswa yang menjawab benar pada kelompok siswa yang mwmpunyai
kemampuan tinggi
PR =Proporsi siswa yang menjawab benar pada kelompok siswa yang mwmpunyai
kemampuan rendah
TB =Jumlah siswa yang menjawab benar pada kelompok siswa yang mempunyai kemampuan
tinggi
T

Jumlah kelompok siswa yang mempunyai kemampuan tinggi.

=

RB =Jumlah siswa yang menjawab benar pada kelompok siswa yang mempunyai kemampuan
rendah
R

Jumlah kelompok siswa yang mempunyai kemampuan rendah.

=

Berikut adalah tabel kategori tingkat kesukaran dalam daya beda.
No soal

Kelompok atas

Kelompok bawah

Daya Beda

1

1.00

1.00

0.00

2

1.00

0.00

1.00

3

1.00

0.10

0.90

4

1.00

0.10

0.90

5

0.30

0.60

-0.30

6

1.00

0.00

1.00

7

1.00

0.10

0.90

8

0.80

0.10

0.70

9

0.00

1.00

-1.00

10

0.00

0.00

0.00

Kembali pada tingkat kesukaran yang di tunjukkan pada tabel dapat kita lihat soal no 9
merupakan soal yang sukar bagi kelompok atas tetapi sangat mudah bagi kelompok bawah
soal no 10 merupakan soal yang sangat sukar baik bagi kelompok atas maupun kelompok
bawah. soal nomor 2 dan nomor 6 merupakan soal yang sangat sukar dagi kelompok bawah
tetapi relatif mudah untuk kelompok atas. Perhitungan daya beda sangatlah sederhana dan
menyajikan informasi yang dapat membedakan masing – masing kelompok berdasarkan
kemampuan mereka. (engelhart, 1965) . soal nomor 1 dan nomor 10 tidak menujukkan
perbedaan antar kelompok. Tidak adanya perbedaan tingkat kesukaran pada soal nomor 1 dan
nomor 10 yang juga menujukkan bahwa soal tidak dapat menujukkan perbedaan antar
kelompok. Soal no 5 dan no 9 mempunyai indeks dayabeda yang baik, tetapi terbalik. Tanda
negatif no 5 dan no 9 menujukkan bahwa peserta tes yang kemampuanya tinggi tidak dapat
menjawab soal dengan benar , tetapi peserta tes yang kemampuanya rendah menjawab
dengan benar , data setatistik diatas menunjukkan bahwa soal nomor 5 dan 9 merupakan soal
yang tidak baik, data setatistik menujukkan bahwa soal nomer 2,3,4,6,7 dan 8 merupakan soal
yang baik ditinjau dari daya pembeda.
3.

Daya pembeda soal uraian

Bagaimana cara menentukan daya pembeda soal uraian? Lankah yang di lakukan untuk
menghitung daya pembeda sama seperti yang dilakukan pada soal pilihan ganda. Urutkan
seluruh peserta tes berdasarkan perolehan sekor total dari yang tinggi keperolehan sekor yang
rendah.
Dari contoh diatasdapat disimpulkan bahwa cara menghitung daya pembeda adalah dengan
menempuh langkah sebagai berikut :

1.Memeriksa jawaban soal semua siswa peserta tes.
2.Membuat daftar peringkat atau urutan hasil tes berdasarkan sekor yang di capainya.
3.Menentukan jumlah siswa kelompok atas dan kelompok bawah.
4.Menghitung selisi tingkat kesukaran menjawab soal antara kelompok atas dan kelompok
bawah.
5.Membandingkan nilai selisih yang di peroleh.
6.Menentukan ada tidaknya daya pembeda pada setiap nomor soal dengan kriteria “memiliki
daya pembeda”.
TEKNIK ANALISIS BUTIR TES
PENDAHULUAN
Pada saat ini terdapat dua pengukuran yang berkembang dan banyak digunakan dalam
merancang dan menganalisis alat ukur atau tes. Pertama adalah Teori Tes Klasik yang
dikembangkan sejak tahun 1940 dan telah digunakan secara luas, sedang teori yang kedua
adalah Teori Respons Butir, yang berkembang setelah teknologi komputer berkembang. Teori
yang ke dua ini menggunakan lebih banyak asumsi dibandingkan dengan teori yang bertama,
namun dapat menyajikan informasi lebih banyak.
A. TEORI KLASIK ANALISIS BUTIR SOAL
Pengertian “klasik” pada Teori Klasik ini menunjukkan pada ukuran “waktu”. Teori Klasik
analisis butir merupakan teori analisis butir yang pertama kali dipergunakan. Meskipun
terdapat beberapa kelemahan dalam teori ini, namun dalam praktik pendidikan, teori ini
masih banyak dipergunakan, hal ini disebabkan teori klasik memiliki keunggulan pada
kemudahan dalam pemahaman konsep dan penggunaannya.
Menurut Teori Tes Klasik, skor tampak (X) terdiri dari skor sebenarnya / true score (T) dan
skor kesalahan / error (E), atau formulasi sederhananya adalah
X=T+E
Terdapat dua asumsi dasar yang digunakan pada teori Tes Klasik, yaitu tidak ada korelasi
antara skor yang sebenarnya dengan skor kesalahan, dan rerata kesalahan acak pengukuran
sama dengan 0 (nol). Berdasarkan asumsi tersebut kemudian dikembangkan sejumlah
formula untuk menghitung besarnya indeks kehandalan suatu butir tes. (Mardapi, 1998: 27)
Menurut teori Klasik, ada tiga parameter butir yang diestimasi yaitu tingkat kesukaran, daya
beda dan dugaan (guessing). Dengan ketiga parameter tersebut, maka menurut Teori Klasik
analisis butir soal dapat dilakukan dengan menghitung tingkat kesukaran, daya beda. Untuk
soal yang berbentuk pilihan ganda (multiple choice) dapat diteruskan dengan menghitung
proporsi respon testee terhadap option (pilihan) yang disediakan atau dengan istilah lain
dengan melakukan analisis terhadap berfungsi tidaknya distraktor / pengecoh.
1. Tingkat Kesukaran
Tingkat kesukaran suatu item (butir soal) dinyatakan dalam bentuk indeks kesukaran
(diffculty index) yang disimbulkan dengan huruf P (Aswar, 1996: 134) (Suryabrata, 1997:
12-15) (Arikunto, 1995: 211-215) (Fernandes, 1984: 25-27) (Thoha, 1994: 145-146).
Indeks kesukaran merupakan rasio antara penjawab item dengan benar dan banyaknya
penjawab item (testee yang menjawab). Secara teoritik dikatakan bahwa P sebenarnya
merupakan probabilitas empirik untuk lulus item tertentu bagi sekelompok siswa tertentu.
Indeks kesukaran item tersebut dapat diformulasikan sebagai berikut:

Keterangan:
P = indeks kesukaran item
JSB = jumlah testee yang menjawab item dengan benar
JS = jumlah testee yang menjawab item.
Sebagai contoh, dari 100 siswa yang dikenai suatu tes, ternyata item nomor 1 dapat dijawab
benar oleh 65 orang di antara mereka, sedangkan selainnya 35 menjawab salah. Maka item
nomor 1 tersebut indeks kesukarannya (p) adalah 65 dibagi 100 = 0,65.
Indeks kesukaran item soal berkisar antara 0,00 hingga 1,00. Semakin mendekati angka 1,00
menunjukkan item soal tersebut semakin mudah. Dengan demikian nilai indeks kesukaran
item berlawanan arah dengan tingkat kesukaran, sehingga indeks tersebut lebih tepat
dikatakan sebagai indeks kemudahan dari pada indeks kesukaran. Namun sudah menjadi
kesepakatan (salah kaprah), meskipun nilai indeks berlawanan arah dengan tingkat kesukaran
tetap dikenal dengan istilah indeks kesukaran.
0,00 1,00
sukar / sulit mudah
Untuk menentukan taraf kesukaran yang ideal tergantung pada beberapa faktor, antara lain:
sifat hal yang diukur, interkorelasi antara item, tujuan khusus si perancang tes dan
sesebagainya. Apabila tujuab pengukuran itu adalah untuk pengukuran penguasaan (mastery
testing), maka indeks yang diinginkan adalah 1,00. Namun jika tujuan tes hendak menyeleksi
secara ketat terhadap sejumlah testee, maka diperlukan indeks kesukaran yang rendah
(mendekati nol).
Namun demikian, mengingat pada umumnya tes juga bertujuan untuk mengetahui tingkat
perbedaan kemampuan (competence testing) testee, kebanyakan ahli berpendapat bahwa tes
yang terbaik adalah tes yang terdiri atas item-item soal yang mempunyai taraf kesukaran
sedang (cukup) dan rentang distribusi kesukarannya kecil, yakni item tes dengan indeks
kesukaran antara 0,30 sampai 0,70 (Mehren, 1973: 329) (Fernandes, 1984: 29) (Sudijono,
1996: 372).
Item soal yang terlalu sulit dengan indeks kesukaran terlalu rendah (mendekati 0,00) dan item
soal yang terlalu mudah dengan indeks kesukaran tinggi (mendekati 1,00) secara umum tidak
banyak memberikan kontribusi keefektifan suatu tes. Hal ini disebabkan butir soal tersebut
tidak memiliki kemampuan untuk membedakan testee yang berkemampuan tinggi dengan
testee yang berkemampuan rendah. Item soal yang terlalu mudah akan mampu dijawab benar
oleh siswa yang memiliki kemampuan tinggi dan rendah. Sebaliknya item soal yang terlalu
sulit, kedua kelompok testee menjawab salah. Dengan demikian daya diskrimansi item
tersebut rendah atau tidak baik.
Perlu diingat bahwa besarnya harga P yang dihitung merupakan indeks kesukaran item soal
bagi seluruh kelompok testee, buka indeks kesukaran bagi masing-masing testee secara
individual. Taraf kesukaran bagi masing-masing testee adalah berbeda-beda dan kita tidak
tahu seberapa sulit atau seberapa mudah suatu item soal bagi siswa. Harga P yang dihitung
dalam kelompok hanya merupakan rata-rata indeks kesukaran bagi seluruh siswa dalam
kelompok itu. Apa yang kita ketahui adalah apabila testee mampu menjawab benar suatu item
soal berarti taraf kesukaran item tersebut lebih rendah dari pada taraf kemampuannya dalam
menjawab. Sebaliknya, apabila testee salah menjawab suatu item soal berarti bahwa tingkat
kemampuannya lebih rendah dari pada taraf kesukaran item yang bersangkutan.
2. Daya Beda Item
Terdapat dua konsep “daya beda”, yang pertama adalah kemampuan suatu item soal dalam
membedakan antara siswa yang memiliki kemampuan tinggi / baik / good student dengan
siswa yang memiliki kemampuan rendah / poor student (Fernandes, 1984: 27). Sementara
konsep yang kedua, daya beda item adalah tingkat kesesuaian antara item soal dengan

keseluruhan soal dalam membedakan antara mereka yang tinggi kemampuannya dan mereka
yang rendah kemampuannya dalam hal yang diukur oleh tes yang bersangkutan. (Suryabrata,
1997: 100).
Kedua konsep tersebut didasarkan atas asumsi bahwa dalam suatu kelompok testee terdapat
Kelompok Tinggi dan Kelompok Rendah. Suatu item soal yang baik adalah item soal yang
hanya mampu dijawab benar oleh testee yang memang memiliki kemampuan (Kelompok
Tinggi). Kalau proporsi penjawab benar dari dua kelompok tersebut sama, berarti item soal
tersebut tidak mampu membedakan antara mereka yang berkemampuan tinggi dan mereka
yang kemampuan rendah. Apalagi bila suatu item soal ternyata justru dapat dijawab benar
oleh sebagian besar subyek Kelompok Rendah, sedangkan sebagian besar subyek Kelompok
Tinggi tidak banyak yang mampu menjawab dengan benar, maka hal itu menunjukkan bahwa
item soal tersebut menyesatkan karena daya diskriminasinya terbalik (minus).
Untuk menghitung Daya Beda antara testee Kelompok Tinggi dengan testee Kelompok
Rendah, pada konsep daya beda yang pertama menggunakan formula sebagai berikut:
Keterangan:
D = indeks diskriminasi item
BT = jumlah kelompok tinggi yang menjawab benar
JT = jumlah kelompok tinggi
BR = jumlah kelompok renah yang menjawab benar
JR = jumlah kelompok rendah.
Untuk penghitungan indeks daya beda terlebih dahulu testee dipisahkan ke dalam Kelompok
Tinggi dan Kelompok Rendah. Pembagian kelompok ini didasarkan atas hasil jawaban benar
oleh testee terhadap keseluruhan tes. Testee diurutkan dari yang jumlah jawaban benar
tertinggi hingga jumlah jawaban benar terendah. Apabila jumlah seluruh testee kurang dari
100, pengelompokan dapat dilakukan dengan membagi seluruh testee menjadi dua (masingmasing kelompok 50 % = 50 testee). Sedangkan jika testee berjumlah lebih dari 100, untuk
memilih Kelompok Atas dapat diambil 27 % testee teratas (rankingnya), dan untuk
Kelompok Bawah diambil 27 % testee terbawah (ranking dari bawah), masing-masing
kelompok tersebut mewakili Kelompok Atas dan Bawah.
Besarnya indeks diskriminasi item soal merentang antara -1,00 hingga 1,00. Klasifikasi
tingkat diskriminasi soal serta interpretasinya, menurut Suharsimi Arikunto (1995: 223)
dengan sedikit modofikasi dari penulis, adalah sebagai berikut:
Tabel.1 Indeks Daya Beda dan Interpretasinya
Indeks Daya Beda
Interpretasi
Negatif
Sangat jelek
0,00 – 0,20
Jelek (poor)
0,21 – 0.40
Cukup (satisfactory)
0,41 – 0,70
Baik (good)
0,71 – 1,00
Baik sekali (excellent)

Sementara itu, untuk menghitung daya beda butir soal pada konsep yang kedua, yakni
kesesuaian item dengan keseluruhan tes dalam membedakan antara mereka yang tinggi
kemampuannya dan mereka yang rendah kemampuannya, teknik yang dipergunakan adalah
dengan menggunakan teknik Korelasi Biserial dan teknik Korelasi Point Biserial. Rumus
Korelasi Biserial yang dipergunakan adalah sebagai berikut:
Keterangan:
Xb : rata-rata skor kriteria subyek yang menjawab benar
Xs : rata-rata skor kriteria subyek yang menjawab salah
St : simpangan baku skor kriteria semua subyek
P : proporsi subyek yang menjawab benar terhadap semua subyek
Y : Ordinat dalam kurve normal yang membagi menjadi P dan 1-P
Bagian esensial dalam rumus di atas adalah perbedaan antara kedua rata-rata dalam
perbandingan dengan simpangan baku. Makin besar perbedaan kedua rata-rata (Xb – Xs) itu
akan semakin tinggi korelasi biserial, dan berarti makin tinggi daya beda soal.
Teknik lain yang biasa digunakan untuk menghitung indeks diskriminasi adalah teknik
Korelasi Point-Biserial (biserial titik), yang formulasinya sebagai berikut:
Keterangan:
Xb = rata-rata skor kriteria yang menjawab benar
Xs = rata-rata skor kriteria yang menjawab salah
St = simpangan baku skor kriteria total
p = proporsi jawaban benar terhadap semua jawaban
q=1–p
Mana di antara kedua teknik tersebut yang hendak dipergunakan, tergantung kepada
pertimbangan yang mendasari pemilihan tersebut. Sementara ahli lebih menyukai r pbis
karena koefisen ini memberikan informasi yang lebih dari pada yang diberikan r bis. Nilai r
pbis terpengaruh oleh p yang harga maksimumnya akan diperoleh kalau p = 0,50. Ini berarti
bahwa koefisien ini cenderung mengutamakan soal-soal yang mempunyai taraf kesukaran
rata-rata. Dengan istilah lain korelasi Point-Biserial merupakan kombinasi antara hubungan
soal dengan kriteria serta taraf kesukaran. Sementara kelompok ahli lain lebih menyukai
menggunakan korelasi Biserial karena ingin memperlakukan korelasi antara soal dengan
kriteria bebas dari taraf kesukaran.
Hubungan antara Tingkat Kesukaran dan Daya Beda
Tingkat Daya Beda yang “tinggi” pada umumnya berada pada Tingkat Kesukaran “sedang”
ke atas. Sementara itu Tingkat Kesukaran yang “tinggi” tidak selalu menunjukkan Daya Beda
yang tinggi. Dapat terjadi Tingkat Kesukaran menunjukkan “baik” atau “cukup” sementara
Daya bedanya 0 (nol), jika proporsi jawaban benar Kelompok Atas (tinggi) sama dengan
proporsi jawaban benar Kelompok Rendah (bawah). Bahkan dapat terjadi Tingkat Kesukaran
“baik” , sementara Daya Bedanya “negatif” (minus), jika ternyata proporsi jawaban benar
Kelompok Rendah lebih besar dari pada proporsi jawaban benar Kelompok Tinggi.
3. Berfungsi Tidaknya Distraktor / Pengecoh
Analisis butir ini, sebagaimana telah dikemukakan penulis di awal bagian ini, hanya berlaku
untuk soal berbentuk pilihan ganda (multiplr choice). Dalam soal bentuk ini alternatif
jawaban (option) yang disediakan (kadang 3, 4 atau 5 pilihan) satu di antaranya merupakan
kunci jawaban sedangkan yang lainnya merupakan distraktor.
Konsep dasar dalam analisis ini adalah bahwa distraktor yang baik adalah distraktor yang
mampu mengecoh testee untuk memilihnya, sehingga manakala tidak ada satu pun di antara
testee yang memilihnya, maka dapat dikatakan distraktor atau pengecoh tersebut tidak
berfungsi.

Berapa ukuran suatu distraktor telah berfungsi. Menurut Suharsimi Arikunto (1995: 226)
secara umum suatu distraktor dikatakan telah berfungsi dengan baik manakala distraktor
tersebut dipilih minimal 5 % dari seluruh testee. Sementara Fernandes (1984: 29)
mensyaratkan lebih kecil lagi, yakni minimum 2 %.
Keterbatasan Teori Klasik Analisis Butir
Meskipun teori Klasik analisis butir soal telah banyak dipergunakan, namun ternyata
memiliki kelemahan. Kelemahan utama adalah bahwa hasil analisis tergantung pada
kelompok peserta tes (testee) dan kelompok soal yang diteskan (Hambleton, 1991: 2-3).
Suatu butir soal dapat memiliki indeks kesukaran tinggi (soal mudah) jika diujikan pada
sekelompok testee yang memiliki kemampuan tinggi. Sebaliknya butir soal tersebut akan
memiliki indeks kesukaran rendah (soal sulit) manakala diujikan pada sekelompok siswa /
testee yang memiliki kemampuan rendah.
Begitu juga dengan skor yang diperoleh testee akan tergantung pada tingkat kesukaran suatu
soal. Seorang siswa akan memiliki tingkat skor tinggi manakala kepadanya diberikan soal
yang mudah (indeks kesukaran tinggi). Sebaliknya siswa yang sama akan memiliki skor
rendah manakala kepadanya diberikan soal yang sulit (indeks kesukaran rendah).
B. TEORI RESPON BUTIR
Teori Respon Butir merupakan teori analisis butir soal yang berkembang setelah
berkembangnya teknologi komputer. Hal ini disebabkan dalam Teori Respon Butir
memerlukan perhitungan yang lebih rumit, sehingga akan menjadi kurang efisien dan praktis
untuk dilakukan penghitungan secara manual.
Teori Respon Butir memiliki tiga model, yaitu model satu parameter, dua parameter dan tiga
parameter (Hambleton & Swaminathan, 1991). Model satu parameter dikenal dengan Model
Rasch. Dalam model ini terdapat dua asumsi, yaitu:
1. Semua butir memiliki daya pembeda yang sama
2. Peluang menjawab butir benar bagi mereka yang memiliki kemampuan rendah sama
dengan 0 (nol).
Dengan kata lain semua kurve karakteristik butir-butir model ini adalah sejajar atau
mendekati sejajar. Oleh karena itu parameter butir pada model Rasch adalah hanya tingkat
kesulitan butir, sedangkan parameter daya pembeda dianggap sama, dan dugaan pseudo
dianggap sama dengan nol.
Persamaan model satu parameter yang dikenal dengan model Rash dapat ditulis sebagai
berikut:
Pi (q) adalah peluang menjawab benar butir I, D = 1,7 dan q adalah kemampuan, serta b
adalah tingkat kesukaran butir. Model dua parameter menggunakan asumsi bahwa peluang
menjawab benar bagi mereka yang memiliki kemampuan rendah adalah 0 (nol), sehingga
hanya ada dua parameter yang ditaksir, yaitu tingkat kesukaran dan daya pembeda. Pada tiga
parameter tidak menggunakan asumsi tentang parameter butir, sehingga tiga parameter butir,
yaitu tingkat kesukaran, daya pembeda dan faktor dugaan, ketiganya ditaksir besarnya.
Dilihat dari kesederhanaannya, model satu parameter tampak paling sederhana, namun
menggunakan asumsi yang lebih banyak. Sifat ini yang menjadi pertimbangan bagi Balitbang
depdikbud untuk menggunakan model satu parameter, yang dikenal dengan Model Rasch,
dalam mengembangkan jaringan pengujian di Indonesia.
Untuk model 2 parameter, parameter yang digunakan adalah taraf kesukaran butir bj dan daya
pembedaan butir aj. Model logistik Teori respon Butir dengan 2 parameter adalah sebagai
berikut:
Dalam model logistik untuk Teori Respon Butir dengan 3 parameter, dengan menambahkan
parameter cj yakni parameter kebetulan menjawab dengan benar ke dalam model logistik 2
parameter, sehingga diperoleh model logistik 3 parameter sebagai berikut:

Dengan model tiga parameter, maka tingkat kemungkinan tebakan tergantung pada jumlah
option yang disediakan. Jika option yang disediakan berjumlah 5 (lima), maka tingkat
kemungkinan menebak benar ( c ) secara teori untuk masing-masing butir adalah 0,20, dalam
prakteknya tidak mesti masing-masing option memiliki peluang yang sama. Dalam teori
Respon Butir parameter peluang tebakan butir soal yang baik berkisar antara 0 sampai
dengan +0,35. Harga parameter lebih dari 0,35 berarti soal tersebut harus diganti.
Sementara untuk analisis daya beda soal (a), Hambleton et al (1991) menjelaskan apabila
suatu butir soal memiliki daya pembeda bernilai negatif, berarti butir soal tersebut harus
diganti atau dibuang, sedangkan daya pembeda > +2 jarang terjadi. Sehingga daya beda yang
berkisar antara 0 sampai dengan +2 menunjukkan bahwa butir soal tersebut dapat
membedakan antara peserta yang tinggi kemampuannya dengan yang rendah kemampuannya.
Kriteria untuk tingkat kesukaran (b), butir-butir soal yang memiliki nilai lebi dari +2 atau b >
+2 adalah butir-butit soal yang dianggap terlalu sukar. (Hambleton, te al, 1991). Butir yang
terlalu sukar tidak dapat melakukan fungsi ukurnya dengan baik, karena peserta tes akan
cenderung menjawab dengan menggunakan tebakan. Harga parameter tingkat kesukaran yang
baik berkisar antara 0 sampai dengan +2. Butir soal yang memiliki harga parameter lebih
kecil dari -2 adalah butir soal yang terlalu mudah harus diganti. Butir soal yang memiliki
harga parameter antara –2 sampai dengan 0 adalah butir soal yang harus direvisi.
Dibandingkan dengan teori Tes Klasik, teori Respon Butir memiliki kelemahan yakni pada
penghitungan yang kompleks serta membutuhkan ukuran cuplikan yang besar. Namun karena
penghitungan Teori respon Butir menggunakan paket program komputer, maka kelemahan
tersebut dapat diatasi.
Tentang iklan-iklan ini

Bagikan jika bermanfaat
 Twitter
 Facebook5
 Google

 Tanggal 13 Oktober 2013
 Tag Makalah, tugas kuliah
 Komentar 2 Komentar

Navigasi pos
PERBANDINGAN KURIKULUM
TEORI BELAJAR BAHASA

2 thoughts on “DAYA BEDA DAN TINGKAT
KESUKARAN SOAL”

1.

Noun Jiya

tentang keseimbangan tingkat kesukaran soal ada sumber buku/jurnalnya ngak? lg
butuh bgt nih, judulnya apa? trims.
Suka
o 10 Desember 2015 at 4:06 PM
o Balas
o djoythoharry
hehehe….untuk buku bisa dicari di perpustakaan atau di kakek google…
hehehehe…
Suka



30 Januari 2016 at 1:52 PM
Balas

Tinggalkan Balasan

 Ikuti