80 untuk digunakanuji coba lapangan. Perolehan skor akhir 2.50 M
≤ 3.25 dan termasuk ke dalam klasifikasi baik maka kesimpulan yang diberikan adalah layak untuk digunakanuji coba lapangan
dengan perbaikan sesuai saran. Perolehan skor akhir 3.25 M ≤ 4.00 dan termasuk ke dalam klasifikasi sangat baik maka
kesimpulan yang diberikan adalah layak untuk digunakanujicoba lapangan.
b. Analisis Butir Soal
Data kuantitatif dari hasil uji coba tes dianalisis dengan menggunakan bantuan aplikasi Test Analysis Program TAP
version 14.7.4. 1
Validitas Suatu tes dikatakan memiliki validitas bila hasilnya sesuai
dengan maksud dilakukannya tes. Hasil dari suatu tes merupakan besaran yang mencerminkan secara tepat fakta atau
keadaan sesungguhnya dari apa yang diukur. Dengan demikian, alat ukur yang valid untuk tujuan tertentu ialah alat ukur yang
mampu mengukur apa yang hendak diukur Hamzah, 2014: 216. Yusuf 2015: 70 mengemukakan bahwa tinggi
rendahnya validitas soal secara keseluruhan berhubungan erat dengan validitas tiap butir soal tersebut.
Teknik untuk menganalisis tingkat validitas yang digunakan dalam penelitian ini adalah korelasi biserial. Rumus
korelasi biserial adalah sebagai berikut Arikunto 2005: 79 : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
81 Y
pbi
=
− �
√ Keterangan:
Y
pbi
= koefisien korelasi biserial M
p
= rerata skor pada tes dari peserta tes yang memiliki jawaban benar
M
t
= rerata skor total S
t
= standar deviasi skor total p
= proporsi siswa yang menjawab benar p=
� � � � � �
� � ℎ �
ℎ �
q = proporsi siswa yang menjawab salah
q= 1-p JihadHaris 2012: 180 mengklasifikasikan tingkatan
validitas menjadi lima yaitu: Tabel 3. 5 Kriteria Validitas
No. Rentang Nilai
Kategori 1
0,80 sampai ≤ 1,00 Sangat Tinggi
2 0,60 sampai ≤ 0,80
Tinggi 3
0,40 sampai ≤ 0,60 Cukup
4 0,20 sampai ≤ 0,40
Rendah 5
r sampai ≤ 0,20 Sangat Rendah
Hasil analisis validitas pada penelitian ini dapat diihat melalui hasil point biserial pada TAP. Point biserial atau
korelasi point biserial adalah korelasi product moment yang PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
82 diterapkan
pada data,
dimana variabel-variabel
yang dikorelasikan sifatnya masing-masing berbeda satu sama lain.
Item yang dapat dikatakan valid adalah item yang mempunyai nilai r
hitung
r
tabel
dengan atas dasar taraf signifikansi yang digunakan sebesar 5 atau 0.05 Sugiyono,
2010: 257. Berdasarkan tabel signifikansi, r
tabel
atas dasar signifikasi 5 untuk n=30 adalah 0.360. Soal dikatakan valid
jika nilai itemnya mencapai minimal 0.360. Hasil analisis validitas menggunakan teknik point bisserial pada TAP Test
Analysis Program dapat dilihat pada gambar berikut:
Gambar 3. 3 Hasil validitas pada TAP Test Analysis Program Hasil point biserial menunjukkan besarnya tingkat validitas
setiap butir soal. Point biserial kemudian dibandingkan dengan r
tabel
yang telah ditetapkan sebelumnya yaitu 0.36. Jika point biserial butir soal menunjukkan hasil 0.36 maka butir soal
tersebut dikatakan valid. validitas
83 2
Reliabilitas Yusuf 2015: 74 mengemukakan bahwa suatu alat ukur
dikatan reliabel apabila alat ukur itu diujikan kepada objek atau subjek yang sama secara berulang-ulang, hasilnya akan tetap
sama, konsisten, stabil atau relatif sama. Dalam penelitian ini, peneliti menggunakan metode belah dua atau Split-half Method
untuk melakukan uji reliabilitas. Peneliti menggunakan metode ini karena tes hasil belajar hanya diujicobakan satu kali. Uji
reliabilitas belah dua dilakukan dengan cara membelah atas pembelahan
ganjil-genap. Pembagian
ganjil-genap ini
dilakukan oleh peneliti karena dalam pembagian tingkat kesukaran soal lebih merata. Langkah pertama menggunakan
rumus product moment dengan angka kasar menurut Arikunto 2013: 213 sebagai berikut:
r
xy
=
∑ − ∑
∑ √{ ∑ − ∑
}{ ∑ − ∑ }
keterangan:
r
xy
=
koefisien korelasi antara variabel x dan y dua variabel yang dikorelasikan.
Langkah kedua menggunakan formula Spearman-Brown sebagai berikut Arikunto, 2013: 223-224:
r
11
=
+
84 keterangan:
r
12 ½
= korelasi antara skor-skor setiap belahan tes r
11
= koefisien realibilitas yang sudah disesuaikan
Guilford dalam
Jihad dan
Haris, 2012:181
mengemukakan bahwa interpretasi reliabilitas dibagi menjadi 5 yaitu:
Tabel 3. 6 Kriteria Reliabilitas Koefisien Korelasi
Kualifikasi r
11
≤ 0.20 Sangat rendah
0.20 r
11
≤ 0.40 Rendah
0.40 r
11
≤ 0.70 Sedang
0.70 r
11
≤ 0.90 Tinggi
0.90 r
11
≤ 1.00 Sangat tinggi
Hasil reliabilitas yang dianalisis menggunakan TAP Test Analysis Program kemudian dianalisis menggunakan tabel 3.6
kriteria reliabilitas. Berdasarkan kriteria reliabilitas pada tabel 3.6 maka peneliti menetapkan kualifikasi sedang dengan
koefisien korelasi 0.40 r
11
≤ 0.70, tinggi dengan koefisien korelasi 0.70 r
11
≤ 0.90 dan sangat tinggi dengan koefisien korelasi 0.90 r
11
≤ 1.00 untuk menyatakan reliabilitas produk.
Hasil analisis reliabilitas pada TAP Test Analysis Program dapat dilihat pada gambar berikut:
85 Gambar 3. 4 Hasil uji reliabilitas pada TAP
Test Analysis Program
Hasil analisis reliabilitas pada TAP Test Analysis Program kemudian dibandingkan dengan tabel 3.6 untuk
menentukan kriteria reliabilitas. 3
Daya Pembeda Widoyoko 2014: 136 mengemukakan daya beda butir soal
adalah indeks yang menunjukkan tingkat kemampuan butir soal membedakan antara peserta tes yang pandai kelompok atas
dengan peserta tes yang kurang pandai kelompok bawah diantara peserta tes. Waridjan 1991: 386 menambahkan
bahwa daya pembeda soal tes hasil belajar dapat direntang ke dalam jenjang-jenjang daya pembeda, mulai dari jenjang
berdaya pembeda maksimum negatif -1 dimana soal dapat dikerjakan dengan benar oleh seluruh peserta tes berprestasi
belajar rendah namun tidak dapat dikerjakan dengan benar oleh seluruh peserta tes berprestasi belajar tinggi; jenjang tidak
Reliabilitas PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
86 berdaya pembeda 0 dimana suatu soal dapat dikerjakan
dengan benar baik semua peserta tes berprestasi rendah maupun semua peserta berprestasi tinggi; sampai dengan
jenjang berdaya pembeda maksimum positif +1. Dalam daya pembeda mengenal tanda negatif - yang digunakan jika soal
“terbalik” menunjukkan kualitas peserta tes. Terbalik maksudnya adalah soal yang berdaya beda negatif dianggap
sulit oleh siswa yang pandai dan dianggap mudah oleh siswa yang kurang pandai.
Berikut adalah rumus untuk menghitung indeks daya beda menurut Widoyoko:
D =
� −�
Keterangan: D
= daya beda Ba
= jumlah jawaban benar kelompok atas Bb
= jumlah jawaban benar kelompok bawah N
= jumlah peserta tes dalam kelompok atas dan bawah
Widoyoko 2014: 137 mengklasifikasi daya pembeda sebagai berikut:
87 Tabel 3. 7 Klasifikasi Daya Pembeda
Koefisien Korelasi Kualifikasi
0.00 – 0.20
Tidak baik, dibuang atau diganti 0.21
– 0.30 Kurang baik, perlu pembahasan dan revisi
0.31 – 0.40
Cukup baik, dapat digunakan dengan revisi 0.41
– 1.00 Sangat baik, dapat digunakan
Berdasarkan kriteria daya pembeda tersebut, peneliti menetapkan kriteria cukup baik yang berkisar 0.31
– 0.40 dan kriteria sangat baik yang berkisar 0.41
– 1.00 untuk menyatakan soal dapat membedakan kelompok atas dan
kelompok bawah. Daya pembeda pada analisis TAP Test Analysis Program
dapat dilihat pada gambar berikut:
Gambar 3. 5 Hasil uji daya pembeda pada TAP Test Analysis Program
Discrimination Index pada TAP Test Analysis Program menunjukkan besarnya indeks daya pembeda setiap soal.
Daya Beda PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
88 Besarnya discrimination index kemudian dianalisis dan
dibandingkan dengan tabel 3.7 dan ketetapan kriteria daya pembeda yang telah ditetapkan peneliti untuk menyatakan butir
soal mampu membedakan siswa kelompok atas dengan siswa kelompok bawah.
4 Tingkat Kesukaran
Arikunto 2012: 222 mengungkapkan bahwa soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu
sukar. Soal yang terlalu mudah tidak merangsang siswa untuk mempertinggi usaha memecahkannya, sedangkan bila soal
dibuat terlalu sukar maka akan menyebabkan siswa menjadi putus asa dan tidak mempunyai semangat untuk mencoba lagi
karena di luar jangkauannya Arikunto 2012: 222. Widoyoko 2015: 132 mengungkapkan bahwa tingkat kesulitan adalah
proporsi peserta tes menjawab dengan benar terhadap suatu butir soal. Angka yang menunjukkan sulit atau mudahnya suatu
butir soal dinamakan dengan indeks kesukaran yang dilambangkan dengan p proportion correct. Tingkat kesulitan
butir soal berkisar antara 0.0 yang berarti tidak ada satu pun peserta tes yang dapat menjawab dengan benar butir soal
tersebut sampa dengan 1.0 yang berarti semua peserta tes dapat menjawab dengan benar butir soal itu.
Berikut adalah rumus untuk menghitung indeks kesukaran menurut Arikunto 2005: 208 :
89 P =
� ��
Keterangan: P
= indeks kesukaran B
= banyaknya siswa yang menjawab soal itu dengan betul
JS = jumlah seluruh siswa peserta tes
Berikut adalah kualifikasi indeks kesukaran menurut Arikunto 2005: 210.
Tabel 3. 8 Klasifikasi Indeks Kesukaran Koefisien korelasi
Kualifikasi 0.00
– 0.30 Sukar
0.31 – 0.70
Sedang 0.71
– 1.00 Mudah
Berdasarkan tabel 3.8 di atas maka dapat diketahui bahwa soal termasuk ke dalam kategori sukar bila memiliki indeks
kesukaran 0.00 – 0.30, soal termasuk ke dalam kategori sedang
bila memiliki indeks kesukaran 0.31 – 0.70 dan soal termasuk
ke dalam ketegori mudah bila memiliki indeks kesukaran 0.71 – 1.00. Berdasarkan proporsi mudah-sedang-sukar yang baik
menurut Widoyoko 2014: 136 yaitu 25 mudah, 50 sedang dan 25 sukar maka tingkat kesukaran pada tes hasil belajar
yang disusun oleh peneliti diharapkan dapat sesuai dengan kurva normal yaitu 25 mudah, 50 sedang dan 25 sukar.
90 Hasil analisis tingkat kesukaran pada TAP Test Analysis
Program dapat dilihat dapa gambar berikut:
Gambar 3. 6 Hasil tingkat kesukaran pada TAP Test Analysis Program
Item difficulty pada TAP Test Analysis Program berisi tentang angka bentuk desimal yang menunjukkan tingkat
kesukaran setiap soal. Besarnya Item Difficulty setiap butir soal kemudian dianalisis dan dibandingkan dengan tabel 3.8 untuk
menyatakan soal termasuk ke dalam kategori mudah, sedang atau sukar.
5 Analisis Pengecoh
Arikunto 2005: 220 mengemukakan bahwa suatu distraktor pengecoh dapat dikatakan berfungsi baik jika paling sedikit
dipilih oleh 5 pengikut tes. Pengecoh yang tidak dipilih sama sekali oleh peserta tes menunjukkan bahwa pengecoh itu jelek.
Sebaliknya sebuah pengecoh dapat dikatakan berfungsi dengan baik apabila distraktor tersebut mempunyai daya tarik yang
Tingkat kesukaran PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
91 besar bagi peserta tes yang kurang memahami konsep atau
kurang menguasai bahan. Dalam penelitian ini peneliti menggunakan skor 5 atau 0.05
sebagai batas minimal kriteria pengecoh yang baik. Hasil analisis pengecoh pada TAP Test Analysis Program dapat
dilihat pada gambar berikut:
Gambar 3. 7 Hasil analisis pengecoh pada TAP Test Analysis Program
Pengecoh dalam hasil analisis pengecoh pada TAP Test Analysis Program dikatakan berfungsi jika paling sedikit dipilih
5 peserta tes. Dalam penelitian ini, pengecoh dikatakan berfungsi jika dipilih paling sedikit oleh 2 siswa peserta tes.
92
BAB IV
HASIL PENELITIAN DAN PEMBAHASAN A.
Hasil Penelitian
Hasil penelitian ini akan membahas mengenai langkah-langkah pengembangan tes hasil belajar dan kualitas produk pengembangan tes
hasil belajar.
1. Langkah-Langkah Penelitian Pengembangan