78 yang digunakan oleh peneliti berdasarkan data yang digunakan adalah data
kualitatif dan kuantitatif.
1. Data Kualitatif
Data kualitatif dalam penelitian ini diperoleh dari wawancara dengan guru kelas IV. Selain itu, data kualitatif juga diperoleh dari
hasil validasi produk yang berupa saran serta masukan yang diberikan dua ahli matematika dan tiga guru. Peneliti melakukan analisis data
kualitatif dengan menyimpulkan data yang telah diperoleh dari wawancara dengan guru dan saran serta masukan dari ahli matematika
dan guru.
2. Data Kuantitatif
Data kuantitatif dalam penelitian ini diperoleh dari kuesioner penilaian validasi desain produk dan analisis butir soal yang mencakup
tingkat kesukaran, daya pembeda dan pengecoh. Peneliti melakukan analisis butir soal menggunakan aplikasi TAP
Test Analysis Program version
14.7.4. Teknik analisis data dilakukan melalui langkah-langkah berikut.
a. Kuesioner
Analisis data pada kuesioner didapat dari hasil validasi produk oleh dua ahli matematika dan tiga guru SD. Kuesioner yang
digunakan tersusun atas 17 pernyataan. Peneliti menggunakan rentang skor berdasarkan skala
likert
yaitu dengan menggunakan model empat pilihan dengan rentang skor 1-4. Hasil validasi ahli
79 dan guru kemudian dianalisis dan dikategorikan ke dalam tabel
berikut Widoyoko, 2015: 69. Tabel 3. 4 Klasifikasi Hasil Validasi Ahli Menggunakan Skala 4
Menurut Widoyoko Skor akhir
Klasifikasi 3.25 M ≤ 4.00
Sangat baik 2.50
M ≤ 3.25 Baik
1.75 M ≤ 2.50
Kurang Baik 1.00
M ≤ 1.75 Tidak Baik
Keterangan : M = rerata skor pada aspek yang dinilai
Hasil skor yang diperoleh kemudian dijadikan acuan dalam memberikan kesimpulan mengenai kelayakan tes hasil belajar untuk
diujicobakan atau tidak. Peneliti menyediakan 4 pilihan kesimpulan yaitu 1 tidak layak untuk digunakanuji coba lapangan 2 kurang
layak untuk digunakanuji coba lapangan 3 layak untuk digunakanuji coba lapangan dengan perbaikan sesuai saran 4
layak untuk digunakanujicoba lapangan. Penetapan kesimpulan diambil berdasarkan dengan skor akhir dan klasifikasi yang
diperoleh. Jika perolehan skor akhir 1.00 M ≤ 1.75 dan termasuk
ke dalam klasifikasi tidak baik maka kesimpulan yang diberikan adalah tidak layak untuk digunakanuji coba lapangan. Perolehan
skor akhir 1.75 M ≤ 2.50 dan termasuk ke dalam klasifikasi kurang baik maka kesimpulan yang diberikan adalah kurang layak
80 untuk digunakanuji coba lapangan. Perolehan skor akhir 2.50 M
≤ 3.25 dan termasuk ke dalam klasifikasi baik maka kesimpulan yang diberikan adalah layak untuk digunakanuji coba lapangan
dengan perbaikan sesuai saran. Perolehan skor akhir 3.25 M ≤ 4.00 dan termasuk ke dalam klasifikasi sangat baik maka
kesimpulan yang diberikan adalah layak untuk digunakanujicoba lapangan.
b. Analisis Butir Soal
Data kuantitatif dari hasil uji coba tes dianalisis dengan menggunakan bantuan aplikasi
Test Analysis Program
TAP
version
14.7.4. 1
Validitas Suatu tes dikatakan memiliki validitas bila hasilnya sesuai
dengan maksud dilakukannya tes. Hasil dari suatu tes merupakan besaran yang mencerminkan secara tepat fakta atau
keadaan sesungguhnya dari apa yang diukur. Dengan demikian, alat ukur yang valid untuk tujuan tertentu ialah alat ukur yang
mampu mengukur apa yang hendak diukur Hamzah, 2014: 216. Yusuf 2015: 70 mengemukakan bahwa tinggi
rendahnya validitas soal secara keseluruhan berhubungan erat dengan validitas tiap butir soal tersebut.
Teknik untuk menganalisis tingkat validitas yang digunakan dalam penelitian ini adalah korelasi biserial. Rumus
korelasi biserial adalah sebagai berikut Arikunto 2005: 79 : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
81 Y
pbi
=
− �
√ Keterangan:
Y
pbi
= koefisien korelasi biserial M
p
= rerata skor pada tes dari peserta tes yang memiliki jawaban benar
M
t
= rerata skor total S
t
= standar deviasi skor total p
= proporsi siswa yang menjawab benar p=
� � � � � �
� � ℎ �
ℎ �
q = proporsi siswa yang menjawab salah
q= 1-p JihadHaris 2012: 180 mengklasifikasikan tingkatan
validitas menjadi lima yaitu: Tabel 3. 5 Kriteria Validitas
No. Rentang Nilai
Kategori 1
0,80 sampai ≤ 1,00 Sangat Tinggi
2 0,60 sampai ≤ 0,80
Tinggi 3
0,40 sampai ≤ 0,60 Cukup
4 0,20 sampai ≤ 0,40
Rendah 5
r sampai ≤ 0,20 Sangat Rendah
Hasil analisis validitas pada penelitian ini dapat diihat melalui hasil
point biserial
pada TAP.
Point biserial
atau korelasi
point biserial
adalah korelasi
product moment
yang PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
82 diterapkan
pada data,
dimana variabel-variabel
yang dikorelasikan sifatnya masing-masing berbeda satu sama lain.
Item yang dapat dikatakan valid adalah item yang mempunyai nilai r
hitung
r
tabel
dengan atas dasar taraf signifikansi yang digunakan sebesar 5 atau 0.05 Sugiyono,
2010: 257. Berdasarkan tabel signifikansi, r
tabel
atas dasar signifikasi 5 untuk n=30 adalah 0.360. Soal dikatakan valid
jika nilai
item
nya mencapai minimal 0.360. Hasil analisis validitas menggunakan teknik
point bisserial
pada TAP
Test Analysis Program
dapat dilihat pada gambar berikut:
Gambar 3. 3 Hasil validitas pada TAP
Test Analysis Program
Hasil
point biserial
menunjukkan besarnya tingkat validitas setiap butir soal.
Point biserial
kemudian dibandingkan dengan r
tabel
yang telah ditetapkan sebelumnya yaitu 0.36. Jika
point biserial
butir soal menunjukkan hasil 0.36 maka butir soal tersebut dikatakan valid.
validitas PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
83 2
Reliabilitas Yusuf 2015: 74 mengemukakan bahwa suatu alat ukur
dikatan reliabel apabila alat ukur itu diujikan kepada objek atau subjek yang sama secara berulang-ulang, hasilnya akan tetap
sama, konsisten, stabil atau relatif sama. Dalam penelitian ini, peneliti menggunakan metode belah dua atau
Split-half Method
untuk melakukan uji reliabilitas. Peneliti menggunakan metode ini karena tes hasil belajar hanya diujicobakan satu kali. Uji
reliabilitas belah dua dilakukan dengan cara membelah atas pembelahan
ganjil-genap. Pembagian
ganjil-genap ini
dilakukan oleh peneliti karena dalam pembagian tingkat kesukaran soal lebih merata. Langkah pertama menggunakan
rumus
product moment
dengan angka kasar menurut Arikunto 2013: 213 sebagai berikut:
r
xy
=
∑ − ∑
∑ √{ ∑ − ∑
}{ ∑ − ∑ }
keterangan:
r
xy
=
koefisien korelasi antara variabel x dan y dua variabel yang dikorelasikan.
Langkah kedua menggunakan formula
Spearman-Brown
sebagai berikut Arikunto, 2013: 223-224:
r
11
=
+
84 keterangan:
r
12 ½
= korelasi antara skor-skor setiap belahan tes r
11
= koefisien realibilitas yang sudah disesuaikan
Guilford dalam
Jihad dan
Haris, 2012:181
mengemukakan bahwa interpretasi reliabilitas dibagi menjadi 5 yaitu:
Tabel 3. 6 Kriteria Reliabilitas Koefisien Korelasi
Kualifikasi r
11
≤ 0.20 Sangat rendah
0.20 r
11
≤ 0.40 Rendah
0.40 r
11
≤ 0.70 Sedang
0.70 r
11
≤ 0.90 Tinggi
0.90 r
11
≤ 1.00 Sangat tinggi
Hasil reliabilitas yang dianalisis menggunakan TAP
Test Analysis Program
kemudian dianalisis menggunakan tabel 3.6 kriteria reliabilitas. Berdasarkan kriteria reliabilitas pada tabel
3.6 maka peneliti menetapkan kualifikasi sedang dengan koefisien korelasi 0.40 r
11
≤ 0.70, tinggi dengan koefisien korelasi 0.70 r
11
≤ 0.90 dan sangat tinggi dengan koefisien korelasi 0.90 r
11
≤ 1.00 untuk menyatakan reliabilitas produk.
Hasil analisis reliabilitas pada TAP
Test Analysis Program
dapat dilihat pada gambar berikut: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
85 Gambar 3. 4 Hasil uji reliabilitas pada TAP
Test Analysis Program
Hasil analisis reliabilitas pada TAP
Test Analysis Program
kemudian dibandingkan dengan tabel 3.6 untuk menentukan kriteria reliabilitas.
3 Daya Pembeda
Widoyoko 2014: 136 mengemukakan daya beda butir soal adalah indeks yang menunjukkan tingkat kemampuan butir soal
membedakan antara peserta tes yang pandai kelompok atas dengan peserta tes yang kurang pandai kelompok bawah
diantara peserta tes. Waridjan 1991: 386 menambahkan bahwa daya pembeda soal tes hasil belajar dapat direntang ke
dalam jenjang-jenjang daya pembeda, mulai dari jenjang berdaya pembeda maksimum negatif -1 dimana soal dapat
dikerjakan dengan benar oleh seluruh peserta tes berprestasi belajar rendah namun tidak dapat dikerjakan dengan benar oleh
seluruh peserta tes berprestasi belajar tinggi; jenjang tidak Reliabilitas
86 berdaya pembeda 0 dimana suatu soal dapat dikerjakan
dengan benar baik semua peserta tes berprestasi rendah maupun semua peserta berprestasi tinggi; sampai dengan
jenjang berdaya pembeda maksimum positif +1. Dalam daya pembeda mengenal tanda negatif - yang digunakan jika soal
“terbalik” menunjukkan kualitas peserta tes. Terbalik maksudnya adalah soal yang berdaya beda negatif dianggap
sulit oleh siswa yang pandai dan dianggap mudah oleh siswa yang kurang pandai.
Berikut adalah rumus untuk menghitung indeks daya beda menurut Widoyoko:
D =
� −�
Keterangan: D
= daya beda Ba
= jumlah jawaban benar kelompok atas Bb
= jumlah jawaban benar kelompok bawah N
= jumlah peserta tes dalam kelompok atas dan bawah
Widoyoko 2014: 137 mengklasifikasi daya pembeda sebagai berikut:
87 Tabel 3. 7 Klasifikasi Daya Pembeda
Koefisien Korelasi Kualifikasi
0.00 – 0.20
Tidak baik, dibuang atau diganti 0.21
– 0.30 Kurang baik, perlu pembahasan dan revisi
0.31 – 0.40
Cukup baik, dapat digunakan dengan revisi 0.41
– 1.00 Sangat baik, dapat digunakan
Berdasarkan kriteria daya pembeda tersebut, peneliti menetapkan kriteria cukup baik yang berkisar 0.31
– 0.40 dan kriteria sangat baik yang berkisar 0.41
– 1.00 untuk menyatakan soal dapat membedakan kelompok atas dan
kelompok bawah. Daya pembeda pada analisis TAP
Test Analysis Program
dapat dilihat pada gambar berikut:
Gambar 3. 5 Hasil uji daya pembeda pada TAP
Test Analysis Program
Discrimination Index
pada TAP
Test Analysis Program
menunjukkan besarnya indeks daya pembeda setiap soal. Daya Beda
88 Besarnya
discrimination index
kemudian dianalisis dan dibandingkan dengan tabel 3.7 dan ketetapan kriteria daya
pembeda yang telah ditetapkan peneliti untuk menyatakan butir soal mampu membedakan siswa kelompok atas dengan siswa
kelompok bawah. 4
Tingkat Kesukaran Arikunto 2012: 222 mengungkapkan bahwa soal yang
baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar. Soal yang terlalu mudah tidak merangsang siswa untuk
mempertinggi usaha memecahkannya, sedangkan bila soal dibuat terlalu sukar maka akan menyebabkan siswa menjadi
putus asa dan tidak mempunyai semangat untuk mencoba lagi karena di luar jangkauannya Arikunto 2012: 222. Widoyoko
2015: 132 mengungkapkan bahwa tingkat kesulitan adalah proporsi peserta tes menjawab dengan benar terhadap suatu
butir soal. Angka yang menunjukkan sulit atau mudahnya suatu butir soal dinamakan dengan indeks kesukaran yang
dilambangkan dengan p
proportion correct
. Tingkat kesulitan butir soal berkisar antara 0.0 yang berarti tidak ada satu pun
peserta tes yang dapat menjawab dengan benar butir soal tersebut sampa dengan 1.0 yang berarti semua peserta tes dapat
menjawab dengan benar butir soal itu. Berikut adalah rumus untuk menghitung indeks kesukaran
menurut Arikunto 2005: 208 : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
89 P =
� ��
Keterangan: P
= indeks kesukaran B
= banyaknya siswa yang menjawab soal itu dengan betul
JS = jumlah seluruh siswa peserta tes
Berikut adalah kualifikasi indeks kesukaran menurut Arikunto 2005: 210.
Tabel 3. 8 Klasifikasi Indeks Kesukaran Koefisien korelasi
Kualifikasi 0.00
– 0.30 Sukar
0.31 – 0.70
Sedang 0.71
– 1.00 Mudah
Berdasarkan tabel 3.8 di atas maka dapat diketahui bahwa soal termasuk ke dalam kategori sukar bila memiliki indeks
kesukaran 0.00 – 0.30, soal termasuk ke dalam kategori sedang
bila memiliki indeks kesukaran 0.31 – 0.70 dan soal termasuk
ke dalam ketegori mudah bila memiliki indeks kesukaran 0.71 – 1.00. Berdasarkan proporsi mudah-sedang-sukar yang baik
menurut Widoyoko 2014: 136 yaitu 25 mudah, 50 sedang dan 25 sukar maka tingkat kesukaran pada tes hasil belajar
yang disusun oleh peneliti diharapkan dapat sesuai dengan kurva normal yaitu 25 mudah, 50 sedang dan 25 sukar.
90 Hasil analisis tingkat kesukaran pada TAP
Test Analysis Program
dapat dilihat dapa gambar berikut:
Gambar 3. 6 Hasil tingkat kesukaran pada TAP
Test Analysis Program
Item difficulty
pada TAP
Test Analysis Program
berisi tentang angka bentuk desimal yang menunjukkan tingkat
kesukaran setiap soal. Besarnya
Item Difficulty
setiap butir soal kemudian dianalisis dan dibandingkan dengan tabel 3.8 untuk
menyatakan soal termasuk ke dalam kategori mudah, sedang atau sukar.
5 Analisis Pengecoh
Arikunto 2005: 220 mengemukakan bahwa suatu distraktor pengecoh dapat dikatakan berfungsi baik jika paling sedikit
dipilih oleh 5 pengikut tes. Pengecoh yang tidak dipilih sama sekali oleh peserta tes menunjukkan bahwa pengecoh itu jelek.
Sebaliknya sebuah pengecoh dapat dikatakan berfungsi dengan baik apabila distraktor tersebut mempunyai daya tarik yang
Tingkat kesukaran PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
91 besar bagi peserta tes yang kurang memahami konsep atau
kurang menguasai bahan. Dalam penelitian ini peneliti menggunakan skor 5 atau 0.05
sebagai batas minimal kriteria pengecoh yang baik. Hasil analisis pengecoh pada TAP
Test Analysis Program
dapat dilihat pada gambar berikut:
Gambar 3. 7 Hasil analisis pengecoh pada TAP
Test Analysis Program
Pengecoh dalam hasil analisis pengecoh pada TAP
Test Analysis Program
dikatakan berfungsi jika paling sedikit dipilih 5 peserta tes. Dalam penelitian ini, pengecoh dikatakan berfungsi
jika dipilih paling sedikit oleh 2 siswa peserta tes. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
92
BAB IV
HASIL PENELITIAN DAN PEMBAHASAN A.
Hasil Penelitian
Hasil penelitian ini akan membahas mengenai langkah-langkah pengembangan tes hasil belajar dan kualitas produk pengembangan tes
hasil belajar.
1. Langkah-Langkah Penelitian Pengembangan