View of PERBEDAAN KUALITAS MODEL PENSEKORAN KOMPOSIT DAN PENALTI DITINJAU DARI DAYA BEDA DAN RELIABILITAS BUTIR SOAL PADA MATA PELAJARAN PENDIDIKAN AGAMA ISLAM

  

PERBEDAAN KUALITAS MODEL PENSEKORAN KOMPOSIT DAN PENALTI

DITINJAU DARI DAYA BEDA DAN RELIABILITAS BUTIR SOAL PADA MATA

PELAJARAN PENDIDIKAN AGAMA ISLAM

1 1)

Siti Hajaroh

Universitas Islam Negeri Mataram

Hajaroh.saif@gmail.com

  Penelitian ini bertujuan untuk mengetahui perbedaan daya beda butir antara Abstrak :

sekor siswa yang dihitung dengan menggunakan sekor komposit dan sekor penalti pada mata

pelajaran Pendidikan Agama Islam, untuk mengetahui perbedaan reliabilitas butir antara

sekor siswa yang dihitung dengan menggunakan sekor komposit dan sekor penalti pada mata

pelajaran Pendidikan Agama Islam. Penelitian ini disebut quasi eksperimental karena data-

data diperoleh melalui kegiatan eksperimen, Quasi experimen digunakan karena pada

1

kenyataanya sulit mendapatkan kelompok kontrol yang digunakan untuk penelitian. Adapun

rancangan penelitian yang digunakan adalah dengan menggunakan The Posttest-Only Design

with nonequivalent Group. Populasi dalam penelitian ini adalah seluruh siswa kelas X SMAN

  

I Gerung Kabupaten Lombok Barat yang berjumlah 312 siswa yang kemudian diambil

secara acak yang dijadikan sebagai sampel. Uji hipotesis penelitian yakni melakukan uji

kesamaan dua rerata:kedua kelas berdistribusi normal dan homogen, maka dilakukan uji

kesamaan dua rerata (Uji-t) melalui uji dua pihak menggunakan independent sample t-test.

Hasil uji hipotesis I menunjukkan bahwa t hitung = 0,471 sehingga t hitung = 0,471

tabel(0,05:78) 1 >L =1,669Maka H diterima dan H ditolak , pada taraf signifikan

  α=0,05 artinya

tidak terdapat perbedaan Daya Beda antara sekor komposit dengan. Penalti. Ini menunjukkan

bahwa jika ditinjau dari dari rata-rata kedua sekor, maka penekoran kedua kelompok tersebut

hitung

adalah relatif sama. Dan hasil uji hipotesis ke 2 menunjukkan bahwa t = 4,2 sehingga

t hitung = 4,2>L tabel(0,05:10) =1,812, Maka H ditolak dan H 1 diterima pada taraf signifikan α=0,05

artinya terdapat perbedaan Reliabilitas antara sekor komposit dengan penalti. Melihat

perbandingan rata-rata dari kedua model pensekoran menunjukkan sekor penalti lebih tinggi

dari pada sekor komposit. Artinya bahwa reliabilitas model pensekoran penalti lebih tinggi di

banding dengan komposit Kata Kunci: Pensekoran Komposit, Penalti, Daya Beda, Reliabilitas PENDAHULUAN

  Evaluasi merupakan suatu proses yang sistematis untuk menentukan dan

  2 membuat keputusan sampai sejauh mana tujuan-tujuan pengajaran telah tercapai.

  Sementara Sudijono berpendapat bahwa evaluasi adalah kegiatan atau proses untuk mengukur dan untuk menentukan nilai, sampai dimanakah tujuan yang telah 1 Sugiyono, Metodologi Penelilian Kuantitatif, Kualitatif dan R & G (Bandung; Alafabeta, 2008), h. 77. 2 Norman E. Gronlund, Measurement and Evaluation in Teaching (New York: Machmillan Publishing Company, 1985), h. 5.

  3

  dirumuskan sudah dapat dilaksanakan. Djaali juga berpendapat bahwa evaluasi adalah proses menilai sesuatu berdasarkan kriteria atau tujuan yang telah ditetapkan, yang selanjutnya diikuti oleh pengambilan keputusan atas obyek yang dievaluasi. Sementara Nitko memberikan pendapatnya bahwa evaluasi adalah sebuah proses untuk membuat keputusan penting mengenai sejauh mana hasil belajar yang dicapai

  4 oleh siswa telah tercapai.

  Sependapat dengan Nitko, Naga memberikan definisi bahwa evaluasi adalah proses melakukan pertimbangan nilai tentang sesuatu (produk, kinerja, proses,

  5

  prosesdur, program, pendekatan, fungsi). Sementara Popham memberikan pendapat bahwa ada dua hal yang perlu diperhatikan dalam evaluasi, yaitu mengetahui validitas dan reliabilitas perangkat tes yang akan digunakan. Validitas menunjukkan apa yang hendak diukur, sedangkan reliabilitas berkenaan dengan sekor siswa sebagai peserta tes yang memiliki sekor yang sama ketika dites pada waktu dan

  6 tempat yang berbeda.

  Adapun fungsi evaluasi dalam dunia pendidikan tidak dapat dilepaskan dari tujuan evaluasi itu sendiri. Di dalam batasan tentang evaluasi pendidikan yang telah dijelaskan sebelumnya, tersirat bahwa tujuan evaluasi pendidikan adalah untuk mendapat data pembuktian yang akan menunjukkan sampai sejauh mana tingkat kemampuan dan keberhasilan siswa dalam pencapaian tujuan-tujuan kurikuler. Disamping itu juga dapat digunakan oleh guru-guru atau pengawas pendidikan untuk mengukur atau menilai sampai sejauh mana keefektifan pengalaman-pengalaman mengajar, kegiatan-kegiatan belajar, dan metode-metode mengajar yang digunakan. Dengan demikian, dapat dikatakan betapa pentingnya peranan dan fungsi evaluasi dalam proses belajar-mengajar. Secara umum evaluasi sebagai tindakan atau proses setidaknya memiliki tiga macam fungsi pokok, yaitu 1). Mengukur kemajuan, 2). Menunjang penyusunan rencana, 3). Memperbaiki dan melakukan perbaikan kembali. 3 Anas Sudijono, Pengantar Evaluasi Pendidikan (Jakarta: Raja Grafindo Persada, 2005), h.

  8. 4 Anthony J. Nitko, Educational Assessment of Student, (New Jersey: Prentice-Hall, Inc. A.

  Simon & Schuster Company, Englewoods Cliffs, 2001), h.7. 5 Dali S. Naga, Teori Pengukuran (Jakarta: Program Pasca Sarjana Universitas Negeri Jakarta, 2008), h.1. 6 W. James Popham, Modern Educational Measurement (Los Angeles: University of California, 1981), h. 371.

  Mengenai betapa pentingnya sebuah evaluasi dalam kegiatan pembelajaran, Me hrens dan Lehmann dalam Djaali mengutip suatu ungkapan yang berbunyi ” to

  

teach without testing is unthinkable ” (mengajar tanpa melakukan tes tidak masuk

  7

  akal ). Demikian juga Parnel dalam Purwanto mengemukakan sebagai berikut; Pengukuran adalah langkah awal dari pengajaran. Tanpa pengukuran, tidak akan terjadi penilaian. Tanpa penilaian, tidak akan terjadi umpan balik. Tanpa umpan balik, tidak akan memperoleh pengetahuan yang baik tentang hasil. Tanpa pengetahuan tentang hasil, tidak akan terjadi perbaikan yang sistematis

  8 dalam belajar.

  Istilah Pengukuran seringkali tertukar dengan pengertian tes.Demikian adalah lazim dikarenakan pemakaian istilah tes dan istilah pengukuran seringkali tidak mengandung arti yang berbeda dalam situasi-situasi tertentu. Cangelosi berpendapat

  9 bahwa pengukuran adalah proses pengumpulan data melalui pengamatan empiris.

  Sedangkan Silverius berpendapat bahwa pengukuran adalah suatu proses pemberian

  10

  angka pada sesuatu atau seseorang berdasarkan aturan-aturan tertentu. Jadi hasil dari pengukuran tersebut dalam bentuk angka-angka (skor). Pengukuran tidak membuahkan nilai atau baik buruknya sesuatu, tetapi hasil pengukuran dapat dipakai untuk membuat penilaian atau pengukuran.

  Pengukuran tidak melibatkan pertimbangan mengenai baik buruknya atau nilai dari tingkah laku yang sedang diukur. Seperti halnya tes, pengukuran pun tidak menentukan siapa yang lulus dan siapa yang tidak lulus. Pengukuran hanya membuahkan data kuantitatif mengenai apa yang hendak diukur. Tes merupakan alat ukur pengumpulan data yang mendorong peserta memberikan penampilan maksimal. Instrumen nontes merupakan alat ukur yang mendorong peserta untuk memberikan penampilan tipikal, yaitu melaporkan keadaan dirinya dengan memberikan respon

  7 Djaali dan Mulyono, Pengukuran Dalam Bidang Pendidikan (Jakarta: Gramedia, 2008), h.

  2. 8 Parnel dalam Ngalim Purwanto, Prinsip-prinsip dan Teknik Evaluasi Pengajaran (Bandung: PT. Remaja Rosdakarya. 2008), h. 8 9 James. S. Cangelosi. Merancang Tes Untuk Menilai Prestasi Siswa(Bandung: ITB Bandung, 1995), h. 21. 10 SukeSilverius, Evaluasi Hasil Belajar dan Umpan Balik (Jakarta: Grasindo, 1991), h. 6.

  11

  secara jujur sesuai dengan pikiran dan perasaannya. Adapun dua syarat utama yang harus dipenuhi oleh suatu instrumen penilaian, yaitu validitas dan reliabilitas.

  Hubungan antara reliabilitas dengan validitas dapat dilihat dalam tiga hal, yakni: (1) reliabilitas merupakan limit dari validitas. Ini mengandung makna bahwa interpretasi dan keputusan yang dihasilkan kurang valid jika hasil pengukuran tidak konsisten (tidak reliabel), (2)tingginya reliabilitas bukan jaminan validitas, reliabilitas yang tinggi tidak menjamin hasil interpretasi dan keputusan yang dihasilkan memberikan validitas yang tinggi. Hal itu disebabkan karena banyaknya ragam validitas yang berhubungan dengan reliabilitas, dan (3) reliabilitas merupakan syarat perlu untuk validitas, artinya derajat reliabilitas mempengaruhi validitas

  12

  keputusan. Dengan keterkaitan tersebut, tampak bahwa kedudukan reliabilitas cukup penting dan diperlukan dalam menilai kualitas keputusan yang dihasilkan dari suatu proses pengukuran.

  Masalah reliabilitas adalah masalah yang berkaitan dengan sekor yang dihasilkan dari suatu pengukuran, sehingga yang menjadi sorotan adalah sekor responden sebagai sekor komposit dari butir-butir instrument pengukuran. Pendekatan yang digunakan sampai saat ini untuk menghasilkan sekor komposit ialah pendekatan dengan menggunakan penskoran konvensional (summated rating).

  Di bidang pendidikan, tidak semua cakupan materi pendidikan dapat dinyatakan dengan item tes obyektif. Oleh karena itu dianjurkan untuk para guru agar menggunakan item tes obyektif disesuaikan dengan kondisi permasalahan. Ditambah lagi ada sebagian guru segan dengan menggunakan item tes obyektif type pilihan ganda, karena adanya anggapan bahwa tes tersebut kurang dapat mengungkap pengetahuan siswa, khususnya pada tingkat yang lebih tinggi, yaitu sintesis dan analisis.

  Adapun tes pilihan ganda dapat berfungsi untuk mengevaluasi aplikasi pengetahuan hasil belajar yang telah diberikan siswa selama satu semester. Aplikasi pengetahuan mempunyai fungsi untuk mendidik siswa agar kelak, mereka bukan hanya menguasai intelektual yang tinggi atau dengan kata lain teoritisnya saja akan 11 12 Purwanto, Evaluasi Hasil Belajar (Yokyakarta: Pustaka Pelajar, 2009), h. 56.

  Anthony J. Nitko,Educational Assessment of Student(New Jersey: Prentice-Hall, Inc. A. Simon & Schuster Company, Englewoods Cliffs, 2001), h. 63. tetapi juga menguasai aplikasi pengetahuan yang pada akhirnya dapat dikembangkan dan profesional siswa pada bidang masing-masing.

  Gronlund juga berpendapat bahwa Item tes pilihan ganda juga dapat digunakan untuk mengukur batasan atau definisi pengetahuan yang sudah jelas, sedangkan untuk batasan pengetahuan yang masih kurang jelas para guru dianjurkan

  13 untuk menggunakan item tes menjodohkan.

  Sebagaimana dijelaskan di atas bahwa item tes pilihan ganda merupakan bentuk tes yang mempunyai satu jawaban yang benar dan paling tepat, maka menurut Sudjana jika diliha dari strukturnya bentuk pilihan ganda terdiri atas:

  • Sistem :Pertanyaan atau pernyataan yang berisi permasalahan yang akan ditanyakan
  • Option :Sejumlah pilihan atau alternatif jawaban
  • Kunci :Jawaban yang benar atau paling tepat

  14

  • Distractor (pengecoh):Jawaban-jawaban lain selain pengecoh

  Bentuk soal pilihan ganda memiliki banyak variasi. Selain bentuk pilihan ganda biasa terdapat model bentuk pilihan ganda liannya, yaitu bentuk soal hubungan antar hal (HAH) dan Bentuk pilihan ganda kompleks (PGK). Pada kedua bentuk soal itu masing-masing pilihan jawabannya ditetapkan dan berfungsi sebagai petunjuk jawaban soal.

  Tipe tes bentuk pilihan ganda terdapat peluang menjawab benar sekalipun jawaban itu dipilih hanya dengan cara menebak (lucky guess), padahal seharusnya mereka yang memang tidak tahu jawaban yang benar tidaklah berhak untuk mendapatkan angka. Model pensekoran dengan pengurangan sekor sebagai “hukuman” ini disebut correction for guessing (Sekor Penalti).

  Temuan di lapangan menunjukkan beberapa permasalahan yang dihadapi guru, antara lain:1) dalam seleksi penerimaan siswa baru seringkali menemukan hasil skor tes yang diperoleh peserta didik tidak sesuai dengan kemampuan yang sebenarnya (tidak objektif). Beberapa siswa dengan skor yang tinggi pada kenyataannya memiliki kemampuan yang biasa-biasa saja. 2) ketika UTS atau UAS, beberapa siswa cenderung tidak berhati-hati dalam menjawab soal sehingga 13 14 Ibid., h. 125.

  Sudjana, Penilaian, h. 48. hasilnyapun tidak sesuai yang diharapkan. 3). Selama ini beberapa sekolah cenderung hanya menggunakan model pensekoran komposit saja tidak pernah menggunakan model pensekoran yang lain. 4). Beberapa guru tidak pernah mengetahui kualitas model pensekoran dan tidak pernah melakukan uji coba, sehingga tidak mengetahui model pensekoram mana yang lebih objektif mampu menggambarkan kemampuan siswa.

  Dengan beberapa permasalahan di atas, dua model penskoran yakni model sekor komposit dan model sekor penalti perlu diketahui dan diteliti secara lebih lanjut mengenai model pensekoran mana yang baik dan objektif menggambarkan kemampuan siswa serta paling tepat untuk digunakan, diterapkan dalam proses penilaian siswa di sekolah terutama pada bentuk tes Pilihan Ganda (PG). Untuk mendapatkan model pensekoran yang benar, perlu dilakukan suatu penelitian yang dapat mengetahui perbandingan model pensekoran siswa dalam bidang pendidikan agar didapatkan suatu model pensekoran yang tepat.

  Dua model pensekoran tersebut, masing-masing akan dicari daya beda dan reliabilitasnya yang selanjutnya akan dibandingkan dengan tujuan untuk mengetahui model pensekoran mana yang paling efektif digunakan untuk mengukur kemampuan siswa. Untuk menguji coba instrumen tersebut, peneliti menjadikan SMAN I Gerung sebagai lokasi uji coba dengan pertimbangan bahwa lembaga tersebut merupakan salah satu sekolah favorit dan jumlah siswa yang relatif banyak. Berdasarkan pada latar belakang di atas, maka rumusan masalah dalam penelitian ini adalah: Apakah terdapat perbedaan daya beda butir antara sekor siswa yang dihitung dengan menggunakan sekor komposit dan sekor penalti pada mata pelajaran Pendidikan Agama Islam, Apakah terdapat perbedaan reliabilitas butir antara sekor siswa yang dihitung dengan menggunakan sekor komposit dan sekor penalti pada mata pelajaran Pendidikan Agama Islam.

METODE PENELITIAN

  Penelitian ini termasuk dalam paradigma penelitian kuantitatif, yang berarti semua gejala diukur menggunakan besaran kuantitatis atau angka dan simpulan ditarik dari interpretasi terhadap angka-angka yang dihasilkan oleh kalkulasi statistik maupun matematik.Desain yang digunakan dalam penelitian ini menggunakan desainquasi eksperimen. Penelitian ini disebut quasi eksperimental karena data-data diperoleh melalui kegiatan eksperimen, Quasi experimen digunakan karena pada

  15 kenyataanya sulit mendapatkan kelompok kontrol yang digunakan untuk penelitian.

  Adapun rancangan penelitian yang digunakan adalah dengan menggunakan rancangan satu kelompok dimana subyek diacak dengan cara memberikan tes akhir

  16 saja atau dikenal dengan (The Posttest-Only Design with nonequivalent Group )”.

  Penelitian ini dilakukan di SMAN 1 Gerung Kabupaten Lombok Barat. Adapun waktu penelitiannnya adalah mulai Juni

  • – November 2018 Populasi dalam penelitian ini adalah seluruh siswa kelas X SMAN I Gerung Kabupaten Lombok Barat yang berjumlah 312 siswa yang kemudian diambil secara acak yang dijadikan sebagai sampel.Dalam pengambilan sampel (sampling)penelitian dilakukan dengan teknik acak sederhana (simple random

  

sampling ). Sebagaimana diketahui bahwa dalam pengambilan teknik simple rondom

  sampling ini seluruh individu yang menjadi anggota populasi memiliki peluang yang sama dan bebas dipilih sebagai anggota sampel, karena sampel tersebut dianggap

  17

  memiliki karakteristik yang sama (homogen). Jadi pemilihan individu-indvidu tersebut dianggap tidak akan mempengaruhi individu yang lainnya. Adapun cara pengambilanya dilakukan dengan cara diundi.

  Prosedur pengumpulan data melalui tahap-tahap sebagai berikut: Intrumen tes yang dibuat pada tiap-tiap pensekoran adalah sama, Pada tiap-tiap instrumen tes diberi kode S Kom dan S Pen yang kemudian instrumen tersebut akan disebarkan kepada siswa, Berdasarkan jumlah sampel yang ditentukan, kemudian akan dibagi 2 kelompok yang masing-masing kelompok kemudian akan dihitung pensekorannya menggunakan pensekoran komposit dan penalti, Selanjutnya dari hasil masing- masing pensekorannya, akan dihitung daya beda dan reliabilitas butirnya.

  Teknik analisis data dalam penelitian ini antara lain;

  15 Sugiyono, Metodologi Penelilian Kuantitatif, Kualitatif dan R & G (Bandung; Alafabeta, 2008), h. 77. 16 Thomas D. Cook dan Donald T. Campbell, Quasi-Experimentation: Design & Analysis Issues for Field Settings (London.: Houghton Mifflin Company, 1979), h. 13. 17 Sogiyono, Statistik Untuk Penelitian, (Bandung: Alvabeta, 2007), h. 6.

  18 a.

  Uji uji persyaratan analisis yang meliputi uji normalitas (Uji Liliefors). normalitas hanya dilakukan pada reliabilitas tes, karena nilai-nilai reliabilitas tes yang akan digunakan diperoleh dari pengambilan berulang kali secara acak terhadap responden penelitian. Dengan tujuan untuk mengetahui apakah dari kelas yang berdistribusi normal atau tidak.

  19 b.

  Untuk mengetahui Melakukan uji homogenitas varian dengan Uji fisher kesamaan varians (homogenitas) kedua pensekoran c.

  Menguji hipotesis penelitian yakni melakukan uji kesamaan dua rerata untuk kelas berdistribusi normal dan homogen, maka dilakukan uji kesamaan dua rerata (Uji-t) melalui uji dua pihak menggunakan independent sample t-test.

  HASIL PENELITIAN DAN PEMBAHASAN Hasil Penelitian

  Pengambilan sampel pada kelompok siswa yang diberi pensekoran Komposit dilakukan secara rondom dengan mengambil siwa dari jurusan IPA dan IPS sebanyak 143 siswa. Hasil uji coba terhadap 143 responden yang diberi sekor komposit dengan jumlah butir soal 40 buiti diperoleh sekor tertinggi adalah 38 dan sekor terendah 8. Rentang sekor tertinggi yang diperoleh adalah 28-31 yaitu sebanyak 36% (51 siswa) dari keseluruhan siswa. Secara jelas perbandingan perolehan sekor dapat dilihat pada histogram berikut;

  

Gambar .1. Histogram skor siswa dengan Menggunakan

Model Pensekoran Komposit

frekuensi prosentase

  51

  46

  14

  9

  8

  5

  6

  4

3% 3% 6% 6% 32% 36% 10% 4%

8-11 12-15 16-19 20-23 24-27 28-31 32-35 36-39

  18 Kadir, Statistika Untuk Penelitian Ilmu-Ilmu Sosial, (Jakarta: RosemataSampurna, 2010),

  h. 109 19 Ibid ., h. 117

  Pengambilan sampel pada kelompok siswa yang diberi pensekoran Komposit dilakukan secara rondom dengan mengambil siswa dari jurusan IPA dan IPS sebanyak 142 siswa. hasil uji coba terhadap 143 responden yang diberi sekor komposit dengan jumlah butir soal 40 buiti diperoleh sekor tertinggi adalah 38 dan sekor terendah 7. Rentang sekor tertinggi yang diperoleh adalah 27-30 yaitu sebanyak 34% (48 siswa) dari keseluruhan siswa. Secara jelas perbandingan perolehan sekor dapat dilihat pada histogram berikut;

  

Gambar 2. Histogram skor siswa dengan Menggunakan

Model Pensekoran Komposit

  60

  48

  45

  50

  40

  30

  18

  20

  11

  8

  6

  5

  10

  1 32% 34% 6% 1% 4% 8% 13% 4% 7-10 11-14 15-18 19-22 23-26 27-30 31-34 35-38

frekuensi prosentase

  

Data Daya Beda Soal dengan Menggunakan Model Pensekoran Komposit dan

Penalt

  Hasil analisis menunjyukkan bahwa daya beda terendah pada model pensekoran komposit adalah 0,05 sebanyak 1 butir (butir 15) Kemudian daya beda tertinggi adalah 0,35 sebanyak 1 butir (butir7). Kemudian sekor terendah pada model pensekoran penalti adalah 0.07 sebanyak 4 butir (15,20, 21, 23), sekor tertinggi 4,1 sebanyak 1 butir. Dari hasil analisis uji daya beda di atas, maka kriteria pengelompokan daya beda butir soal dapat dilihat pada histogram berikut:

  

Gambar 3. Histogram Daya Beda butir dengan Menggunakan

Model Pensekoran Komposit dan Penalti

  60

  50

  40 Penalti

  30 Komposit

  20

  10 < 0.00 0.00-0.2 0.21

  • – 0.400.41 – 0.700.71 – 1.00

  Histogram di atas menunjukkan bahwa berdasarkan hasil analisis daya beda butir pada model pensekoran komposit diperoleh 29 butir soal (27,5%) buruk, 11 butir soal (27,5%) cukup dan tidak terdapat daya beda butir dengan kategori baik atau sangat baik. Sehingga dapat disimpulkan bahwa berdasarkan hasil uji coba dari 40 butir soal sebagian besar butir soal pada bentuk pilihan ganda dengan menggunakan model pensekoran komposit adalah r (jelek).

  Reliabilitas butir Soal dengan Menggunakan Model Pensekoran Komposit.

  Uji reliabilitas tes pilihan ganda diperoleh dari analisis dan perhitungan terhadap sekor siswa yang masing-masing dihitung berdasarkan model pensekorannya yaitu komposit dan penalti. Kemudian dari hasil uji coba tersebut dilakukan analisis reliabilitas dengan melakukan pengambilan secara acak terhadap 143 siswa untuk pensekoran komposit dan 142 untuk pensekoran penalti. Masing- masing diambil secara acak (rondom) sebanyak 70 siswa dengan pengulangan 6 kali, sebagaimana di gambarkan pada tabel berikut:

  Tabel 1. Rellliabilitas butir dengan Menggunakan Model Pensekoran Komposit dan penalti

Uji analisis ke- Reliabilitas komposit Reliabilitas penalti

  1 0.692 0.886 2 0.885 0.843 3 0.850 0.878 4 0.869 0.868 5 0.821 0.860 6 0.732 0.864

  Tabel di atas menunjukkan hasil bahwa hasil analisis uji reliabilitas pada pensekoran komposit diperoleh hasil tertinggi 0,885 dengan kategori sangat tinggi dan terendah 0.692 dengan kategori sedang. Sebagaimana tabel berikut:

  

Tabel 2. Kategorisasi hasil uji Rellliabilitas butir dengan Menggunakan Model

Pensekoran Komposit

Interval Komposit Interpretasi

  0.91-1.00 sangat tinggi 0.71-0.90 5 tinggi 0.41-0.70 1 sedang 0.21-0.40 rendah

  Negatif-0.20 sangat rendah (tidak reliabel)

  

Gambar 4. Histogram hasil uji Rellliabilitas butir dengan Menggunakan Model

Pensekoran Komposit

  Sedangkan pada pensekoran Penalti diperoleh nilai tertinggi 0,886 dengan kategori tinggi. Sebagaimana dilihat pada tabel dan histogram berikut:

  

Tabel 3. Kategorisasi hasil uji Rellliabilitas butir dengan Menggunakan Model

Pensekoran Penalti

Interval Penalti Interpretasi

  0.91-1.00 sangat tinggi 0.71-0.90 6 tinggi 0.41-0.70 sedang 0.21-0.40 rendah

  Negatif-0.20 sangat rendah (tidak reliabel)

  2

  4

  6 0.91-1.00 0.71-0.90 0.41-0.70 0.21-0.40 <0.20

Komposit

  Komposit Perbandingan hasil uji reliabilitas pensekoran Komposit dan penalti menunjukkan bahwa reliabilitas pensekoran penalti lebih tinggi dibanding model pensekoran penalti. dapat dilihat pada gambar histogram berikut:

  8

  6 Series1

  4 Series2

  2 0.91-1.00 0.71-0.90 0.41-0.70 0.21-0.40 Negatif-0.20

Gambar 4. Histogram Perbandingan hasil uji Rellliabilitas butir dengan

Menggunakan Model Pensekoran Komposit dan penalti

  Pengujian Persyaratan Analisis Instrumen 1.

  Uji validitas/Daya Beda(Tes) Instrumen yang baik adalah instrumen yang diketahui kualitasnya dan salah satunya yaitu melalui tahap uji validitas. Secara empiris, instrumen dalam bentuk tes jika sudah diketahui daya bedanya maka tidak perlu dianalisis validitasnya atau konsistensinya, karena daya beda sama dengan validitas butir.

  Dalam penelitian ini peneliti mengambil instrumen dari bank soal sekolah yang secara konten sudah divalidasi oleh tim guru sebagai validator akan tetapi peneliti tetap melakukan analisis uji validitas atau daya beda butir soal. Hasil uji coba dari 40 butir yang diambil dari bank soal seluruhnya adalah valid.

  2. Reliabilitas Berdasarkan hasil uji reliabilitas tes diperoleh r hitung = 0,86 dan r tabel

  = 0.7 sehingga r hitung > rtabel, maka dapat disimpulkan bahwa instrumen tersebut adalah reliabel.

  3. Tingkat Kesukaran Butir.

  Hasil analisis tingkat kesukaran butir dilakukan untuk mengetahui apakah instrumen tes yang digunakan untuk mengukur kemampuan siswa berkategori sukar, mudah, sedang. Hasil analisis instrumen pada penelitian ini diperoleh: 2 butir sukar, 20 sedang, dan 18 mudah. Sebagaimana tabel berikut:

  

Tabel 3. Tingkat Kesukaran Butir

Nilai p frekuensi Kategori

  p < 0.3

  2 Sukar

  20 Sedang 0.3 ≤ p ≤ 0.7 p > 0.7

  18 Mudah

  20

  18

  2 5% 50% 45% p < 0.3 0.3 ≤ p ≤ 0.7 p > 0.7 ji Normalitas

  Uji normalitas yang digunakan dengan uji Lilliefors pada taraf signifikansi 5% . hasil perhitungan dan uji signifikansi indeks normalitas (harga L) pada dua kelompok

  20

  disajikan pada tabel berikut:

TABEL 4.7 UJI NORMALITAS

  

Kelompok L hitung L Tabel Keterangan

komposit 0.1044 0.866 Normal Kompensasi 0.1233 0,866 Normal

  Uji Homogenitas

  Hasil analisis uji normalitas data skor komposit dengan menggunakan uji fisher diperoleh F-hitung= 1,113 dan F-tabel = 1,39 artinya F hitung<F tabel maka Varians kedua kelompok adalah homogen.

  Hipotesis 1 (perbandingan Daya Beda pensekoran komposit dengan Penalti)

  Sebagaimana hasil persyaratan analisis uji homogenitas bahwa kedua skor pretest memiliki varians yang sama. Adapun hasil perhitungan analisis dengan uji t disajikan sebagai berikut a. Hipotesis Statistik

  H : 

    kontrol eksperimen

  H

  1 :

  ≠

    kont rol eksperimen Tabel 4. rata-rata dan varians sekor komposit dan penali

  Sekor rata2 Varians Komposit 0.215 0.006897 Penalti 0.2215 0.006916 Kriteria pengujian.

  Untuk α = 0,05 dan dk= 40+40-2 = 78

   hit ung 

  t t

 < t < maka H diterima dan H

1 ditolak

  2

  

2

Kesimpulan

  t hitung = 0,471 sehingga t hitung = 0,471 >L tabel(0,05:78) =1,669

  α=0,05 artinya tidak terdapat perbedaan Daya Beda antara sekor komposit dengan. Penalti. Ini menunjukkan bahwa jika ditinjau dari dari rata-rata kedua sekor, maka penekoran kedua kelompok tersebut adalah relatif sama

  1 Maka H diterima dan H ditolak pada taraf signifikan

  

Uji Hipotesis 2(Perbandingan reliabilitas pensekoran komposit dengan Penalti)

Kriteria pengujian.

  Untuk α = 0,05 dan dk= 6+6-2 = 10

   t t

  < t > maka H ditolak dan H

  1 diterima   hit ung

  2

  2 4,2>L tabel(0,05:10) =1,812

  Hasil analisis menunjukkan bahwa t hitung = 4,2 sehingga t hitung = Maka H ditolak dan H

  

1 diterima pada taraf signifikan

  α=0,05 artinya terdapat perbedaan reliabilitas antara sekor komposit dengan penalti. Melihat perbandingan rata-rata dari kedua model pensekoran menunjukkan sekor penalti lebih tinggi dari pada sekor komposit. Artinya bahwa reliabilitas model pensekoran penalti lebih tinggi di banding dengan komposit

  Pembahasan

  Daya beda butir soal bahwa daya beda butir adalah suatu kemampuan item-item tes dalam membedakan kemampuan siswa yang mempunyai kemampuan tinggi (dengan perolehan jawaban betul lebih tinggi) dengan siswa yang berkemampuan rendah (dengan perolehan jawaban yang rendah). Artinya, jika soal tersebut diberikan kepada anak yang mampu, hasilnya menunjukkan prestasi yang tinngi; dan apabila soal tersebut diberikan kepada siswa yang lemah, maka hasilnya akan rendah. Suatu tes dikatakan tidak memiliki daya pembeda apabila tes tersebut, jika diujikan kepada anak berprestasi tinggi hasilnya rendah, tetapi jika diberikan kepada anak yang lemah hasilnya lebih tinggi, atau jika diberikan kepada kedua kategori siswa tersebut hasilnya sama saja. Dengan demikian, tes yang tidak memilki daya pembeda, tidak akan menghasilkan gambaran sesuai dengan kemampuan siswa yang sebenarnya. Dan sesuatu yang aneh jika anak pandai tidak lulus sedangkan anak bodoh lulus dengan baik tanpa dilakukan manipulasi oleh penilai atau di luar faktor keberhasilan.

  Hasil uji hipotesis menunjukkan bahwa t hitung = 0,471 sehingga t hitung = 0,471

  tabel(0,05:78)

  1

  >L =1,669 Maka H diterima dan H ditolak pada taraf signifikan α=0,05 artinya tidak terdapat perbedaan daya beda antara sekor komposit dengan. Penalti. Ini menunjukkan bahwa jika ditinjau dari dari rata-rata kedua sekor, penekoran kedua kelompok tersebut adalah relatif sama.

  Sebuah instrumen dikatakan reliabel jika alat ukur tersebut menunjukkan sejauh mana hasil pengukuran dengan alat tersebut dapat dipercaya. Hal ini ditunjukkan oleh taraf konsistensi sekor yang diperoleh oleh para subjek yang diukur dengan alat yang sama, atau diukur dengan alat yang setara pada kondisi yang berbeda. Dalam artinya yang paling luas, realiabilitas alat ukur menunjuk kepada sejauh mana perbedaan-perbedaan sekor perolehan itu mencerminkan perbedaan- perbedaan atribut yang sebenarnya.

  Berdasarkan sejarah, reliabilitas sebuah instrumen dapat dihitung melalui dua cara yaitu kesalahan baku pengukuran dan koefisien reliabilitas. Kedua statistik di atas memiliki keterbatasannya masing-masing. Kesalahan pengukuran merupakan rangkuman inkonsistensi peserta tes dalam unit-unit skala skor sedangkan koefisien reliabilitas merupakan kuantifikasi reliabilitas dengan merangkum konsistensi (atau inkonsistensi) diantara beberapa kesalahan pengukuran.

  Setiap kali melakukan pengukuran atau pengamatan, jarang sekali dijumpai adanya hasil pengukuran atau pengamatan yang dapat menggambarkan keadaan yang sebenarnya secara tepat. Ini berarti bahwa dalam proses pengukuran selalu dijumpai adanya kesalahan-kesalahan pengukuran. Pekerjaan mengukur berarti mengestimasi gejala. Dalam melakukan estimasi tersebut, yang diharapkan ialah bahwa estimasi tersebut dituntut untuk menggambarkan gejalanya persis seperti keadaan sebenarnya. Bila dalam proses pengukuran peneliti tidak melakukan kesalahan, berarti estimasinya tepat. Sebaliknya apabila dalam melakukan pengukuran mengalami banyak kesalahan pengukuran, maka tentu saja hasilnya tidak persis seperti keadaan yang sebenarnya.

  Sebagaimana hasil uji reliabilitas kedua model pensekoran yang menunjukkan bahwa t hitung = 4,2 sehingga t hitung = 4,2>L tabel(0,05:10) =1,812 Maka H

  1

  ditolak dan H diterima pada taraf signifikan α=0,05 artinya terdapat perbedaan daya beda antara sekor komposit dengan penalti. Melihat perbandingan rata-rata dari kedua model pensekoran menunjukkan sekor penalti lebih tinggi dari pada sekor komposit. Artinya bahwa reliabilitas model pensekoran penalti lebih tinggi di banding dengan komposit.

  Berdasarkan pada kerangka pemikiran tersebut di atas, maka konsep koefisien reliabilitas merupakan rasio antara sekor hasil pengukuran dibandingkan dengan keadaan gejala yang sebenarnya. Dalam kenyataannya kita sulit mengetahui keadaan yang sebenarnya tersebut, akan tetapi dengan memperhitungkan hasil pengukuran dengan memperhatikan besarnya kesalahan pengukuran, kita akan dapat mengestimasi keadaan gejala yang sebenarnya.

  Kita akan memperoleh koefisien reliabilitas sempurna apabila kita tidak me- lakukan kesalahan pengukuran, atau dengan perkataan lain sekor kesalahan pengukuran adalah nol. Dalam kasus semacam ini tidak akan terjadi variasi sekor antar individu. Dalam perhitungan statistik, besarnya varians antar individu sama dengan nol. Dalam kasus seperti ini, kita akan memperoleh koefisien reliabilitas sebesar 1.00, di mana angka ini merupakan angka besarnya koefisien reliabilitas maksimal. Sebaliknya apabila peneliti melakukan kesalahan dalam proses pengukuran atau pengamatannya, tentu koefisien reliabilitasnya tidak akan sebesar

  1.00. Apabila dalam penelitian melakukan kesalahan sempurna, yang berarti semua pengukurannya mengalami kesalahan, maka akan diperoleh koefisien reliabilitas sama dengan 0.00. Oleh karena itu secara konsep, koefisien reliabilitas akan bergerak . dari 0.00

  • – 1.00 Suatu instrumen yang memiliki koefisien reliabilitas tinggi, berarti faktor- faktor yang mempengaruhi kesalahan pengukurannya adalah kecil. Koefisien reliabilitas instrumen dapat ditentukan melalui koefisien korelasi. Konsep korelasi di sini mengandung pengertian bahwa dari beberapa kali melakukan pengukuran atau pengamatan, menunjukkan adanya konsistensi. Apabila korelasi antara dua pengamatan atau lebih menunjukkan korelasi yang tinggi, hal itu berarti bahwa hasil pengukuran atau pengamatan yang dilakukan konsisten. Hasil pengamatan yang berupa sekor yang diperoleh dari beberapa kali pengamatan, dapat mengestimasi besarnya koefisien reliabilitas instrumen. Dengan demikian koefisien korelasi dapat digunakan untuk melakukan estimasi mengenai koefisien reliabilitas. Bahkan secara teknis, dapat dikatakan bahwa keadaan yang sebenarnya dari gejala yang diukur, merupakan sekor rata-rata dari beberapa kali pengukuran atau pengamatan, sehingga hasil korelasi dari beberapa kali pengamatan tersebut dapat mencerminkan keadaan gejala yang sebenarnya. Angka koefisien korelasi yang diperoleh dari hasil per- hitungan tersebut merupakan koefisien reliabilitas instrumen. Sehingga dapat
disimpulkan bahwa koefisien reliabilitas sekor komposit penalti lebih tinggi dibanding sekor komposit. Artinya bahwa model pensekoran yang paling efektif mampu menggambarkan kemampuan peserta didik paling objektif adalah dengan pensekoran penalti.

  Oleh karena pentingnya hubungan antara kekonsistensian sekor dengan reliabilitas tes, maka perlu dilakukan penelitian yang baik agar dapat diketahui model penghitungan sekor siswa yang tepat dalam proses pengukuran dan penilaian di sekolah. Hal ini tentu saja akan sangat membantu para guru, siswa serta pihak terkait lainnya dalam menentukan sistem pemberian sekor yang paling tepat untuk selanjutnya diterapkan dan digunakan dalam sistem penilaian.

  KESIMPULAN DAN SARAN Kesimpulan

  Berdasarkan hasil analisis, maka dapat disimpulkan bahwa: 1.

  hitung = 0,471 sehingga

  Hasil uji hipotesis daya beda butir menunjukkan bahwa t

  hitung tabel(0,05:78)

  1

  t = 0,471 >L =1,669 Maka H diterima dan H ditolak pada taraf signifikan α=0,05 artinya tidak terdapat perbedaan daya beda antara sekor komposit dengan. Penalti. Ini menunjukkan bahwa jika ditinjau dari dari rata-rata kedua sekor, penekoran kedua kelompok tersebut adalah relatif sama 2. Sebagaimana hasil uji reliabilitas kedua model pensekoran yang menunjukkan bahwa t hitung = 4,2 sehingga t hitung = 4,2>L tabel(0,05:10) =1,812 Maka H ditolak dan

  α=0,05 artinya terdapat perbedaan daya beda antara sekor komposit dengan penalti. Melihat perbandingan rata-rata dari kedua model pensekoran menunjukkan sekor penalti lebih tinggi dari pada sekor komposit. Artinya bahwa reliabilitas model pensekoran penalti lebih tinggi di banding dengan komposit.

1 H diterima pada taraf signifikan

  Saran

  Semoga hasil penelitian ini dapat menjadi acuan oleh beberapa lembaga pendidikan mulai Sekolah Dasar sampai perguruan tinggi dalam menggunakan pensekoran yang benar-benar objektif dalam mengukur kemampuan siswa. Untuk perguruan tinggi khusunya dapat digunakan untuk placemen tes, penerimaan siswa baru, penilaian hasil ujian dan seleksi mahasiswa.

DAFTAR PUSTAKA

  Anastasi, Anne Psychological Testing, New York: Macmillan Publishing Company, 1997. Arikunto, Suharsimi, Dasar-dasar Evaluasi Pendidikan, Jakarta :Bumi Aksara, 2010. Bakti, Yoga Budi Pengaruh Jumlah Alternatif Jawaban Dan Teknik Penskoran Terhadap Reliabilitas Tes , (Jurnal Formatif volum 5, no 1), 2015. . Cangelosi. James. S. Merancang Tes Untuk Menilai Prestasi Siswa, Bandung: ITB Bandung, 1995. Cook, Thomas D. dan Donald T. Campbell, Quasi-Experimentation: Design &

  Analysis Issues for Field Settings (London.: Houghton Mifflin Company, 1979..Jakarta: Gramedia, 2008..

  Gronlund, N.E., How To Construct Achievement Test, Engle Wood Clifs, New Jersey: Prentice Hall, 1988. Gronlund, Norman E., Measurement and Evaluation in Teaching, New York:

  Machmillan Publishing Company, 1985 . Hajaroh, Siti Perbandingan Reliabilitas Butir Soal Bahasa Arab Antara Tes Pilihan

  Ganda Dengan Matching Tes Pada Tes Buatan Guru , (Jurnal EL- Hikmah, Volum 10, No 2), 2016.

  Hasan, Hamid Evaluasi Hasil Pengajaran IPS dan Pengajaran Remedial, Jakarta, UT, 2010. Kadir, Statistika Untuk Penelitian Ilmu-Ilmu Sosial, Jakarta: RosemataSampurna,

  2010 McMillan, James H., Assesment Essential for Standards-Based Education, Cafornia: Carwin Press, A Sage Company, 2008.

  Naga, Dali S. Teori Pengukuran, Jakarta: Program Pasca Sarjana Universitas Negeri Jakarta, 2008

  • Probobilitas dan Sekor Pada Hipotesis Statistika, Jakarta: UPT Taruma Negara, 2008.

  Nitko, Anthony J. Educational Assessment of Student(New Jersey: Prentice-Hall, Inc.

  Simon, A. & Schuster Company, Englewoods Cliffs, 2010 Popham, W. James, Modern Educational Measurement, Los Angeles: University of California, 1981. Purwanto, Evaluasi Hasil Belajar, Yokyakarta: Pustaka Pelajar, 2009 Purwanto, Ngalim, Prinsip-prinsip dan Teknik Evaluasi Pengajaran, Bandung: PT.

  Remaja Rosdakarya. 2008 Silverius, Suke, Evaluasi Hasil Belajar dan Umpan Balik, Jakarta: Grasindo, 1991.

  Sudijono, Anas, Pengantar Evaluasi Pendidikan (Jakarta: Raja Grafindo Persada, 2005

  Sudjana, Nana Penilaian Hasil Proses Belajar Mengajar, Bandung: PT. Remaja Rosdakarya, 2009. Sugiyono, Metodologi Penelilian Kuantitatif, Kualitatif dan R & G, Bandung; Alafabeta, 2008.

  • , Statistik Untuk Penelitian, Bandung: Alvabeta, 2007 Sukadji, Soetarlinah Jurnal Tentang Validitas dan Reliabilitas, p. 3. Diakses tanggal 7 Janua

  Tambunan, Wilman, Evaluation Of Standard Achievement, Jakarta: Departemen Pendidikan dan Kebudayaan. Dirjen.Dikti, 2008. Undang-undang No.20 tahun 2003 Tentang Sistem Pendidikan Nasional Widhiarso, Wahyu, Handout Mata Kuliah Psikometr, Yogyakarta: Fakultas

  PsikologiUGM,2008