Asumsi 7 Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama
membunyai skot tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan jika untuk setiap populasi subjek T1 = T2 + C. Dengan C sebagai suatu bilangan
konstan, maka kedua tes tersebut dapat disebut sebagai tes yang setara equivalent test.
B. Analisis Karakteristik Psikometri
Sebuah instrument tes merupakan sekumpulan aitem yang disusun sedemikian rupa, baik berupa pertanyaan maupun pernyataan mengenai suatu hal
yang hendak diukur Azwar, 2007. Proses analisis terhadap karakteristik psikometri dari suatu instrument tes ditujukan untuk memilih aitem-aitem yang
layak dan mengetahui kelayakan instrument tersebut. Jadi proses analisis dapat dilakukan untuk merancang sebuah instrumen tes yang baru atau menguji
instrument yang sudah ada. Proses analisis tersebut secara sederhana meliputi dua cara, yaitu:
Tahap Pertama adalah analisis dan seleksi aitem berdasarkan evaluasi secara kualitatif. Evaluasi ini bertujuan untuk melihat apakah aitem yang ditulis
sudah sesuai dengan blue-print dan indikator perilaku yang hendak diungkap, melihat apakah aitem telah ditulis sesuai dengan kaidah penulisan yang benar, dan
melihat apakah aitem-aitem yang ditulis masih mengandung social desirability yang tinggi. Evaluasi secara kualitatif ini dikerjakan oleh suatu panel ahli.
Universitas Sumatera Utara
Tahap kedua adalah prosedur seleksi aitem berdasarkan data empiris dengan melakukan analisis kuantitatif terhadap parameter-parameter aitem.
Parameter-parameter yang dimaksud meliputi indeks diskriminasi aitem dan indeks kesulitan aitem, analisis efektivitas distraktor, analisis reliabilitas, serta
analisis validitas dari instrumen tersebut Crocker Algina, 2005. 1. Indeks Kesulitan Aitem
a. Pengertian Indeks Kesulitan Aitem
Indeks kesulitan aitem yang biasanya disimbolkan dengan huruf p merupakan rasio antara penjawab aitem dengan benar dan banyaknya penjawab
aitem. Secara teoritik dikatakan bahwa p sebenarnya merupakan probabilitas empirik untuk lulus aitem tertentu bagi kelompok subjek tertentu. Secara
matematis diformulaikan sebagai berikut: p = ni N
6 Keterangan:
p = indeks kesulitan aitem ni = banyaknya subjek yang menjawab aitem dengan benar
N = banyaknya subjek yang menjawab aitem Selain untuk membedakan subjek yang menguasai suatu pelajaran dengan
baik dengan yang tidak menguasai dengan baik, indeks kesulitan aitem juga berfungsi dalam hal penyusunan aitem-aitem saat penyusunan alat tes. Hal ini
sesuai dengan apa yang diungkapkan oleh Kumar 2009, yang menyatakan bahwa penyusunan aitem dilakukan berdasarkan nilai indeks kesulitan aitem.
Lebih lanjut Murphy Davidshofer 2003 menyarankan untuk menyusun aitem-
Universitas Sumatera Utara
aitem dalam tes secara sistematis, dengan menempatkan aitem-aitem berdasarkan tingkat kesukarannya, mulai dari aitem yang paling mudah hingga yang paling
sulit. Sehingga pola penyusunan aitem-aitem dalam tes dimulai dari aitem dengan
harga p yang paling tinggi hingga aitem dengan harga p yang paling rendah.
b. Analisis Indeks Kesulitan Aitem
Nilai p yang semakin tinggi menunjukkan bahwa aitem yang bersangkutan semakin mudah. Nilai p berkisar dari 0 sampai dengan angka 1. Apabila sebuah
aitem sedemikian sukarnya, sehingga tidak seorang subjek pun dapat menjawab dengan benar, maka harga p = 0, sedangkan apabila suatu aitem sedemikian
mudahnya sehingga seluruh subjek dapat menjawab dengan benar, maka harga p = 1. Aitem yang terlalu mudah atau terlalu sulit biasanya tidak akan banyak
berguna dalam membedakan subjek yang menguasai bahan pelajaran dan mereka yang tidak Azwar, 2007.
Pada umumnya harga p yang berada disekitar 0,50 dianggap yang terbaik. Menurut Azwar 2007, harga p terbaik adalah yang sesuai yang sesuai dengan
tujuan tes yang bersangkutan. Misalnya kadang-kadang dikehendaki harga p 0,50 aitemnya lebih sulit apabila aitem aitem itu dimaksudkan sebagai bagian
dari suatu tes yang digunakan dalam prosedur seleksi guna memilih sebagian kecil saja dari antara pelamar. Tidak jarang pula sebuah tes prestasi perlu disusun
dengan memasukkan banyak aitem yang taraf kesulitannya rendah p tinggi dengan tujuan untuk evaluasi formatif.
Jadi bisa dikatakan bahwa harga p yang berada pada titik ekstrem terlalu sulit atau terlalu mudah akan mempunyai daya diskriminasi yang kurang baik.
Universitas Sumatera Utara
Oleh karena itu, umumnya pada penyusunan instrumen tes disarankan untuk menggunakan aitem dengan taraf kesulitan sedang 0,50. Namun Lord dalam
Murphy Davidshofer, 2003 menyatakan bahwa untuk tes seleksi karyawan, p akan dikatakan baik jika nilai p mendekati 0,2.
Allen Yen dalam Lababa, 2008 mengkategorikan nilai p sebagai berikut:
Tabel 1 Kategori Tingkat Kesulitan aitem
No P
Kategori
1 p0,3
Sulit 2
0,3 p 0,7 Sedang
3 p0,7
Mudah
Ada beberapa hal yang perlu dipahami mengenai indeks kesulitan aitem ini, diantaranya pertama adalah bahwa harga p dari suatu aitem menunjukkan
taraf kesulitan aitem tersebut bagi kelompok yang bersangkutan, yaitu kelompok yang menjadi dasar dalam menghitung p itu sendiri Azwar, 2005. Artinya harga
p suatu aitem akan berbeda apabila dihitung pada kelompok siswa yang berbeda. Kedua bahwa besarnya harga p yang kita hitung merupakan indek kesulitan aitem
bagi seluruh kelompok yang bersangkutan, bukan indeks kesulitan bagi masing- masing individu dalam kelompok. Artinya harga p yang dihitung dalam kelompok
hanya merupakan rata-rata indeks kesulitan bagi seluruh individu dalam kelompok tersebut.
Berdasarkan penjelasan di atas, maka dalam penelitian ini aitem dikatakan memiliki indeks diskriminasi yang baik jika harga p lebih kecil dari 0,3, dengan
alasan bahwa IST dalam hal ini digunakan untuk seleksi karyawan, yaitu memilih
sebagian kecil saja dari antara para pelamar.
Universitas Sumatera Utara
2. Indeks Daya Diskriminasi Aitem
a. Pengertian Indeks Diskriminasi Aitem.
Indeks daya diskriminasi aitem atau sering disebut dengan daya beda aitem merupakan parameter yang paling penting dalam tes psikologi yang
menunjukkan sejauh mana aitem mampu membedakan antara individu atau kelompok individu yang memiliki dan yang tidak memiliki atribut yang diukur
Azwar, 2005. Artinya bahwa aitem yang memiliki daya beda yang tinggi harus memiliki skor yang tinggi pada individu yang memiliki atribut yang diukur dan
skor yang rendah pada individu yang tidak memiliki atribut yang diukur. Indeks diskriminasi aitem d secara sederhana didefinisikan sebagai
perbedaan proporsi penjawab aitem dengan benar antara Kelompok Tinggi dengan Kelompok Rendah.
Secara matematis diformulasikan sebagai berikut: 7
Keterangan: d
: Indeks diskriminasi Aitem niT : jumlah subjek penjawab dengan benar dari Kelompok Tinggi
nT : Jumlah subjek Kelompok Tinggi niR : jumlah subjek penjawab dengan benar dari Kelompok Rendah
nR : Jumlah subjek Kelompok Rendah Formulasi di atas sama dengan perbedaan selisih indeks kesulitan pada
Kelompok Tinggi dan Kelompok Rendah, sehingga lebih sederhana dapat diformulasikan sebagai berikut:
Universitas Sumatera Utara
- 8
Keterangan : = Indeks kesulitan pada Kelompok Tinggi
= Indeks kesulitan pada Kelompok Rendah Dalam skala sikap, sebuah aitem dikatakan memiliki daya beda tinggi jika
aitem tersebut mampu membedakan antara subjek yang bersikap positif dan subjek yang bersifat negatif. Sedangkan untuk sebuah tes inteligensi, sebuah aitem
dikatakan memiliki daya beda tinggi jika aitem tersebut mampu membedakan subjek yang memiliki kemampuan tinggi Kelompok Tinggi dan subjek yang
memiliki kemampuan rendah Kelompok Rendah. Artinya suatu aitem tersebut haruslah dijawab dengan benar oleh semua atau sebagian besar subjek Kelompok
Tinggi dan tidak dapat dijawab dengan benar oleh semua atau sebagian besar subjek Kelompok Rendah Azwar, 2007.
b. Analisis Indeks Diskriminasi Aitem
Menurut Murphy dan Davidshofer 2003, jika suatu tes dan satu aitem mengukur hal yang sama, maka diharapkan bahwa orang yang mengerjakan tes
dengan baik akan menjawab aitem tersebut dengan benar, dan orang yang mengerjakan tes dengan buruk menjawab aitem tersebut dengan salah. Dengan
kata lain, aitem yang memiliki daya diskriminasi yang baik mampu membedakan antara orang yang mengerjakan tes dengan baik dan orang yang mengerjakan tes
dengan buruk. Nilai Indeks diskriminasi d berkisar mulai dari -1 sampai dengan +1,
namun hanya harga d yang positif saja yang memiliki arti dalam analisis aitem.
Universitas Sumatera Utara
Daya diskriminasi maksimal tercapai apabila seuruh subjek Kelompok Tinggi dapat menjawab dengan benar
, sedangkan seluruh subjek Kelompok Rendah tidak seorang pun yang dapat menjawab dengan benar
. Dalam hal ini, harga indeks diskriminasi d = 1-0=1.
Harga d yang berada disekitar 0 menunjukkan bahwa aitem yang bersangkutan memiliki daya diskriminasi yang rendah, sedangkan harga d yang
negative menunjukkan bahwa aitem yang bersanngkutan tidak ada gunanya sama sekali, bahkan memberikan informasi yang menyesatkan.
Indeks diskriminasi yang ideal yang ideal adalah yang sebesar mungkin mendekati angka 1. Semakin besar indeks kemsukaran aitem semakin mendekati
angka 1 berarti aitem tersebut semakin mampu membedakan antara subjek yang menguasai bahan yang diujikan dan dan subjek yang tidak menguasai.
Menurut Thorndike dalam Azwar, 2005 bahwa dalam proses seleksi aitem, aitem-aitem yang memiliki nilai diskriminasi di atas 0,50 akan langsung
dianggap baik sedangkan aitem-aitem dengan indeks diskriminasi di bawah 0,20 dapat langsung dibuang dan dianggap jelek. Sementara menurut Ebel dalam
Azwar, 2005 terdapat suatu panduan dalam evaluasi indeks diskriminasi aitem, yaitu:
Tabel 2 Evaluasi Indeks Daya Diskriminasi Aitem
Indeks Daya Beda Evaluasi
0,40 Sangat bagus
0,30 – 0,39
Lumayan bagus, tidak membutuhkan revisi 0,20
– 0,29 Belum memuaskan, perlu direvisi
0,20 Buruk dan harus dibuang
Universitas Sumatera Utara
Menurut Murphy dan Davidshofer 2003, ada tiga statistik yang dapat digunakan untuk mengukur daya diskriminasi suatu aitem, yaitu:
1. Method of Extreme Group
Metode ini biasanya dugunakan untuk indeks diskriminasi pada kelompok besar. Diskriminasi aitem dapat dihitung dengan cara membagi kelompok menjadi
dua, Upper group Kelompok Tinggi yakni kelompok yang memiliki skor yang tinggi 25-35 nilai tertinggi didalam kelompok dan lower group Kelompok
Rendah yakni kelompok yang memiliki nilai yang rendah 25-35 nilai terendah dalam kelompok. Aitem yang memiliki indeks diskriminasi yang baik akan
dijawab benar oleh Kelompok Tinggi dan dijawab salah oleh Kelompok Rendah. 2.
Korelasi Aitem-Total Parameter daya beda aitem yang berupa koefisien korelasi aitem-total
memperlihatkan kesesuaian fungsi aitem dengan fungsi skala tes dalam mengungkap perbedaan individual. Besarnya koefisien korelasi aitem-total
bergerak 0 sampai dengan 1,00. Semakin baik daya diskriminasi aitem, maka koefisien korelasi semakin mendekati angka 1,00.
Korelasi aitem total dapat diketahui dengan menghitung korelasi point biserial rpbis. Korelasi point biserial yang bernilai positif menunjukkan bahwa
aitem dan tes mengukur hal yang sama, nilai mendekati nol menunjukkan bahwa bahwa aitem tidak memiliki indeks daya beda yang baik sehingga kelompok
tinggi menjawab pertayaan dengan salah dan kelompok rendah menjawab pertanyaan dengan benar. Nilai negatif menunjukkan bahwa aitem tidak
mengukur hal yang sama dengan alat tes. Berikut adalah formula point biserial :
Universitas Sumatera Utara
r
pbis
=
[M
i
– M
x
S
x
] √[p1-p]
9 Keterangan :
r
pb :
Korelasi point biserial M
i
:Mean skor X dari seluruh subjek yang mendapat angka 1 pada variabel dikotomi i
M
x
: Mean skor dari seluruh subjek S
x
:Standard deviasi skor X P
:Proporsi subjek yang mendapat angka 1 pada variabel dikotomi
3. Korelasi Inter-Aitem
Pengujian terhadap korelasi inter-aitem dapat membantu kita mengetahui mengapa beberapa aitem gagal membedakan anatara subjek yang bekerja dengan
baik Kelompok Tinggi dan yang bekerja dengan buruk Kelompok Rendah Murphy dan Davidshofer, 2003
Korelasi inter-aitem yang bernilai rendah dapat memiliki dua arti, kemungkinan pertama adalah aitem tidak mengukur hal yang sama dengan tes,
sehingga aitem harus dibuang atau dibuat ulang, kemungkinan kedua adalah aitem memang mengukur atribut yang berbeda dengan tes dikarenakan tes memang
disusun untuk mengukur dua atribut yang berbeda. Dalam penelitian ini, indeks diskriminasi akan diukur dengan dua cara,
yaitu dengan metode extreme group dan metode korelasi aitem-total. Dengan metode extreme group, diharapkan bisa melihat perbedaan antara Kelompok
Tinggi dan Kelompok Rendah. Sedangkan dengan metode korelasi aitem-total diharapkan dapat melihat kesesuaian fungsi aitem dengan fungsi tes dalam
mengungkap perbedaan individual.
Universitas Sumatera Utara
3. Efektivitas Distraktor
Efektivits distraktor-distraktor pada suatu aitem dianalisis dari distribusi jawaban terhadap aitem yang bersangkutan pada setiap alternatif yang disediakan.
Efektivitas distraktor diperiksa untuk melihat apakah semua distraktor atau semua pilihan jawaban yang bukan kunci telah berfungsi sebagaimana mestinya,
yaitu apakah distraktor-distraktor tersebut telah dipilih lebih banyak atau semua siswa Kelompok Rendah sedangkan siswa dari Kelompok Tinggi hanya sedikit
atau tidak ada yang memilihnya. Efektivitas distraktor dilihat dari dua kriteria, yaitu: a distraktor dipilih oleh
siswa dari Kelompok Rendah, dan b pemilih distraktor tersebar relative proporsional pada masing-masing distrakktor yang ada Azwar, 2005
4. Reliabilitas
a. Pengertian Reliabilitas
Reliabilitas merupakan penerjemahan dari kata reliability yang berasal dari dua kata yaitu rely dan ability, dimana rely memilliki arti percaya atau
mempercayakan sedangkan ability memiliki arti kemampuan. Ada banyak istilah yang digunakan untuk menyatakan reliabilitas, seperti keterpercayaan,
keterandalan, keajegan, kestabilan, konsistensi dan sebagainya, namun pada intinya konsep reliabilitas memiliki makna: sejauh mana hasil suatu tes
pengukuran dapat dipercaya Azwar, 2007 Crocker dan Algina 2005 menjelaskan bahwa pada dasarnya reliabilitas
menggambarkan derajat konsistensi, yaitu :
Universitas Sumatera Utara
”a reliability term refers to the degree to which individuals deviation scores, or z-scores, remain relatively consistent over repeated
administration of the same test or alternate test forms”.
Reliabilitas suatu tes ditunjukkan oleh taraf konsistensi skor yang diperoleh para subjek yang diukur dengan alat yang sama atau minimal setara,
dalam kondisi yang berbeda Suryabrata, 2005. Konsepsi mengenai reliabilitas berkaitan dengan derajat konsistensi antara dua perangkat skor tes, maka formula
reliabilitas selalu dinyatakan dalam bentuk koefisien korelasi Azwar, 2007. Menurut Gregory 2000, reliabilitas dalam pengukuran psikologis menunjukkan
atribut konsistensi dari pengukuran itu sendiri. Hanya sedikit dari pengukuran behavioral yang benar-benar reliabel, dan reliabilitas itu sendiri bersifat kontinum.
Berdasarkan beberapa definisi di atas, dapat disimpulkan bahwa reliabilitas pada dasarnya merupakan ketetapan atau derajat konsistensi
performansi relative dari individu yang dikenai tes ketika diberikan tes yang sama secara berulang atau tes yang parallel.
Tujuan dari sebuah pengetesan adalah untuk mengetahui true score seseorang yang bersifat latent. Karena bersifat latent, maka skor ini tidak pernah
diketahui secara pasti nilainya dan yang paling mungkin dilakukan untuk mengetahui true score ini adalah membuat perkiraan melalui observed score.
Observed score adalah skor individu yang diperoleh dari pengetesan. Faktor yang mempengaruhi reliabilitas suatu tes adalah error. Error atau varians kesalahan
Universitas Sumatera Utara
adalah kondisi yang tidak sesuai atau tidak relevan dengan maksud tes Anastasi Urbina, 1997. Ada dua jenis error yang sering terjadi, yaitu:
1 Systematic error yaitu kecenderungan individu untuk memperoleh skor
yang tinggi semua atau rendah semua. Sifat eror ini selalu konstan. Sumbernya adalah karakteristik fisik individu, proses tes tes yang
tidak berkaitan dengan konstruk yang ingin diukkur. Misalnya alat ukur rusak, gangguan pendengaran, gangguan penglihatan, dll.
2 Unsystematic error random error, yaitu kecenderungan individu
memperoleh skor yang tidak tetap, terkadang baik, terkadang buruk. Error ini bersifat random. Ada berbagai hal yang dapat menimbulkan
random error, antara lain kelelahan memori subjek dan naik turunnya suasana hati, dll.
b. Jenis-jenis Pendekatan Estimasi Reliabilitas
Estimasi terhadap tingginya reliabilitas dapat dilakukan melalui berbagai metode pendekatan, dimana masing-masing metode pendekatan dikembangkan
sesuai dengan sifat dan fungsi alat ukur yang bersangkutan dengan mempertimbangkan segi-segi praktisnya Azwar, 2007
Menurut Azwar 2007, secara tradisional terdapat tiga macam pendekatan reliabilitas yaitu :
1 Pendekatan Tes Ulang tes-retest
Pendekatan ini menunjukkan konsistensi pengukuran dari waktu ke waktu dan menghasilkan koefisien reliabilitas yang dinamakan koefisien stabilitas.
Prinsip estimainya adalah menyajikan tes dua kali pada satu kelompok subjek
Universitas Sumatera Utara
dengan tenggang waktu tertentu. Asumsinya adalah bahwa suatu tes yang reliable tentu akan menghasilkan skor tampak yang relative sama apabila dikenakan dua
kali pada waktu yang berbeda. Semakin besar variasi perbedaan skor subjek antara kedua pengenaan tes, berarti semakin sulit untuk mempercayai bahwa tes
itu memberikan hasil ukur yang konsisten Azwar, 2007 Dalam prakteknya, pendekatan ini memiliki keterbatasan yaitu kurang
praktis dalam pelaksanaan tes sebanyak dua kali, dan besarnya kemungkinan terjadi efek bawaan carry-over effects dari satu pengenaan tes ke pengenaan te
syang kedua. Artinya dalam hal ini besar kemungkinan terjadinya proses pembelajaran bagi subjek dan hal ini akan mempengaruhi terhadapa skor hasil tes
yang kedua kalinya. 2
Pendekatan Bentuk-Paralel alternate-forms Pendekatan bentuk paralel merupakan pengenaan dua bentuk tes pararel
dalam waktu yang bersamaan pada satu kelompok subjek. Jadi pendekatan ini hanya dapat dilakukan apabila tersedia dua bentuk instrumen yang dapat dianggap
memenuhi asumsi parallel. Salah satu indicator terpenuhinya asumsi paralel adalah setaranya korelasi antara skor kedua instrument tersebut dengan skor suatu
ukuran lain. Tentu saja untuk dapat paralel kedua bentuk instrumen harus disusun
dengan tujuan mengukur objek psikologis yang sama, berdasarkan blue-Print pola-rancangan yang sama dan spesifikasi yang sama pula.
Kelemahan utama dari pendekatan ini adalah sulitnya menyusun dua alat ukur yng memenuhi persyaratan parallel atau sejajar. Selain kelemahan di atas,
Universitas Sumatera Utara
pendekatan ini juga memiliki kelebihan, yaitu dapat menghilangkan kemungkinan terjadinya efek bawaan.
3 Pendekatan Konsistensi Internal Internal-Consistency
Pendekatan konsistensi internal dilakukan dengan menggunakan satu bentuk tes yang dikenakan hanya sekali saja pada sekelompok subjek single-trial
administration. Pendekatan ini mengatasi kelemahan pada pendekatan tes-retest dan alternate-forms.
Pendekatan reliabilitas konsistensi internal bertujuan untuk melihat konsistensi antar-aitem atau antar bagian dalam tes itu sendiri. Untuk itu, setelah
skor setiap aitem diperoleh dari sekelompok subjek, tes dibagi menjadi beberapa belahan, bisa dua belahan, tiga belahan dan bahkan belahan sebanyak aitem.
Membelah tes prinsipnya adalah mengusahakan agar antar belahan memiliki jumlah aitem sama banyak, taraf kesulitan seimbang, isi sebanding, dan
memenuhi ciri-ciri paralel . Bentuk dan sifat alat ukur serta banyaknya belahan yang dibuat akan
menentukan teknik perhitungan koefisien reliabilitasnya. Ada beberapa teknik komputasi reliabilitas konsistensi internal diantaranya: Formula Spearman-Brown,
Formula Rulon, Formula Alpha, Formula-formula Kuder-Richardson, Formula Kristof, Formula Analisis varians dan sebagainya. Berikut ini akan dijelaskan
secara singkat mengenai penggunaan berbagai formula tersebut:
Universitas Sumatera Utara
1. Spearman-Brown
Formula komputasi Spearman-Brown merupakan formula koreksi terhadap koefisien korelasi antara dua bagian tes dan dirumuskan sebagai berikut
Azwar, 2005: S-B
= r
xx’
=
10 Keterangan:
r
xx’ =
Koefisien reliabilitas Spearman-Brown r1.2 = Koefisien korelasu antara dua belahan
Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, pembelahan tes dilakukan dengan cara gasal-genap dan matched-random subtes
dan menghasilkan dua bagian yang paralel satu sama lain dan korelasi antara kedua belahan paralel tersebut cukup tinggi.
2. Rulon
Rulon 1939 mempersoalkan reliabilitas tes yang dibelah menjadi dua belahan. Jika sekiranya belahan tersebut setara maka secara teori skor subjek pada
perangkat belahan pertama dan skor perangkat belahan kedua akan sama. Jika skor-skor pada kedua perangkat itu tidak sama, maka itu terjadi karena
kesalahankekeliruan pengukuran. Berdasarkan atas pemikiran ini maka diusulkan rumus reliabilitas tes sebagai berikut Suryabrata, 2005:
r
xx’
= 1- s
d 2
s
x 2
11 Keterangan:
s
d 2
= Varians perbedaan skor kedua belahan s
x 2
= Varians skor tes
Universitas Sumatera Utara
d = Perbedaan skor kedua belahan Formula ini dapat digunakan jika aitem dikotomi ataupun politomi,
belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent. 3.
Koefisien alpha belah dua Formula koefisien alpha untuk estimasi reliabilitas belah dua dirumuskan
sebagai berikut: r
xx’
= 2 12
Keterangan: = varians pada belahan 1
= varians pada belahan 2 = varians total skor tes
Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, belahan tes tidak
harus paralel, namun harus memenuhi asumsi τ-equivalent, aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa
digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait.
4. Koefisien alpha belah lebih dari dua
Pembelahan tes tidak hanya terbatas pada membagi tes ke dalam dua belahan saja. Cara-cara pembelahan dapat diperluas pemakainnya untuk membagi
tes menjadi beberapa belahan. Bahkan suatu tes yang akan diestimasi reliabilitasnya dapat dibelah menjadi bagian-bagian sebanyak jumlah aitemnya
sehingga setiap bagian hanya berisi satu aitem saja.
Universitas Sumatera Utara
Untuk tes yang dibelah menjadi lebih dari dua belahan yang masing- masing berisi aitem yang berjumlah sama banyak kita dapat menggunakan
formula alpha dengan rumus: α =
13 Keterangan : = banyaknya belahan tes
= varians belahan j; j = 1, 2…k = varians skor tes
Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap belahan memiliki aitem yang relatif setara, paralel setidaknya memenuhi asumsi
τ-equivalent, aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur
beberapa trait. 5.
Flanagan Flanagan menganggap bahwa varians-varians pada perangkat-perangkat
belahan tes merupakan varians kekeliruan pengukuran. Maka untuk tes yang dibelah menjadi dua bagian setara reliabilitasnya adalah sebagai berikut:
r
xx’
=2 14
Keterangan: = varians pada belahan 1
= varians pada belahan 2 = varians total skor tes
Universitas Sumatera Utara
6. Kuder-Richardson 20 KR-20
KR 20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua yang mungkin dilakukan. Koefisien ini juga mencerminkan sejauhmana
kesetaraan isi aitem-aitem dalam tes. Rumusan formula KR-20 adalah: KR-20
15 Keterangan : = Banyaknya aitem dalam tes
= Varians skor tes p = Proporsi subjek yang mendapat angka 1 pada suatu aitem, yaitu
banyaknya subjek yang mendapat angka 1 dibagi oleh banyaknya seluruh subjek yang menjawab aitem tersebut.
Formula ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem, aitem-aitem dalam tes haruslah homogen
sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait.
7. Kuder-Richardson 21 KR-21
Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan aitem. hal inilah yang membedakan antara KR-20 dengan KR-21. Rumusan formula KR-
21 adalah:
16 Keterangan : = banyaknya aitem dalam tes
= rata-rata p yaitu,
Universitas Sumatera Utara
= varians skor tes Untuk mempermudah komputasi, formula KR-21 dapat pula dinyatakan
sebagai:
17 Keterangan :
M
x
= harga rata-rata means skor tes Penggunaan formula ini hamper sama dengan formula KR-20. Hanya saja
yang membedakannya adalah bahwa KR-21 ini digunakan jika tingkat kesulitan aitem-aitem dalam tes relatif setara. Jika digunakan pada alat tes yang tingkat
kesulitan yang bervariasi, maka hasilnya akan kurang teliti Azwar, 2007 8.
Formula untuk Tes Belah Tiga Formula Kristof Komputasi koefisien reliabilitas tes yang telah dibelah menjadi tiga bagian
ini didasarkan pada formula estimasi skor murni yang dirumuskan Kristof, yaitu:
18 Keterangan: S
12
= kovarians belahan 1 dan belahan 2 = kovarians belahan 1 dan belahan 3
= kovarians belahan 2 dan belahan 3 Untuk komputasi koefisien reliabilitasnya digunakan rumus dasar
reliabilitas, yaitu: r
xx’
=
Universitas Sumatera Utara
Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, membelah tes menjadi 3 bagian, belahan tidak harus sama panjang, jumlah aitem
tidak harus sama banyak dengan syarat isi tetap homogen, dan lebih baik digunakan pada subjek dalam jumlah besar.
9. Analisis varians Hoyt
Hoyt 1941 mengembangkan pendekatan analisis varian yang disebut dengan analisis varian Hoyt. Konsep dalam teknik analisis varian Hoyt adalah
memandang distribusi aitem keseluruhan subjek sebagai data pada suatu desain eksperimen faktorial dua-jalan tanpa replikasi, yang dikenal pula sebagai item by
subject design. Setiap aitem dianggap sebagai suatu perlakuan yang berbeda sehingga setiap kali subjek dihadapkan pada suatu aitem seakan-akan berada pada
suatu perlakuan yang berbeda, sehingga banyaknya aitem merupakan banyaknya perlakuan.
Dari pola faktorial ini diperoleh harga mean kuadrat antar subjek yang sebenarnya merupakan estimasi terhadap varians skor tes, meankuadrat antar
aitem, dan meankuadrat interaksi aitem-subjek yang merupakan estimasi terhadap varians eror, jadi formula reliabilitas Hoyt adalah:
19 Keterangan:
= mean kuadrat interaksi aitem x subjek = mean kuadrat antar aitem
Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent,
Universitas Sumatera Utara
aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur
beberapa trait. 10.
Formula Feldt Formula untuk Tes belah Dua Panjang Tidak Sama Formula ini dapat digunakan jika aitem dikotomi ataupun politomi,
membelah tes menjadi 2 bagian yang tidak sama panjang, jumlah aitem tidak harus sama banyak dengan syarat isi tetap homogen, dan lebih baik digunakan
pada subjek dalam jumlah besar. Feldt 1975 menggunakan formula estimasi reliabilitas sebagai berikut:
20 Keterangan:
= varians skor belahan 1 = varians skor belahan 2
= kovarians skor belahan 1 dan 2 = deviasi standar skor tes
Pada penelitian ini, estimasi koefisien reliabilitas dilakukan dengan pendekatan konsistensi internal atau satu kali tes dengan teknik komputasi
reliabilitas yang digunakan adalah formula Kuder- Richardson KR’20. Formula
KR’20 dipilih karena tingkat kesulitan aitem subtes WA cenderung bervariasi. Jika KR’21 digunakan pada tes yang kesulitan aitem nya cenderung bervariasi,
maka hasilnya akan rendah dan tidak cermat Azwar, 2007
Universitas Sumatera Utara
c. Analisis Koefisien Reliabilitas
Tingkat reliabilitas dari suatu penngukuran ditunjukkan dari koefisien reliabilitas. Koefisien reliabilitas memperlihatkan pengaruh dari true score dan
error score terhadap observed score. Secara umum, koefisien reliabilitas dapat didefinisikan sebagai rasio dari true score variance terhadap total variance dari
skor tes Gregory, 2000. Rentang nilai koefisien reliabilitas adalah antara 0.0-1.0. Pengukuran yang sangat reliabel akan memiliki koefisien reliabilitas mendekati
1.0, sebaliknya yang sangat tidak reliabel akan memiliki koefisien relabilitas mendekati 0.0.
Menurut Anastasi Urbina 1997, suatu pengukuran dapat dikatakan reliabel apabila memiliki rentang nilai koefisien reliabilitas antara 0.80-0.90.
sedangkan menurut Nunnally 2005, pengukuran dapat dikatakan reliabel jika memiliki koefisien reliabilitas diatas 0.70. Murphy Davidshofer 2003
mengelompokkan nilai koefisien reliabilitas ke dalam beberapa kelompok nilai, yaitu nilai yang tidak dapat diterima ≤ 0.60, nilai yang rendah 0.61-0.70, nilai
moderat 0.71- 0.89 dan nilai yang tinggi ≥ 0.90.
d. Interpretasi Koefisien Reliabilitas
Dalam setiap pengukuran kemungkinan besar akan selalu terjadi error E pengukuran yang mengakibatkan skor tampak X tidak selalu sama dengan skor
murni T. Jadi untuk mengestimasi nilai skor murni, diperlukan interpretasi dari koefisien reliabilitas. Suatu tes dikatakan memiliki reliabilitas yang tinggi apabila
misalnya, skor tampak X berkorelasi tinggi dengan skor murni T nya sendiri.
Universitas Sumatera Utara
Atau bisa juga ditafsirkan dari tingginya korelasi antara skor-tampak pada dua tes yang pararel.
Allen Yen dalam Azwar, 2004 menguraikan enam cara untuk menginterpretasikan koefisien reliabilitas
, yaitu: Interpretasi 1 :
= korelasi skor tampak antara dua tes yang pararel. Interpretasi ini menyatakan bahwa reliabilitas ini ditentukan oleh sejauh
mana skor tampak pada dua tes yang parallel berkorelasi. Interpretasi ini menjadi asumsi dasar dalam pendekatan reliabillitas bentuk parallel Parallel-forms dan
pendekatan reliabilitas bentuk sejajar alternate-forms. Interpretasi 2 :
= besarnya proporsi varians X yang dijelaskan oleh hubungan linearnya dengan .
Interpretasi ini berasal dari penafsiran koefisien determinasi sebagaimana biasanya dilakukan pada penafsiran koefisien korelasi linier Pearson. Interpretasi
ini sangat penting artinya dalam menilai apakah suatu koefisien reliabilitas dapat dianggap cukup bermakna atau tidak.
Interpretasi 3
: =
21 Interpretasi ini menyatakan bahwa koefisien reliabilitas merupakan
besarnya perbandingan antara varians skor murni dan varians skor tampak pada
Universitas Sumatera Utara
suatu tes atau merupakan proporsi varians skor tampak yang berisi varians skor murni.
Bila semua perbedaan yang terjadi pada skor tampak subjek merefleksikan perbedaan skor murni, yaitu
, maka reliabilitas tes tersebut adaal sempurna dengan koefisien reliabilitas
=1. Artinya setiap skor tampak yang diperoleh subjek satu dengan yang lainnya memang perbedaan skor murni
mereka, bukan perbedaan yang disebabkan oleh faktor-faktor lain sebagai sumber error dalam pengukuran itu. jadi semakin kecil koefisien reliabilitas, yaitu
semakin jauh dari angka 1, berarti semakin besar error pengukuran yang terjadi. Interpretasi 4
: =
22 Koefisien reliabilitas dalam interpretasi ini merupakan kuadrat koefisien
korelasi antara skor tampak dan skor murni. Interpretasi 5 :
= 23
Koefisien reliabilitas adalah sama dengan satu dikurangi kuadrat koefisien korelasi antara skor tampak dengan error pengukuran. Semakin besar korelasi
antara skor —tampak dengan error pengukuran, akan semakin kecil koefisien
reliabilitasnya. Interpretasi 6 :
= 1- 24
Universitas Sumatera Utara
Interpretasi ini mengaitkan reliabilitas dengan varians error dan varians skor-tampak yang dihubungkan dengan homogenitas subjek. Koefisien reliabilitas
pada kelompok homogen akan relative lebih rendah dibandingkan pada kelompok yang heterogen.
Skor murni tidak dapat diperoleh secara langsung dan koefisien reliabilitas merupakan salah satu bentuk pendekatan yang dapat digunakan untuk
mengestimasi nilai skor murni. Estimasi atau perkiraan terhadap skor murni kemungkinan besar akan selalu mengandung eror. Sehingga penafsiran terhadap
koefisien reliabilitas harus dilakukan melalui penafsiran standard eror pengukuran, dengan rumusan sebagai berikut:
=
25 Keterangan :
: Standard error dari pengukuran Sx
: standard deviasi skor : koefisien reliabilitas
Semakin tinggi koefisien reliabilitas suatu tes, maka kemungkinan kesalahan yang terjadi semakin kecil.
e. Faktor-faktor yang Mempengaruhi Reliabilitas
Crocker Algina 2005 menjelaskan bahwa ada 3 hal utama yang secara tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu
instrumen, yaitu:
Universitas Sumatera Utara
1 Homogenitas Kelompok Secara umum dapat dijelaskan bahwa dalam suatu kondisi tes, semakin
besar homogenitas kelompok berkaitan dengan trait-trait tertentu yang diukur maka indeks reliabilitas akan semakin rendah bila dibandingkan
dengan kondisi ketika kelompok sampel lebih heterogen. 2 Batasan Waktu dalam Tes
Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang lebih
pendek, terutama pada tes dengan komposisi aitem yang sama. Hal ini dikarenakan performansi subjek pada tes yang lebih panjang waktunya akan
lebih maksimal. Sementara pada tes yang memiliki waktu lebih pendek, performansi subjek akan sangat ditentukan oleh banyak faktor, termasuk
kelelahan dan performansi subjek lain yang mengikuti tes tersebut. 3 Panjang Tes
Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya aitem-aitem yang menyususn tes tersebut. Secara umum, semakin banyak
aitem yang memiliki kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas instrumen tersebut.
Universitas Sumatera Utara
5. Validitas
a. Pengertian Validitas
Validitas berasal dari kata validity yang berarti sejauhmana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Suatu tes atau
instrument pengukur dapat dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur, yang sesuai
dengan maksud dilakukannya pengukuran tersebut Azwar, 2007 Sisi lain dari pengertian validitas menurut Azwar 2007 adalah aspek
kecermatan pengukuran. Suatu alat ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi juga harus memberikan gambaran yang
cermat mengenai data tersebut. Cermat berarti bahwa pengukuran itu dapat memberikan gambaran mengenai perbedaan yang sekecil-kecilnya di antara
subjek yang satu dengan yang lain. Lebih lanjut, Azwar 2007 menambahkan bahwa pengertian validitas juga
sangat erat kaitannya dengan tujuan pengukuran. Oleh karena itu, tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur
biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Dengan demikian, pernyataan valid terhadap suatu pengukuran harus diikuti oleh
keterangan yang menunjuk kepada tujuan awal pengukuran serta kelompok subjek yang mana.
Anastasi Urbina 2003 menyatakan bahwa validitas suatu tes itu menggambarkan apa yang hendak diukur oleh tes dan seberapa baik tes tersebut
mengukurnya. Adapun fungsi validitas dalam pengukuran psikologis adalah:
Universitas Sumatera Utara
1 Mengukur Psychological traits : hal yang ingin diteliti adalah apakah alat
ukur sudah tepat mengukur konstruk yang ingin diukur. 2
Menunjukkan hubungan statistical dengan variabel tertentu : hal yang ingin diiteliti disini adalah fungsi alat ukur dalm memprediksi dan
mendiagnosa perilaku. 3
Representasi materi : hal ynag ingin ditelliti disini adalah apakah alat ukur sudah memuat materi-materi yang telah diberikan.
b. Jenis-jenis Validitas
Tipe validitas terbagi atas Validitas Isi content, Validitas Konstruk construct, Validitas Berdasar Kriteria criterion-related. Validitas Konstruk
terbagi atas dua, yaitu validitas convergen dan validitas diskriminan, sedangkan Validitas Berdasar Kriteria terbagi menjadi dua, yaitu validitas konkuren dan
validitas prediktif. 1.
Validitas Isi Content related validation Validitas isi menunjukkan sejauh mana aitem-aitem dalam tes mencakup
keseluruhan kawasan isi yang hendak diukur oleh tes tersebut. Dalam hal ini, tes tidak hanya komprehensif akan tetapi juga isinya harus relevan dan tidak keluar
dari batasan tujuan pengukuran. Pengujian validitas isi tidak melalui analisis statistika tetapi menggunakan
analisis rasional. Salah satu cara nya adalah dengan melihat apakah aitem-aitem dalam tes telah ditulis sesuai dengan blue-Print nya yaitu telah sesuai dengan
batasan domain ukur yang telah ditetapkan semula dan memeriksa apakah
Universitas Sumatera Utara
masing-masing aitem telah sesuai dengan indicator perilaku yang hendak diungkap.
2. Validitas Konstrak Construct related validation
Validitas konstrak adalah validitas yang menunjukkan sejauhmana suatu tes mengukur trait atau konstrak teoretik yang hendak diukurnya Azwar, 2007.
Untuk pengujian validitas konstrak, diperlukan analisis statistika yang kompleks. Prosedur pengujian validitas konstrak berangkat dari hasil komputasi interkorelasi
diantara berbagai hasil tes dan kemudian diikuti oleh analisis lebih lanjut terhadap matriks korelasi yang diperoleh, melalui berbagai metode. Menurut Anastasi
Urbina 1997, terdapat beberapa metode untuk melakukan construct validity, diantaranya adalah develoPmental changes, Correlation with other test, Analisa
factor, Iinternal Consistency, Convergent Discriminant Validation, dan Experimental Intervention. Dalam penelitian ini metode yang digunakan untuk
mengukur valliditas konstruk adalah Convergent Discriminant Validation Berhubungan dengan Convergent Discriminant Validation, Campbell
dan Fiske dalam Azwar 2007 telah mengembangkan pendekatan terhadap validitas konstrak yang mereka namakan pendekatan multitrait-multimethod.
Pendekatan ini dapat digunakan bilamana terdapat dua trait atau lebih yang diukur oleh dua macam metode atau lebih. Dasar pemikiran dalam validitas konstrak
adalah bahwa ada validitas yang baik diperlihatkan oleh korelasi yang tinggi antara dua pengukuran terhadap terhadap dua trait yang sama oleh dua metode
yang berbeda, atau korelasi yang rendah antara dua pengukuran terhadap trait yang berbeda walaupun menggunakan metode yang serupa.
Universitas Sumatera Utara
Pada intinya ada dua fokus pengujian validitas konstrak, yaitu: a
Apakah data yang dikumpulkan dari alat ukur yang disusun telah mendukung konstruksi teorinya.
b Apakah bukti-bukti empiris yang dikumpulkan dari berbagai
pengujian relasi telah mendukung hipotesis dalam bagan teorinya. Dalam hal ini, ada dua jenis validitas konstrak, yaitu validitas konvergen
convergent validity dan validitas diskriminan discriminant validity. Validitas konvergen harus ditunjukkan oleh tingginya korelasi antara skor skala-skala yang
mengukur trait yang sama sedangkan validitas diskriminan harus diperlihatkan oleh rendahnya korelasi antara skor skala-skala yang mengukur trait yang
berbeda. 3.
Validitas Berdasar Kriteria Criterion related validation Validitas berdasar kriteria merupakan validitas yang diperlihatkan oleh
adanya hubungan skor pada tes yang bersangkutan dengan skor suatu criteria. Dalam validasi tes berdasar criteria, umumnya tes yang akan diuji validitasnya
disebut sebagai prediktor. Statistik yang diperlukan dalam pengujian validitas ini adalah koefisien korelasi antara skor tes sebagai predictor dan skor suatu criteria
yang relevan. a
Validitas Prediktif Validitas prediktif dapat dilihat dari hasil analisis korelasional antara skor tes
dengan skor performansi yang hendak diprediksikan pada masa yang akan datang. Skor performansi sebagai criteria validasi baru bisa diperoleh setelah tenggang
waktu tertentu.
Universitas Sumatera Utara
b Validitas Konkuren
Validitas konkuren merupakan validitas yang melihat sejauhmana kesesuaian antara hasil ukur instrument tersebut dengan hasil ukur instrumen lain
yang sudah teruji kualitasnya atau dengan ukuran-ukuran yang dianggap dapat menggambarkan aspek yang diukur tersebut secara reliable. Dalam hal ini,
instrumen yang sudah teruji validitasnya atau ukuran yang dianggap tepat itu berlaku sebagai criteria validasi.
6. Hubungan Karakteristik Psikometri
Sebelumnya secara terpisah sudah dijelaskan mengenai karakteristik- karakteristik ketika menganalisis aitem, diantaranya indeks kesulitan aitem,
indeks diskriminasi aitem serta efektivitas distraktor, dimana menurut Murphy Davidshofer, 2003 ketiga karakteristik ini merupakan hal yang penting dari
sebuah analisis aitem. Ketiga karakteristik ini saling terkait satu sama lain dalam menentukan kualitas aitem dari suatu alat tes.
Keterkaitan antara indeks kesulitan aitem, indeks diskriminasi aitem serta efektivitas distraktor bisa dilihat dari keterkaitan antara efektiviras distraktor
dengan kesulitan aitem, kesulitan aitem dengan diskriminasi dan distraktor dengan diskriminasi.
Indeks kesulitan aitem sangat dipengaruhi oleh efektivitas distraktor, jika semua distraktor tidak berfungsi maka subjek akan dengan mudah untuk memilih
jawaban yang benar tanpa harus memiliki pengetahuan tentang hal yang
Universitas Sumatera Utara
ditanyakan tentu hal ini mempengaruhi tingkat kesulitan aitem, sehingga tingkat kesulitan aitem menjadi rendah.
Indeks kesulitan aitem secara langsung mempengaruhi indeks diskriminasi aitem. Aitem yang sangat susah p = 0 dan aitem yang sangat gampang p = 1
tidak dapat membedakan antara subjek yang memiliki pengetahuan dan subjek yang tidak memiliki pengetahun sehingga indeks diskriminai bernilai rendah.
Aitem yang memiliki efektivitas distraktor yang buruk tentu memiliki indeks diskriminasi yang buruk juga. Hal ini disebabkan karena distraktor yang
buruk akan membuat subjek dengan gampang menjawab pertanyaan atau sebaliknya membuat subjek susah untuk menjawab pertanyaan sehingga
berpengaruh juga terhadap diskriminasi aitem karena tidak dapat membedakan subjek yang memiliki pengetahuan baik dengan subjek yang tidak memiliki
pengetahuan baik. Demikian juga halnya dengan indeks reliabilitas yang berhubungan
langsung dengan nilai validitas. Validitas dan reliabilitas berjalan berdampingan dalam menentukan kualitas alat tes, dimana suatu alat tes harus konsisten, cermat
dalam mengukur apa yang hendak diukur, sehingga alat tes tersebit bisa dipercaya.
C. Intelligenz Structure Test IST