Karakteristik Psikometri Subtes Wortauswahl (WA) Pada Intelligenz Struktur Test (IST)

BAB II
TINJAUAN PUSTAKA

Menurut Azwar (2007) bahwa teori pengukuran dapat dibahas dari tiga
macam pendekatan secara umum, yaitu (a) pendekatan teori skor murni klasikal
(classical true-score theory), (b) pendekatan teori skor murni kuat (strong truescore theory) dan (c) pendekatan latent-trait theory.
Teori skor-murni kuat mempunyai pandangan yang mirip dengan teori skormurni klasikal mengenai nilai harapan skor tampak yang merupakan skor murni,
akan tetapi dalam teori skor murni kuat terdapat asumsi-asumsi tambahan
mengenai probabilitas skor-tampak yang akan diperoleh seorang subjek yang
merupakan skor-murni tertentu sehingga dengan asumsi-asumsi tersebut
kelayakan teori skor-murni kuat bagi data tertentu, dapat diuji.
Sedangkan latent-trait theory berasumsi bahwa aspek performansi
terpenting pada suatu tes dapat ditunjukkan oleh kedudukan seorang subjek pada
suatu latent-trait yang berupa karakteristik psikologis yang tidak tampak. Berbeda
dengan teori skor murni kuat, walaupun asumsi bahwa nilai harapan skor tampak
pada teori latent-trait juga merupakan skor murni, pada umumnya tidak terdapat
hubungan linear antara skor-murni dengan latent-trait sehingga nilai harapan skor
tampak tidak sama dengan nilai latent-trait.
Teori skor murni kuat dan teori latent-trait tidak cuma sekedar membahas
konsep eror standar dalam pengukuran saja, akan tetapi juga membahas masalah


Universitas Sumatera Utara

eror standar yang bervariasi sesuai dengan level skor murni atau latent-traitnya.
Menurut kedua teori tersebut, eror standar tidak terpengaruh oleh distribusi skor
subjek.
Penelitian ini akan menggunakan pendekatan pendekatan teori skor murni
klasikal dalam proses analisis yang dilakukan, denga pertimbangan bahwa teori
ini lebih praktis dalam menerangkan masalah reliabilitas dan validitas. Selain itu
juga pemahamannya yang tidak menuntut pengetahuan yang terlalu dalam
mengenai beberapa fungsi distribusi statistik dan model-model matematiknya.

E. Classical True-score Theory
1. Pengertian Classical True-score Theory
Classical True-score Theory (selanjutnya disebut dengan CTT) merupakan
pendekatan yang telah berhasil meletakkan dasar-dasar konsepsi reliabilitas pada
dekade-dekade yang telah lalu dan memiliki kontribusi yang sangat besar dalam
pengembangan formula-formula reliabilitas. Pendekatan ini juga memiliki nilai
praktis yang tinggi dalam menerangkan masalah validitas dan reliabilitas (Azwar,
2004)
CTT pada intinya dijelaskan dalam bentuk asumsi-asumsi matematis, yang

pada akhirnya dijadikan sebagai dasar turunan aljabar atau kesimpulankesimpulannya.

Universitas Sumatera Utara

2. Asumsi-asumsi dalam Classical True-score Theory
Sebelum membahas asumsi-asumsi dalam CTT, perlu

diketahui bahwa

asumsi-asumsi tersebut merupakan hubungan matematis dari skor tampak (X), skor
murni (T), dan eror pengukuran (E). Skor tampak merupakan angka yang
menunjukkan nilai performansi subjek pada suatu pengukuran, yang tidak lain
merupakan nilai total dari jawaban subjek dalam tes tersebut. Skor murni dijelaskan
sebagai angka performansi.
Adapun sumsi-asumsi dalam CTT (dalam Azwar, 2007) adalah sebagai berikut:

Asumsi 1 :
X=T+E

(1)


Asumsi ini menjelaskan bahwa sifat aditif berlaku pada hubungan antara
skor tampak, skor muni, dan eror. Skor tampak (X) merupakan jumlah skor murni
(T) dan eror (E)
Asumsi 2:
ε(X) = T

(2)

Asumsi ini menyatakan bahwa skor murni merupakan nilai harapan dari
skor tampaknya. Jadi, T merupakan harga rata-rata distribusi teoretik skor tampak
apabila orang yang sama dikenai tes yang sama berulangkali dengan asumsi
pengulangan tes itu dilakukan tidak terbatas banyaknya dan setiap pengulangan
tes adalah independen satu sama lain.
Asumsi 3:
=0

(3)

Universitas Sumatera Utara


Asumsi ini menyatakan bahwa bagi populasi subjek yang dikenai tes,
distribusi eror pengukuran dan distribusi skor murni tidak berkorelasi.
Implikasinya, skor murni yang tinggi tidak selalu berarti mengandung eror yang
selalu positif ataupun selalu negatif (Azwar, 2007).
Asumsi 4:
=0

(4)

Asumsi ini menyatakan bahwa dalam eror pada dua tes ( yang dimaksud
untuk mengukur hal yang sama) tidak saling berkorelasi. Asumsi ini akan tidak
terpenuhi sekiranya skor tampak dipengaruhi kondisi testing, seperti misalnya
kelelahan, Practice effect, suasana hati, atau factor-faktor dari lingkungan
(Suryabrata, 2005).
Asumsi 5 :
=0

(5)


Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama,
maka eror pada tes pertama tidak berkorelasi dengan skor-skor murni pada tes
kedua.
Asumsi 6
Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama
membunyai skot tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan jika
untuk setiap populasi subjek T = T’ serta varians eror kedua tes tersebut sama,
kedua tes tersebut disebut sebagai tes yang parallel (Suryabrata, 2005)

Universitas Sumatera Utara

Asumsi 7
Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama
membunyai skot tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan jika
untuk setiap populasi subjek T1 = T2 + C. Dengan C sebagai suatu bilangan
konstan, maka kedua tes tersebut dapat disebut sebagai tes yang setara (equivalent
test).

B. Analisis Karakteristik Psikometri
Sebuah instrument tes merupakan sekumpulan aitem yang disusun

sedemikian rupa, baik berupa pertanyaan maupun pernyataan mengenai suatu hal
yang hendak diukur (Azwar, 2007). Proses analisis terhadap karakteristik
psikometri dari suatu instrument tes ditujukan untuk memilih aitem-aitem yang
layak dan mengetahui kelayakan instrument tersebut. Jadi proses analisis dapat
dilakukan untuk merancang sebuah instrumen tes yang baru atau menguji
instrument yang sudah ada. Proses analisis tersebut secara sederhana meliputi dua
cara, yaitu:
Tahap Pertama adalah analisis dan seleksi aitem berdasarkan evaluasi
secara kualitatif. Evaluasi ini bertujuan untuk melihat apakah aitem yang ditulis
sudah sesuai dengan blue-print dan indikator perilaku yang hendak diungkap,
melihat apakah aitem telah ditulis sesuai dengan kaidah penulisan yang benar, dan
melihat apakah aitem-aitem yang ditulis masih mengandung social desirability
yang tinggi. Evaluasi secara kualitatif ini dikerjakan oleh suatu panel ahli.

Universitas Sumatera Utara

Tahap kedua adalah prosedur seleksi aitem berdasarkan data empiris
dengan melakukan analisis kuantitatif terhadap parameter-parameter aitem.
Parameter-parameter yang dimaksud meliputi indeks diskriminasi aitem dan
indeks kesulitan aitem, analisis efektivitas distraktor, analisis reliabilitas, serta

analisis validitas dari instrumen tersebut (Crocker & Algina, 2005).
1. Indeks Kesulitan Aitem
a. Pengertian Indeks Kesulitan Aitem
Indeks kesulitan aitem yang biasanya disimbolkan dengan huruf p
merupakan rasio antara penjawab aitem dengan benar dan banyaknya penjawab
aitem. Secara teoritik dikatakan bahwa p sebenarnya merupakan probabilitas
empirik untuk lulus aitem tertentu bagi kelompok subjek tertentu. Secara
matematis diformulaikan sebagai berikut:
p = ni / N

(6)

Keterangan:
p = indeks kesulitan aitem
ni = banyaknya subjek yang menjawab aitem dengan benar
N = banyaknya subjek yang menjawab aitem
Selain untuk membedakan subjek yang menguasai suatu pelajaran dengan
baik dengan yang tidak menguasai dengan baik, indeks kesulitan aitem juga
berfungsi dalam hal penyusunan aitem-aitem saat penyusunan alat tes. Hal ini
sesuai dengan apa yang diungkapkan oleh Kumar (2009), yang menyatakan

bahwa penyusunan aitem dilakukan berdasarkan nilai indeks kesulitan aitem.
Lebih lanjut Murphy & Davidshofer (2003) menyarankan untuk menyusun aitem-

Universitas Sumatera Utara

aitem dalam tes secara sistematis, dengan menempatkan aitem-aitem berdasarkan
tingkat kesukarannya, mulai dari aitem yang paling mudah hingga yang paling
sulit. Sehingga pola penyusunan aitem-aitem dalam tes dimulai dari aitem dengan
harga p yang paling tinggi hingga aitem dengan harga p yang paling rendah.
b. Analisis Indeks Kesulitan Aitem
Nilai p yang semakin tinggi menunjukkan bahwa aitem yang bersangkutan
semakin mudah. Nilai p berkisar dari 0 sampai dengan angka 1. Apabila sebuah
aitem sedemikian sukarnya, sehingga tidak seorang subjek pun dapat menjawab
dengan benar, maka harga p = 0, sedangkan apabila suatu aitem sedemikian
mudahnya sehingga seluruh subjek dapat menjawab dengan benar, maka harga p
= 1. Aitem yang terlalu mudah atau terlalu sulit biasanya tidak akan banyak
berguna dalam membedakan subjek yang menguasai bahan pelajaran dan mereka
yang tidak (Azwar, 2007).
Pada umumnya harga p yang berada disekitar 0,50 dianggap yang terbaik.
Menurut Azwar (2007), harga p terbaik adalah yang sesuai yang sesuai dengan

tujuan tes yang bersangkutan. Misalnya kadang-kadang dikehendaki harga p <
0,50 (aitemnya lebih sulit) apabila aitem aitem itu dimaksudkan sebagai bagian
dari suatu tes yang digunakan dalam prosedur seleksi guna memilih sebagian kecil
saja dari antara pelamar. Tidak jarang pula sebuah tes prestasi perlu disusun
dengan memasukkan banyak aitem yang taraf kesulitannya rendah (p tinggi)
dengan tujuan untuk evaluasi formatif.
Jadi bisa dikatakan bahwa harga p yang berada pada titik ekstrem (terlalu
sulit atau terlalu mudah) akan mempunyai daya diskriminasi yang kurang baik.

Universitas Sumatera Utara

Oleh karena itu, umumnya pada penyusunan instrumen tes disarankan untuk
menggunakan aitem dengan taraf kesulitan sedang (0,50). Namun Lord (dalam
Murphy & Davidshofer, 2003) menyatakan bahwa untuk tes seleksi karyawan, p
akan dikatakan baik jika nilai p mendekati 0,2.
Allen & Yen (dalam Lababa, 2008) mengkategorikan nilai p sebagai
berikut:
Tabel 1 Kategori Tingkat Kesulitan aitem
No
1

2
3

P
p0,7

Kategori
Sulit
Sedang
Mudah

Ada beberapa hal yang perlu dipahami mengenai indeks kesulitan aitem
ini, diantaranya pertama adalah bahwa harga p dari suatu aitem menunjukkan
taraf kesulitan aitem tersebut bagi kelompok yang bersangkutan, yaitu kelompok
yang menjadi dasar dalam menghitung p itu sendiri (Azwar, 2005). Artinya harga
p suatu aitem akan berbeda apabila dihitung pada kelompok siswa yang berbeda.
Kedua bahwa besarnya harga p yang kita hitung merupakan indek kesulitan aitem
bagi seluruh kelompok yang bersangkutan, bukan indeks kesulitan bagi masingmasing individu dalam kelompok. Artinya harga p yang dihitung dalam kelompok
hanya merupakan rata-rata indeks kesulitan bagi seluruh individu dalam kelompok
tersebut.

Berdasarkan penjelasan di atas, maka dalam penelitian ini aitem dikatakan
memiliki indeks diskriminasi yang baik jika harga p lebih kecil dari 0,3, dengan
alasan bahwa IST dalam hal ini digunakan untuk seleksi karyawan, yaitu memilih
sebagian kecil saja dari antara para pelamar.

Universitas Sumatera Utara

2. Indeks Daya Diskriminasi Aitem
a. Pengertian Indeks Diskriminasi Aitem.
Indeks daya diskriminasi aitem atau sering disebut dengan daya beda
aitem merupakan parameter yang paling penting dalam tes psikologi yang
menunjukkan sejauh mana aitem mampu membedakan antara individu atau
kelompok individu yang memiliki dan yang tidak memiliki atribut yang diukur
(Azwar, 2005). Artinya bahwa aitem yang memiliki daya beda yang tinggi harus
memiliki skor yang tinggi pada individu yang memiliki atribut yang diukur dan
skor yang rendah pada individu yang tidak memiliki atribut yang diukur.
Indeks diskriminasi aitem (d) secara sederhana didefinisikan sebagai
perbedaan proporsi penjawab aitem dengan benar antara Kelompok Tinggi dengan
Kelompok Rendah.
Secara matematis diformulasikan sebagai berikut:

(7)
Keterangan:
d

: Indeks diskriminasi Aitem

niT : jumlah subjek penjawab dengan benar dari Kelompok Tinggi
nT

: Jumlah subjek Kelompok Tinggi

niR : jumlah subjek penjawab dengan benar dari Kelompok Rendah
nR

: Jumlah subjek Kelompok Rendah

Formulasi di atas sama dengan perbedaan/ selisih indeks kesulitan pada
Kelompok Tinggi dan Kelompok Rendah, sehingga lebih sederhana dapat
diformulasikan sebagai berikut:

Universitas Sumatera Utara

-

(8)

Keterangan :
= Indeks kesulitan pada Kelompok Tinggi
= Indeks kesulitan pada Kelompok Rendah
Dalam skala sikap, sebuah aitem dikatakan memiliki daya beda tinggi jika
aitem tersebut mampu membedakan antara subjek yang bersikap positif dan
subjek yang bersifat negatif. Sedangkan untuk sebuah tes inteligensi, sebuah aitem
dikatakan memiliki daya beda tinggi jika aitem tersebut mampu membedakan
subjek yang memiliki kemampuan tinggi (Kelompok Tinggi) dan subjek yang
memiliki kemampuan rendah (Kelompok Rendah). Artinya suatu aitem tersebut
haruslah dijawab dengan benar oleh semua atau sebagian besar subjek Kelompok
Tinggi dan tidak dapat dijawab dengan benar oleh semua atau sebagian besar
subjek Kelompok Rendah (Azwar, 2007).
b. Analisis Indeks Diskriminasi Aitem
Menurut Murphy dan Davidshofer (2003), jika suatu tes dan satu aitem
mengukur hal yang sama, maka diharapkan bahwa orang yang mengerjakan tes
dengan baik akan menjawab aitem tersebut dengan benar, dan orang yang
mengerjakan tes dengan buruk menjawab aitem tersebut dengan salah. Dengan
kata lain, aitem yang memiliki daya diskriminasi yang baik mampu membedakan
antara orang yang mengerjakan tes dengan baik dan orang yang mengerjakan tes
dengan buruk.
Nilai Indeks diskriminasi (d) berkisar mulai dari -1 sampai dengan +1,
namun hanya harga d yang positif saja yang memiliki arti dalam analisis aitem.

Universitas Sumatera Utara

Daya diskriminasi maksimal tercapai apabila seuruh subjek Kelompok Tinggi
dapat menjawab dengan benar (

), sedangkan seluruh subjek Kelompok

Rendah tidak seorang pun yang dapat menjawab dengan benar (

). Dalam

hal ini, harga indeks diskriminasi d = 1-0=1.
Harga d yang berada disekitar 0 menunjukkan bahwa aitem yang
bersangkutan memiliki daya diskriminasi yang rendah, sedangkan harga d yang
negative menunjukkan bahwa aitem yang bersanngkutan tidak ada gunanya sama
sekali, bahkan memberikan informasi yang menyesatkan.
Indeks diskriminasi yang ideal yang ideal adalah yang sebesar mungkin
mendekati angka 1. Semakin besar indeks kemsukaran aitem (semakin mendekati
angka 1) berarti aitem tersebut semakin mampu membedakan antara subjek yang
menguasai bahan yang diujikan dan dan subjek yang tidak menguasai.
Menurut Thorndike (dalam Azwar, 2005) bahwa dalam proses seleksi
aitem, aitem-aitem yang memiliki nilai diskriminasi di atas 0,50 akan langsung
dianggap baik sedangkan aitem-aitem dengan indeks diskriminasi di bawah 0,20
dapat langsung dibuang dan dianggap jelek. Sementara menurut Ebel (dalam
Azwar, 2005) terdapat suatu panduan dalam evaluasi indeks diskriminasi aitem,
yaitu:
Tabel 2 Evaluasi Indeks Daya Diskriminasi Aitem
Indeks Daya Beda
0,40
0,30 – 0,39
0,20 – 0,29
< 0,20

Evaluasi
Sangat bagus
Lumayan bagus, tidak membutuhkan revisi
Belum memuaskan, perlu direvisi
Buruk dan harus dibuang

Universitas Sumatera Utara

Menurut Murphy dan Davidshofer (2003), ada tiga statistik yang dapat
digunakan untuk mengukur daya diskriminasi suatu aitem, yaitu:
1. Method of Extreme Group
Metode ini biasanya dugunakan untuk indeks diskriminasi pada kelompok
besar. Diskriminasi aitem dapat dihitung dengan cara membagi kelompok menjadi
dua, Upper group (Kelompok Tinggi) yakni kelompok yang memiliki skor yang
tinggi (25-35 % nilai tertinggi didalam kelompok) dan lower group (Kelompok
Rendah) yakni kelompok yang memiliki nilai yang rendah (25-35 % nilai terendah
dalam kelompok). Aitem yang memiliki indeks diskriminasi yang baik akan
dijawab benar oleh Kelompok Tinggi dan dijawab salah oleh Kelompok Rendah.
2. Korelasi Aitem-Total
Parameter daya beda aitem yang berupa koefisien korelasi aitem-total
memperlihatkan kesesuaian

fungsi aitem dengan fungsi skala / tes dalam

mengungkap perbedaan individual. Besarnya koefisien korelasi aitem-total
bergerak 0 sampai dengan 1,00. Semakin baik daya diskriminasi aitem, maka
koefisien korelasi semakin mendekati angka 1,00.
Korelasi aitem total dapat diketahui dengan menghitung korelasi point
biserial (rpbis). Korelasi point biserial yang bernilai positif menunjukkan bahwa
aitem dan tes mengukur hal yang sama, nilai mendekati nol menunjukkan bahwa
bahwa aitem tidak memiliki indeks daya beda yang baik sehingga kelompok
tinggi menjawab pertayaan dengan salah dan kelompok rendah menjawab
pertanyaan dengan benar. Nilai negatif menunjukkan bahwa aitem tidak
mengukur hal yang sama dengan alat tes. Berikut adalah formula point biserial :

Universitas Sumatera Utara

rpbis = [(Mi – Mx)/Sx] / √[p/(1-p)]

(9)

Keterangan :
rpb

:

Mi

:Mean skor X dari seluruh subjek yang mendapat angka 1 pada

variabel

Korelasi point biserial

dikotomi i

Mx

: Mean skor dari seluruh subjek

Sx

:Standard deviasi skor X

P

:Proporsi subjek yang mendapat angka 1 pada variabel dikotomi

3. Korelasi Inter-Aitem
Pengujian terhadap korelasi inter-aitem dapat membantu kita mengetahui
mengapa beberapa aitem gagal membedakan anatara subjek yang bekerja dengan
baik (Kelompok Tinggi) dan yang bekerja dengan buruk (Kelompok Rendah)
(Murphy dan Davidshofer, 2003)
Korelasi inter-aitem yang bernilai rendah dapat memiliki dua arti,
kemungkinan pertama adalah aitem tidak mengukur hal yang sama dengan tes,
sehingga aitem harus dibuang atau dibuat ulang, kemungkinan kedua adalah aitem
memang mengukur atribut yang berbeda dengan tes dikarenakan tes memang
disusun untuk mengukur dua atribut yang berbeda.
Dalam penelitian ini, indeks diskriminasi akan diukur dengan dua cara,
yaitu dengan metode extreme group dan metode korelasi aitem-total. Dengan
metode extreme group, diharapkan bisa melihat perbedaan antara Kelompok
Tinggi dan Kelompok Rendah. Sedangkan dengan metode korelasi aitem-total
diharapkan dapat melihat kesesuaian fungsi aitem dengan fungsi

tes dalam

mengungkap perbedaan individual.

Universitas Sumatera Utara

3. Efektivitas Distraktor
Efektivits distraktor-distraktor pada suatu aitem dianalisis dari distribusi
jawaban terhadap aitem yang bersangkutan pada setiap alternatif yang disediakan.
Efektivitas distraktor diperiksa untuk melihat apakah semua distraktor

atau

semua pilihan jawaban yang bukan kunci telah berfungsi sebagaimana mestinya,
yaitu apakah distraktor-distraktor tersebut telah dipilih lebih banyak (atau semua)
siswa Kelompok Rendah sedangkan siswa dari Kelompok Tinggi hanya sedikit
(atau tidak ada) yang memilihnya.
Efektivitas distraktor dilihat dari dua kriteria, yaitu: (a) distraktor dipilih oleh
siswa dari Kelompok Rendah, dan (b) pemilih distraktor tersebar relative
proporsional pada masing-masing distrakktor yang ada (Azwar, 2005)

4. Reliabilitas
a. Pengertian Reliabilitas
Reliabilitas merupakan penerjemahan dari kata reliability yang berasal
dari dua kata yaitu rely dan ability, dimana rely memilliki arti percaya atau
mempercayakan sedangkan ability memiliki arti kemampuan. Ada banyak istilah
yang

digunakan

untuk

keterandalan, keajegan,

menyatakan

reliabilitas,

seperti

keterpercayaan,

kestabilan, konsistensi dan sebagainya, namun pada

intinya konsep reliabilitas memiliki makna:

sejauh mana hasil suatu tes/

pengukuran dapat dipercaya (Azwar, 2007)
Crocker dan Algina (2005) menjelaskan bahwa pada dasarnya reliabilitas
menggambarkan derajat konsistensi, yaitu :

Universitas Sumatera Utara

”a reliability term refers to the degree to which individuals deviation
scores, or z-scores, remain relatively consistent over repeated
administration of the same test or alternate test forms”.

Reliabilitas suatu tes ditunjukkan oleh taraf konsistensi skor yang
diperoleh para subjek yang diukur dengan alat yang sama atau minimal setara,
dalam kondisi yang berbeda (Suryabrata, 2005). Konsepsi mengenai reliabilitas
berkaitan dengan derajat konsistensi antara dua perangkat skor tes, maka formula
reliabilitas selalu dinyatakan dalam bentuk koefisien korelasi (Azwar, 2007).
Menurut Gregory (2000), reliabilitas dalam pengukuran psikologis menunjukkan
atribut konsistensi dari pengukuran itu sendiri. Hanya sedikit dari pengukuran
behavioral yang benar-benar reliabel, dan reliabilitas itu sendiri bersifat kontinum.
Berdasarkan beberapa definisi di atas, dapat disimpulkan bahwa
reliabilitas pada dasarnya merupakan ketetapan atau derajat konsistensi
performansi relative dari individu yang dikenai tes ketika diberikan tes yang sama
secara berulang atau tes yang parallel.
Tujuan dari sebuah pengetesan adalah untuk mengetahui true score
seseorang yang bersifat latent. Karena bersifat latent, maka skor ini tidak pernah
diketahui secara pasti nilainya dan yang paling mungkin dilakukan untuk
mengetahui true score ini adalah membuat perkiraan melalui observed score.
Observed score adalah skor individu yang diperoleh dari pengetesan. Faktor yang
mempengaruhi reliabilitas suatu tes adalah error. Error atau varians kesalahan

Universitas Sumatera Utara

adalah kondisi yang tidak sesuai atau tidak relevan dengan maksud tes (Anastasi
& Urbina, 1997). Ada dua jenis error yang sering terjadi, yaitu:
1) Systematic error yaitu kecenderungan individu untuk memperoleh skor
yang tinggi semua atau rendah semua. Sifat eror ini selalu konstan.
Sumbernya adalah karakteristik fisik individu, proses tes/ tes yang
tidak berkaitan dengan konstruk yang ingin diukkur. Misalnya alat
ukur rusak, gangguan pendengaran, gangguan penglihatan, dll.
2) Unsystematic error (random error), yaitu kecenderungan individu
memperoleh skor yang tidak tetap, terkadang baik, terkadang buruk.
Error ini bersifat random. Ada berbagai hal yang dapat menimbulkan
random error, antara lain kelelahan memori subjek dan naik turunnya
suasana hati, dll.
b. Jenis-jenis Pendekatan Estimasi Reliabilitas
Estimasi terhadap tingginya reliabilitas dapat dilakukan melalui berbagai
metode pendekatan, dimana masing-masing metode pendekatan dikembangkan
sesuai dengan sifat dan fungsi alat ukur yang bersangkutan dengan
mempertimbangkan segi-segi praktisnya (Azwar, 2007)
Menurut Azwar (2007), secara tradisional

terdapat tiga macam

pendekatan reliabilitas yaitu :
1) Pendekatan Tes Ulang (tes-retest)
Pendekatan ini menunjukkan konsistensi pengukuran dari waktu ke waktu
dan menghasilkan koefisien reliabilitas yang dinamakan koefisien stabilitas.
Prinsip estimainya adalah menyajikan tes dua kali pada satu kelompok subjek

Universitas Sumatera Utara

dengan tenggang waktu tertentu. Asumsinya adalah bahwa suatu tes yang reliable
tentu akan menghasilkan skor tampak yang relative sama apabila dikenakan dua
kali pada waktu yang berbeda. Semakin besar variasi perbedaan skor subjek
antara kedua pengenaan tes, berarti semakin sulit untuk mempercayai bahwa tes
itu memberikan hasil ukur yang konsisten (Azwar, 2007)
Dalam prakteknya, pendekatan ini memiliki keterbatasan yaitu kurang
praktis dalam pelaksanaan tes sebanyak dua kali, dan besarnya kemungkinan
terjadi efek bawaan (carry-over effects) dari satu pengenaan tes ke pengenaan te
syang kedua. Artinya dalam hal ini besar kemungkinan terjadinya proses
pembelajaran bagi subjek dan hal ini akan mempengaruhi terhadapa skor hasil tes
yang kedua kalinya.
2) Pendekatan Bentuk-Paralel (alternate-forms)
Pendekatan bentuk paralel merupakan pengenaan dua bentuk tes pararel
dalam waktu yang bersamaan pada satu kelompok subjek. Jadi pendekatan ini
hanya dapat dilakukan apabila tersedia dua bentuk instrumen yang dapat dianggap
memenuhi asumsi parallel. Salah satu indicator terpenuhinya asumsi paralel
adalah setaranya korelasi antara skor kedua instrument tersebut dengan skor suatu
ukuran lain.
Tentu saja untuk dapat paralel kedua bentuk instrumen harus disusun
dengan tujuan mengukur objek psikologis yang sama, berdasarkan blue-Print
(pola-rancangan) yang sama dan spesifikasi yang sama pula.
Kelemahan utama dari pendekatan ini adalah sulitnya menyusun dua alat
ukur yng memenuhi persyaratan parallel atau sejajar. Selain kelemahan di atas,

Universitas Sumatera Utara

pendekatan

ini

juga

memiliki

kelebihan,

yaitu

dapat

menghilangkan

kemungkinan terjadinya efek bawaan.
3) Pendekatan Konsistensi Internal (Internal-Consistency)
Pendekatan konsistensi internal dilakukan dengan menggunakan satu
bentuk tes yang dikenakan hanya sekali saja pada sekelompok subjek (single-trial
administration). Pendekatan ini mengatasi kelemahan pada pendekatan tes-retest
dan alternate-forms.
Pendekatan reliabilitas konsistensi internal bertujuan untuk melihat
konsistensi antar-aitem atau antar bagian dalam tes itu sendiri. Untuk itu, setelah
skor setiap aitem diperoleh dari sekelompok subjek, tes dibagi menjadi beberapa
belahan, bisa dua belahan, tiga belahan dan bahkan belahan sebanyak aitem.
Membelah tes prinsipnya adalah mengusahakan agar antar belahan memiliki
jumlah aitem sama banyak, taraf kesulitan seimbang, isi sebanding, dan
memenuhi ciri-ciri paralel .
Bentuk dan sifat alat ukur serta banyaknya belahan yang dibuat akan
menentukan teknik perhitungan koefisien reliabilitasnya. Ada beberapa teknik
komputasi reliabilitas konsistensi internal diantaranya: Formula Spearman-Brown,
Formula Rulon, Formula Alpha, Formula-formula Kuder-Richardson, Formula
Kristof, Formula Analisis varians dan sebagainya. Berikut ini akan dijelaskan
secara singkat mengenai penggunaan berbagai formula tersebut:

Universitas Sumatera Utara

1. Spearman-Brown
Formula komputasi Spearman-Brown merupakan formula koreksi
terhadap koefisien korelasi antara dua bagian tes dan dirumuskan sebagai berikut
(Azwar, 2005):
S-B = rxx’=

(10)

Keterangan:
rxx’ = Koefisien reliabilitas Spearman-Brown
r1.2 = Koefisien korelasu antara dua belahan
Formula ini dapat digunakan jika aitem dikotomi ataupun politomi,
pembelahan tes dilakukan dengan cara gasal-genap dan matched-random subtes
dan menghasilkan dua bagian yang paralel satu sama lain dan korelasi antara
kedua belahan paralel tersebut cukup tinggi.
2. Rulon
Rulon (1939) mempersoalkan reliabilitas tes yang dibelah menjadi dua
belahan. Jika sekiranya belahan tersebut setara maka secara teori skor subjek pada
perangkat belahan pertama dan skor perangkat belahan kedua akan sama. Jika
skor-skor pada kedua perangkat itu tidak sama, maka itu terjadi karena
kesalahan/kekeliruan pengukuran. Berdasarkan atas pemikiran ini maka diusulkan
rumus reliabilitas tes sebagai berikut (Suryabrata, 2005):

rxx’ = 1- sd2/sx2

(11)

Keterangan:
sd2 = Varians perbedaan skor kedua belahan
sx2 = Varians skor tes

Universitas Sumatera Utara

d = Perbedaan skor kedua belahan
Formula ini dapat digunakan jika aitem dikotomi ataupun politomi,
belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent.
3. Koefisien alpha belah dua
Formula koefisien alpha untuk estimasi reliabilitas belah dua dirumuskan
sebagai berikut:
rxx’

=2

(12)

Keterangan:
= varians pada belahan 1
= varians pada belahan 2
= varians total skor tes
Formula ini dapat digunakan jika aitem dikotomi ataupun politomi,
belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent,
aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa
digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur
beberapa trait.
4. Koefisien alpha belah lebih dari dua
Pembelahan tes tidak hanya terbatas pada membagi tes ke dalam dua
belahan saja. Cara-cara pembelahan dapat diperluas pemakainnya untuk membagi
tes menjadi beberapa belahan. Bahkan suatu tes yang akan diestimasi
reliabilitasnya dapat dibelah menjadi bagian-bagian sebanyak jumlah aitemnya
sehingga setiap bagian hanya berisi satu aitem saja.

Universitas Sumatera Utara

Untuk tes yang dibelah menjadi lebih dari dua belahan yang masingmasing berisi aitem yang berjumlah sama banyak kita dapat menggunakan
formula alpha dengan rumus:
α=

(13)

Keterangan :

= banyaknya belahan tes
= varians belahan j; j = 1, 2…k
= varians skor tes

Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap
belahan memiliki aitem yang relatif setara, paralel setidaknya memenuhi asumsi
τ-equivalent, aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak
bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur
beberapa trait.
5. Flanagan
Flanagan menganggap bahwa varians-varians pada perangkat-perangkat
belahan tes merupakan varians kekeliruan pengukuran. Maka untuk tes yang
dibelah menjadi dua bagian setara reliabilitasnya adalah sebagai berikut:
(14)

rxx’ =2
Keterangan:

= varians pada belahan 1
= varians pada belahan 2
= varians total skor tes

Universitas Sumatera Utara

6. Kuder-Richardson 20 (KR-20)
KR 20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua
yang mungkin dilakukan. Koefisien ini juga mencerminkan sejauhmana
kesetaraan isi aitem-aitem dalam tes. Rumusan formula KR-20 adalah:
KR-20

(15)

Keterangan :

= Banyaknya aitem dalam tes
= Varians skor tes
p = Proporsi subjek yang mendapat angka 1 pada suatu aitem, yaitu
banyaknya subjek yang mendapat angka 1 dibagi oleh
banyaknya seluruh subjek yang menjawab aitem tersebut.

Formula ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan
membelahan tes sebanyak jumlah aitem, aitem-aitem dalam tes haruslah homogen
sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien
reliabilitas alat tes yang mengukur beberapa trait.
7. Kuder-Richardson 21 (KR-21)
Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan aitem.
hal inilah yang membedakan antara KR-20 dengan KR-21. Rumusan formula KR21 adalah:

(16)
Keterangan :

= banyaknya aitem dalam tes
= rata-rata p yaitu,

Universitas Sumatera Utara

= varians skor tes
Untuk mempermudah komputasi, formula KR-21 dapat pula dinyatakan
sebagai:

(17)
Keterangan :
Mx = harga rata-rata means skor tes
Penggunaan formula ini hamper sama dengan formula KR-20. Hanya saja
yang membedakannya adalah bahwa KR-21 ini digunakan jika tingkat kesulitan
aitem-aitem dalam tes relatif setara. Jika digunakan pada alat tes yang tingkat
kesulitan yang bervariasi, maka hasilnya akan kurang teliti (Azwar, 2007)
8. Formula untuk Tes Belah Tiga (Formula Kristof)
Komputasi koefisien reliabilitas tes yang telah dibelah menjadi tiga bagian
ini didasarkan pada formula estimasi skor murni yang dirumuskan Kristof, yaitu:

(18)
Keterangan: S12 = kovarians belahan 1 dan belahan 2
= kovarians belahan 1 dan belahan 3
= kovarians belahan 2 dan belahan 3
Untuk komputasi koefisien reliabilitasnya digunakan rumus dasar
reliabilitas, yaitu:
rxx’ =

Universitas Sumatera Utara

Formula ini dapat digunakan jika aitem dikotomi ataupun politomi,
membelah tes menjadi 3 bagian, belahan tidak harus sama panjang, jumlah aitem
tidak harus sama banyak dengan syarat isi tetap homogen, dan

lebih baik

digunakan pada subjek dalam jumlah besar.
9. Analisis varians Hoyt
Hoyt (1941) mengembangkan pendekatan analisis varian yang disebut
dengan analisis varian Hoyt. Konsep dalam teknik analisis varian Hoyt adalah
memandang distribusi aitem keseluruhan subjek sebagai data pada suatu desain
eksperimen faktorial dua-jalan tanpa replikasi, yang dikenal pula sebagai item by
subject design. Setiap aitem dianggap sebagai suatu perlakuan yang berbeda
sehingga setiap kali subjek dihadapkan pada suatu aitem seakan-akan berada pada
suatu perlakuan yang berbeda, sehingga banyaknya aitem merupakan banyaknya
perlakuan.
Dari pola faktorial ini diperoleh harga mean kuadrat antar subjek yang
sebenarnya merupakan estimasi terhadap varians skor tes, meankuadrat antar
aitem, dan meankuadrat interaksi aitem-subjek yang merupakan estimasi terhadap
varians eror, jadi formula reliabilitas Hoyt adalah:
(19)
Keterangan:
= mean kuadrat interaksi aitem x subjek
= mean kuadrat antar aitem
Formula ini dapat digunakan jika aitem dikotomi ataupun politomi,
belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent,

Universitas Sumatera Utara

aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa
digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur
beberapa trait.
10. Formula Feldt (Formula untuk Tes belah Dua Panjang Tidak Sama)
Formula ini dapat digunakan jika aitem dikotomi ataupun politomi,
membelah tes menjadi 2 bagian yang tidak sama panjang, jumlah aitem tidak
harus sama banyak dengan syarat isi tetap homogen, dan lebih baik digunakan
pada subjek dalam jumlah besar. Feldt (1975) menggunakan formula estimasi
reliabilitas sebagai berikut:

(20)
Keterangan:

= varians skor belahan 1
= varians skor belahan 2
= kovarians skor belahan 1 dan 2
= deviasi standar skor tes

Pada penelitian ini, estimasi koefisien reliabilitas dilakukan dengan
pendekatan konsistensi internal atau satu kali tes dengan teknik komputasi
reliabilitas yang digunakan adalah formula Kuder-Richardson (KR’20). Formula
KR’20 dipilih karena tingkat kesulitan aitem subtes WA cenderung bervariasi.
Jika KR’21 digunakan pada tes yang kesulitan aitem nya cenderung bervariasi,
maka hasilnya akan rendah dan tidak cermat (Azwar, 2007)

Universitas Sumatera Utara

c. Analisis Koefisien Reliabilitas
Tingkat reliabilitas dari suatu penngukuran ditunjukkan dari koefisien
reliabilitas. Koefisien reliabilitas memperlihatkan pengaruh dari true score dan
error score terhadap observed score. Secara umum, koefisien reliabilitas dapat
didefinisikan sebagai rasio dari true score variance terhadap total variance dari
skor tes (Gregory, 2000). Rentang nilai koefisien reliabilitas adalah antara 0.0-1.0.
Pengukuran yang sangat reliabel akan memiliki koefisien reliabilitas mendekati
1.0, sebaliknya yang sangat tidak reliabel akan memiliki koefisien relabilitas
mendekati 0.0.
Menurut Anastasi & Urbina (1997), suatu pengukuran dapat dikatakan
reliabel apabila memiliki rentang nilai koefisien reliabilitas antara 0.80-0.90.
sedangkan menurut Nunnally (2005), pengukuran dapat dikatakan reliabel jika
memiliki koefisien reliabilitas diatas 0.70. Murphy & Davidshofer (2003)
mengelompokkan nilai koefisien reliabilitas ke dalam beberapa kelompok nilai,
yaitu nilai yang tidak dapat diterima (≤ 0.60), nilai yang rendah (0.61-0.70), nilai
moderat (0.71-0.89) dan nilai yang tinggi (≥ 0.90).
d. Interpretasi Koefisien Reliabilitas
Dalam setiap pengukuran kemungkinan besar akan selalu terjadi error (E)
pengukuran yang mengakibatkan skor tampak (X) tidak selalu sama dengan skor
murni (T). Jadi untuk mengestimasi nilai skor murni, diperlukan interpretasi dari
koefisien reliabilitas. Suatu tes dikatakan memiliki reliabilitas yang tinggi apabila
misalnya, skor tampak (X) berkorelasi tinggi dengan skor murni (T) nya sendiri.

Universitas Sumatera Utara

Atau bisa juga ditafsirkan dari tingginya korelasi antara skor-tampak pada dua tes
yang pararel.
Allen & Yen (dalam Azwar, 2004) menguraikan enam cara untuk
menginterpretasikan koefisien reliabilitas (

), yaitu:

Interpretasi 1 :
= korelasi skor tampak antara dua tes yang pararel.
Interpretasi ini menyatakan bahwa reliabilitas ini ditentukan oleh sejauh
mana skor tampak pada dua tes yang parallel berkorelasi. Interpretasi ini menjadi
asumsi dasar dalam pendekatan reliabillitas bentuk parallel (Parallel-forms) dan
pendekatan reliabilitas bentuk sejajar (alternate-forms).
Interpretasi 2 :
= besarnya proporsi varians X yang dijelaskan oleh hubungan
linearnya dengan

.

Interpretasi ini berasal dari penafsiran koefisien determinasi sebagaimana
biasanya dilakukan pada penafsiran koefisien korelasi linier Pearson. Interpretasi
ini sangat penting artinya dalam menilai apakah suatu koefisien reliabilitas dapat
dianggap cukup bermakna atau tidak.
Interpretasi 3 :

=

(21)

Interpretasi ini menyatakan bahwa koefisien reliabilitas merupakan
besarnya perbandingan antara varians skor murni dan varians skor tampak pada

Universitas Sumatera Utara

suatu tes atau merupakan proporsi varians skor tampak yang berisi varians skor
murni.
Bila semua perbedaan yang terjadi pada skor tampak subjek merefleksikan
perbedaan skor murni, yaitu

, maka reliabilitas tes tersebut adaal

sempurna dengan koefisien reliabilitas

=1. Artinya setiap skor tampak yang

diperoleh subjek satu dengan yang lainnya memang perbedaan skor murni
mereka, bukan perbedaan yang disebabkan oleh faktor-faktor lain sebagai sumber
error dalam pengukuran itu.

jadi semakin kecil koefisien reliabilitas, yaitu

semakin jauh dari angka 1, berarti semakin besar error pengukuran yang terjadi.
Interpretasi 4 :

=

(22)

Koefisien reliabilitas dalam interpretasi ini merupakan kuadrat koefisien
korelasi antara skor tampak dan skor murni.
Interpretasi 5 :
=

(23)

Koefisien reliabilitas adalah sama dengan satu dikurangi kuadrat koefisien
korelasi antara skor tampak dengan error pengukuran. Semakin besar korelasi
antara skor—tampak dengan error pengukuran, akan semakin kecil koefisien
reliabilitasnya.
Interpretasi 6 :
= 1-

(24)

Universitas Sumatera Utara

Interpretasi ini mengaitkan reliabilitas dengan varians error dan varians
skor-tampak yang dihubungkan dengan homogenitas subjek. Koefisien reliabilitas
pada kelompok homogen akan relative lebih rendah dibandingkan pada kelompok
yang heterogen.
Skor

murni tidak dapat diperoleh secara langsung dan

koefisien

reliabilitas merupakan salah satu bentuk pendekatan yang dapat digunakan untuk
mengestimasi nilai skor murni. Estimasi atau perkiraan terhadap skor murni
kemungkinan besar akan selalu mengandung eror. Sehingga penafsiran terhadap
koefisien reliabilitas harus dilakukan melalui penafsiran standard eror
pengukuran, dengan rumusan sebagai berikut:

=

(25)

Keterangan :
: Standard error dari pengukuran
Sx

: standard deviasi skor
: koefisien reliabilitas

Semakin tinggi koefisien reliabilitas suatu tes, maka kemungkinan kesalahan
yang terjadi semakin kecil.

e. Faktor-faktor yang Mempengaruhi Reliabilitas
Crocker & Algina (2005) menjelaskan bahwa ada 3 hal utama yang secara
tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu
instrumen, yaitu:

Universitas Sumatera Utara

1) Homogenitas Kelompok
Secara umum dapat dijelaskan bahwa dalam suatu kondisi tes, semakin
besar homogenitas kelompok berkaitan dengan trait-trait tertentu yang
diukur maka indeks reliabilitas akan semakin rendah bila dibandingkan
dengan kondisi ketika kelompok sampel lebih heterogen.
2) Batasan Waktu dalam Tes
Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki
reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang lebih
pendek, terutama pada tes dengan komposisi aitem yang sama. Hal ini
dikarenakan performansi subjek pada tes yang lebih panjang waktunya akan
lebih maksimal. Sementara pada tes yang memiliki waktu lebih pendek,
performansi subjek akan sangat ditentukan oleh banyak faktor, termasuk
kelelahan dan performansi subjek lain yang mengikuti tes tersebut.
3) Panjang Tes
Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya
aitem-aitem yang menyususn tes tersebut. Secara umum, semakin banyak
aitem yang memiliki kualitas baik dalam suatu tes, maka semakin tinggi pula
indeks reliabilitas instrumen tersebut.

Universitas Sumatera Utara

5. Validitas
a. Pengertian Validitas
Validitas berasal dari kata validity yang berarti sejauhmana ketepatan dan
kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Suatu tes atau
instrument pengukur dapat dikatakan memiliki validitas yang tinggi apabila alat
tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur, yang sesuai
dengan maksud dilakukannya pengukuran tersebut (Azwar, 2007)
Sisi lain dari pengertian validitas menurut Azwar (2007) adalah aspek
kecermatan pengukuran. Suatu alat ukur yang valid tidak hanya mampu
menghasilkan data yang tepat akan tetapi juga harus memberikan gambaran yang
cermat mengenai data tersebut. Cermat berarti bahwa pengukuran itu dapat
memberikan gambaran mengenai perbedaan yang sekecil-kecilnya di antara
subjek yang satu dengan yang lain.
Lebih lanjut, Azwar (2007) menambahkan bahwa pengertian validitas juga
sangat erat kaitannya dengan tujuan pengukuran. Oleh karena itu, tidak ada
validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur
biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik.
Dengan demikian, pernyataan valid terhadap suatu pengukuran harus diikuti oleh
keterangan yang menunjuk kepada tujuan awal pengukuran serta kelompok subjek
yang mana.
Anastasi & Urbina (2003) menyatakan bahwa validitas suatu tes itu
menggambarkan apa yang hendak diukur oleh tes dan seberapa baik tes tersebut
mengukurnya. Adapun fungsi validitas dalam pengukuran psikologis adalah:

Universitas Sumatera Utara

1) Mengukur Psychological traits : hal yang ingin diteliti adalah apakah alat
ukur sudah tepat mengukur konstruk yang ingin diukur.
2) Menunjukkan hubungan statistical dengan variabel tertentu : hal yang
ingin diiteliti disini adalah fungsi alat ukur dalm memprediksi dan
mendiagnosa perilaku.
3) Representasi materi : hal ynag ingin ditelliti disini adalah apakah alat ukur
sudah memuat materi-materi yang telah diberikan.
b. Jenis-jenis Validitas
Tipe validitas terbagi atas Validitas Isi (content), Validitas Konstruk
(construct), Validitas Berdasar Kriteria (criterion-related). Validitas Konstruk
terbagi atas dua, yaitu validitas convergen dan validitas diskriminan, sedangkan
Validitas Berdasar Kriteria terbagi menjadi dua, yaitu validitas konkuren dan
validitas prediktif.
1. Validitas Isi (Content related validation)
Validitas isi menunjukkan sejauh mana aitem-aitem dalam tes mencakup
keseluruhan kawasan isi yang hendak diukur oleh tes tersebut. Dalam hal ini, tes
tidak hanya komprehensif akan tetapi juga isinya harus relevan dan tidak keluar
dari batasan tujuan pengukuran.
Pengujian validitas isi tidak melalui analisis statistika tetapi menggunakan
analisis rasional. Salah satu cara nya adalah dengan melihat apakah aitem-aitem
dalam tes telah ditulis sesuai dengan blue-Print nya yaitu telah sesuai dengan
batasan domain ukur yang telah ditetapkan semula dan memeriksa apakah

Universitas Sumatera Utara

masing-masing aitem telah sesuai dengan indicator perilaku yang hendak
diungkap.
2. Validitas Konstrak (Construct related validation)
Validitas konstrak adalah validitas yang menunjukkan sejauhmana suatu tes
mengukur trait atau konstrak teoretik yang hendak diukurnya (Azwar, 2007).
Untuk pengujian validitas konstrak, diperlukan analisis statistika yang kompleks.
Prosedur pengujian validitas konstrak berangkat dari hasil komputasi interkorelasi
diantara berbagai hasil tes dan kemudian diikuti oleh analisis lebih lanjut terhadap
matriks korelasi yang diperoleh, melalui berbagai metode. Menurut Anastasi &
Urbina (1997), terdapat beberapa metode untuk melakukan construct validity,
diantaranya adalah develoPmental changes, Correlation with other test, Analisa
factor, Iinternal Consistency, Convergent & Discriminant Validation, dan
Experimental Intervention. Dalam penelitian ini metode yang digunakan untuk
mengukur valliditas konstruk adalah Convergent & Discriminant Validation
Berhubungan dengan Convergent & Discriminant Validation, Campbell
dan Fiske (dalam Azwar 2007) telah mengembangkan pendekatan terhadap
validitas konstrak yang mereka namakan pendekatan multitrait-multimethod.
Pendekatan ini dapat digunakan bilamana terdapat dua trait atau lebih yang diukur
oleh dua macam metode atau lebih. Dasar pemikiran dalam validitas konstrak
adalah bahwa ada validitas yang baik diperlihatkan oleh korelasi yang tinggi
antara dua pengukuran terhadap terhadap dua trait yang sama oleh dua metode
yang berbeda, atau korelasi yang rendah antara dua pengukuran terhadap trait
yang berbeda walaupun menggunakan metode yang serupa.

Universitas Sumatera Utara

Pada intinya ada dua fokus pengujian validitas konstrak, yaitu:
a) Apakah data yang dikumpulkan dari alat ukur yang disusun telah
mendukung konstruksi teorinya.
b) Apakah bukti-bukti empiris yang dikumpulkan dari berbagai
pengujian relasi telah mendukung hipotesis dalam bagan teorinya.
Dalam hal ini, ada dua jenis validitas konstrak, yaitu validitas konvergen
(convergent validity) dan validitas diskriminan (discriminant validity). Validitas
konvergen harus ditunjukkan oleh tingginya korelasi antara skor skala-skala yang
mengukur trait yang sama sedangkan validitas diskriminan harus diperlihatkan
oleh rendahnya korelasi antara skor skala-skala yang mengukur trait yang
berbeda.
3. Validitas Berdasar Kriteria (Criterion related validation)
Validitas berdasar kriteria merupakan validitas yang diperlihatkan oleh
adanya hubungan skor pada tes yang bersangkutan dengan skor suatu criteria.
Dalam validasi tes berdasar criteria, umumnya tes yang akan diuji validitasnya
disebut sebagai prediktor. Statistik yang diperlukan dalam pengujian validitas ini
adalah koefisien korelasi antara skor tes sebagai predictor dan skor suatu criteria
yang relevan.
a) Validitas Prediktif
Validitas prediktif dapat dilihat dari hasil analisis korelasional antara skor tes
dengan skor performansi yang hendak diprediksikan pada masa yang akan datang.
Skor performansi sebagai criteria validasi baru bisa diperoleh setelah tenggang
waktu tertentu.

Universitas Sumatera Utara

b) Validitas Konkuren
Validitas konkuren merupakan validitas yang melihat sejauhmana
kesesuaian antara hasil ukur instrument tersebut dengan hasil ukur instrumen lain
yang sudah teruji kualitasnya atau dengan ukuran-ukuran yang dianggap dapat
menggambarkan aspek yang diukur tersebut

secara reliable. Dalam hal ini,

instrumen yang sudah teruji validitasnya atau ukuran yang dianggap tepat itu
berlaku sebagai criteria validasi.

6. Hubungan Karakteristik Psikometri
Sebelumnya secara terpisah sudah dijelaskan mengenai karakteristikkarakteristik ketika menganalisis aitem, diantaranya indeks kesulitan aitem,
indeks diskriminasi aitem serta efektivitas distraktor, dimana menurut (Murphy &
Davidshofer, 2003) ketiga karakteristik ini merupakan hal yang penting dari
sebuah analisis aitem. Ketiga karakteristik ini saling terkait satu sama lain dalam
menentukan kualitas aitem dari suatu alat tes.
Keterkaitan antara indeks kesulitan aitem, indeks diskriminasi aitem serta
efektivitas distraktor bisa dilihat dari keterkaitan antara efektiviras distraktor
dengan kesulitan aitem, kesulitan aitem dengan diskriminasi dan distraktor dengan
diskriminasi.
Indeks kesulitan aitem sangat dipengaruhi oleh efektivitas distraktor, jika
semua distraktor tidak berfungsi maka subjek akan dengan mudah untuk memilih
jawaban yang benar tanpa harus memiliki pengetahuan tentang hal yang

Universitas Sumatera Utara

ditanyakan tentu hal ini mempengaruhi tingkat kesulitan aitem, sehingga tingkat
kesulitan aitem menjadi rendah.
Indeks kesulitan aitem secara langsung mempengaruhi indeks diskriminasi
aitem. Aitem yang sangat susah (p = 0) dan aitem yang sangat gampang (p = 1)
tidak dapat membedakan antara subjek yang memiliki pengetahuan dan subjek
yang tidak memiliki pengetahun sehingga indeks diskriminai bernilai rendah.
Aitem yang memiliki efektivitas distraktor yang buruk tentu memiliki
indeks diskriminasi yang buruk juga. Hal ini disebabkan karena distraktor yang
buruk akan membuat subjek dengan gampang menjawab pertanyaan atau
sebaliknya membuat subjek susah untuk menjawab pertanyaan sehingga
berpengaruh juga terhadap diskriminasi aitem karena tidak dapat membedakan
subjek yang memiliki pengetahuan baik dengan subjek yang tidak memiliki
pengetahuan baik.
Demikian juga halnya dengan indeks reliabilitas yang berhubungan
langsung dengan nilai validitas. Validitas dan reliabilitas berjalan berdampingan
dalam menentukan kualitas alat tes, dimana suatu alat tes harus konsisten, cermat
dalam mengukur apa yang hendak diukur, sehingga alat tes tersebit bisa
dipercaya.
C. Intelligenz Structure Test (IST)
Di dalam

Diktat kuliah IST Universitas Padjajaran, (2008) dikatakan

bahwa IST merupakan salah satu jenis alat ukur inteligensi terstruktur yang
disusun oleh Rudolf Amthauer pada tahun 1953. Amthauer mendefinisikan
intelegensi sebagai sebuah bagian khusus dalam keseluruhan struktur kepribadian

Universitas Sumatera Utara

manusia. Intelegensi tidak hanya identik dengan proses intelektual, melainkan erat
kaitannya dengan kehidupan dorongan, kemamuan, dan perasaan. Selanjutnya dia
menyatakan bahwa intelegensi

merupakan keseluruhan tertruktur dari

kemampuan jiwa-rohani yang akan tampak jelas dalam hasil tes. Intelegensi hanya
akan dapat dikenali (dilihat) melalui manifestasinya-misalnya pada hasil atau
prestasi suatu tes.
Dari asumsi inilah, Amthauer menyusun sebuah tes yang dinamakan IST
dengan hipotesis kerja sebagai berikut :
“komponen dalam struktur tersebut tersusun secara hierarkis; maksudnya
bidang yang dominan kurang lebih akan berpengaruh pada bidang-bidang yang
lain; kemampuan yang dominan dalam struktur intelegensi akan menentukan dan
mempengaruhi kemampuan yang lainnya”.

Dilihat dari strukturnya, IST merupakan salah satu bentuk Multiple
Aptitude Batteries Test, yaitu sebuah tes yang tersusun dari serangkaian subtes,
dimana masing-masing subtes mengukur suatu kemampuan individu (Anastasi &
Urbina, 1997).

IST terdiri dari 9 subtes yang dapat berdiri sendiri karena

mengukur aspek-aspek intelektual yang berbeda-beda Diktat kuliah IST
Universitas Padjajaran, (2008). Kesembilan aspek intelektual tersebut adalah
sebagai berikut:
1. SE (Satzergazjung) : Mengukur kemampuan common sense, kemandirian
berpikir, fokus pada konkrit praktis dan sense of reality.
2. WA (Wortauswahl) : Mengungkap kemampuan menangkap inti makna
yang disampaikan dalam bentuk bahasa, berpikir induktif, kemampuan
menyelami perasaan, empati dan kemampuan reseptif.

Universitas Sumatera Utara

3. AN (Analogien) : Mengukur kemampuan menghubungkan atau menyusun
kombinasi, fleksibilitas berpikir, logika berpikir, dan kemampuan untuk
berpikir eksploratif.
4. GE (Gemeinsamkeiten) : Mengukur kemampuan membentuk pemahaman,
abstraksi bahasa, dan berpikir logis dengan bahasa.
5. RA (Rechen Aufgaben) : Kemampuan berpikir matematis, bernalar dan
dan berpikir praktis dengan angka serta berpikir runut dengan dalam
membuat kesimpulan.
6. ZR (Zahlen Reihen) : Mengukur kemampuan berpikir teoritis dan berpikir
indu