BAB II LANDASAN TEORI - Analisis Karakteristik Psikometri pada Culture Fair Intelligence Test (CFIT) Skala 3B

BAB II LANDASAN TEORI Pada dasarnya, ilmu pengukuran psikologis memiliki dua pendekatan,

  yaitu pendekatan classical test theory (selanjutnya akan disebut CTT) dan item

  

response theory (selanjutnya akan disebut IRT). Pendekatan CTT adalah metode

  pertama yang dikembangkan untuk pengukuran. Teori-teori CTT mendominasi pengembangan rumus reliabilitas dan validitas yang dikenal dewasa ini (Suryabrata, 2005).

A. Classical Test Theory (CTT)

1. Pengertian CTT

  Model dari pendekatan teori tes klasik ini disebut juga sebagai model skor murni (true score model). Pendekatan ini telah berhasil meletakkan dasar-dasar konsep dalam analisis karakteristik psikometri perangkat ukur psikologi (Crocker & Algina, 2005). Pendekatan CTT ini juga telah berkontribusi dalam pengembangan pengukuran psikometri dan pendekatan ini dianggap sebagai model yang sederhana dan kuat. Fokus utama dari pendekatan ini adalah informasi pada level tes dan juga menyediakan informasi mengenai aitem-aitem yang digunakan (Coaley, 2009). Selain itu, teori tes klasik ini juga praktis dan tidak memerlukan perhitungan yang rumit (Kaplan & Saccuzo, 2005). Oleh karena itu, peneliti mempertimbangkan menggunakan pendekatan CTT dalam proses analisis yang akan dilakukan pada penelitian ini.

2. Asumsi-asumsi dalam CTT

  Asumsi-asumsi CTT pada dasarnya merupakan hubungan matematis antara skor tampak yang disimbolkan dengan huruf X, skor murni yang dilambangkan dengan huruf T, dan eror pengukuran yang diberi simbol huruf E. Skor tampak merupakan nilai performansi subjek yang diungkap melalui pengukuran yang dinyatakan dalam bentuk angka yang merupakan nilai total dari jawaban subjek terhadap aitem atau pernyataan dalam tes tersebut. Skor murni menjelaskan bahwa performansi subjek sesungguhnya yang tidak mungkin dapat diungkap secara langsung oleh tes. Eror pengukuran merupakan besaran eror subjek dalam setiap tes yang angkanya juga tidak dapat diketahui dengan pasti (Azwar, 2005).

  Pendekatan CTT terdiri dari asumsi-asumsi yang berkaitan dengan skor tampak, skor murni dan komponen eror pengukuran. Allen & Yen (dalam Azwar, 2005) menjabarkan asumsi-asumsi hubungan antara skor tampak, eror pengukuran dan skor murni sebagai berikut: Asumsi 1: X = T + E

  (1) Asumsi ini didasarkan pada model Spearman yang menyatakan bahwa setiap skor tes menggambarkan gabungan dari skor murni dan komponen eror

  (Crocker & Algina, 2005). X merupakan jumlah T dan E, sehingga besar X akan tergantung oleh besarnya E pengukuran, sedangkan besarnya T subjek pada setiap pengukuran yang sama diasumsikan selalu tetap. Jadi dapat disimpulkan bahwa skor yang diperoleh dari suatu pengukuran umumnya tidak menunjukkan keadaan sebenarnya (Suryabrata, 2005).

  Asumsi 2: (2)

  ε(X) = T Asumsi ini menyatakan bahwa T sama dengan nilai harapan dari X-nya yang dilambangkan dengan

  ε(X). Jadi, T merupakan harga rata-rata dari distribusi teoretik X apabila orang yang sama dikenai tes yang sama berulangkali dengan asumsi pengulangan tes itu dilakukan tidak terbatas banyaknya dan setiap pengulangan tes adalah independen satu sama lain.

  Asumsi 3: = 0 (3)

  Asumsi ini menyatakan bahwa bagi populasi subjek yang dikenai tes, distribusi E pengukuran dan distribusi T tidak berkorelasi satu sama lain.

  Implikasinya, skor murni yang tinggi tidak selalu berarti mengandung eror yang selalu positif ataupun selalu negatif atau mempunyai E lebih tinggi dibanding subjek yang T-nya rendah. Asumsi 4: = 0

  (4) Asumsi ini menyatakan bahwa eror pada dua tes ( yang dimaksud untuk mengukur hal yang sama) tidak saling berkorelasi. Artinya besarnya E pada suatu tes tidak tergantung pada E tes lainnya. Asumsi ini akan tidak terpenuhi sekiranya skor tampak dipengaruhi kondisi testing, seperti misalnya kelelahan, efek latihan, suasana hati, atau faktor-faktor dari lingkungan (Suryabrata, 2005). Asumsi 5 : = 0

  (5) Asumsi ini menyatakan bahwa E pada suatu tes tidak berkorelasi dengan T pada tes lain. E yang dimaksud dalam CTT adalah penyimpangan X dari skor harapan teoritik yang terjadi secara random atau tidak terjadi secara sistematik. Jika penyimpangan terjadi secara sistematik maka itu tidaklah dianggap sebagai sumber eror. Selain lima asumsi yang telah diuraikan, terdapat dua asumsi lagi yang dijelaskan oleh Suryabrata (2005), yaitu: Asumsi 6

  Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan untuk setiap populasi subjek T = T’ serta varians eror kedua tes tersebut sama, maka kedua tes tersebut disebut sebagai tes yang paralel.

  Asumsi 7 Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan apabila untuk setiap populasi subjek T1 = T2 + C, dengan C sebagai suatu bilangan konstan, maka kedua tes tersebut dapat disebut sebagai tes yang setara (equivalent test).Dua tes yang setara dapat memiliki varians eror yang berbeda karena keduanya belum tentu merupakan tes yang paralel, namun dua tes yang paralel tentu memenuhi syarat sebagai tes yang setara (Azwar, 2005).

B. Analisis Karakteristik Psikometri

  Analisis aitem merupakan suatu prosedur untuk meningkatakan validitas dan reliabilitas suatu alat tes dengan cara memilih aitem-aitem yang baik sesuai dengan tujuan alat tes (Crocker & Algina, 2005). Menurut Kaplan & Saccuzo (2005), alat tes yang baik memiliki aitem yang baik. Aitem yang baik dapat dilihat melalui analisis terhadap beberapa parameter, seperti indeks kesukaran aitem dan indeks diskriminasi aitem.

1. Indeks Kesukaran Aitem

  a. Pengertian Indeks Kesukaran Aitem

  Indeks kesukaran aitem adalah rasio antara subjek yang menjawab aitem dengan benar dan total subjek yang menjawab aitem tersebut. Indeks kesukaran aitem ditentukan oleh seberapa banyak peserta tes berhasil menjawab aitem dengan benar. Semakin banyak peserta tes menjawab dengan benar, berarti semakin mudah aitem tersebut dan sebaliknya semakin sedikit peserta menjawab dengan benar, maka semakin sulit aitem tersebut (Azwar, 2007).

  b. Analisis Indeks Kesukaran Aitem

  Taraf kesukaran suatu aitem dinyatakan oleh suatu indeks yang dinamakan indeks kesukaran aitem yang disimbolkan dengan huruf p, dengan rumus :

  p = n / N

  (6)

  i

  Keterangan: p = Derajat kesukaran aitem n i = Banyak peserta tes yang menjawab benar N = Banyak peserta tes yang menjawab aitem

  Azwar (2007) menyatakan bahwa taraf kesukaran yang terbaik bergantung pada tujuan dari tes tersebut. Misalnya, tes prestasi yang bertujuan untuk evaluasi formatif misalnya, tidak jarang diperlukan aitem-aitem dengan taraf kesukaran rendah atau aitem-aitem dengan harga p tinggi. Namun untuk tes yang bertujuan untuk proses seleksi masuk, terlebih dalam tes masuk yang bertujuan untuk proses pendidikan harus diusahakan tes yang memiliki harga p yang rendah atau aitem yang sulit, sehingga subjek yang dinyatakan lulus selanjutnya adalah subjek yang benar-benar mampu mengikuti proses pendidikan selanjutnya (Suryabrata, 2005).

  Tes disusun untuk melihat perbedaan subjek sehingga jika tidak ada seorang pun yang menjawab pertanyaan dengan benar, dalam artian aitem sangat susah (p = 0), atau sebaliknya, jika soal sangat gampang sehingga semua dapat menjawab pertanyaan dengan benar (p= 1) maka tujuan alat tes tidak dapat dipenuhi (Murphy & Davidshofer, 2003). Gregory (2000) mengkategorikan nilai p sebagai berikut:

  Tabel 1. Kategori Batasan Nilai p No. P Kategori

  1 p < 0,3 Sulit 2 0.3 <p< 0,7 Sedang 3 p > 0,7 Mudah

2. Indeks Diskriminasi Aitem

a. Pengertian Indeks Diskriminasi Aitem

  Daya diskriminasi aitem merupakan kemampuan aitem dalam membedakan antara subjek yang memiliki atribut psikologis yang diukur dengan subjek yang tidak memiliki atribut psikologis yang diukur (Azwar, 2007). Murphy dan Davidshofer (2003) mengatakan bahwa aitem yang baik seharusnya mampu membedakan kelompok subjek yang mampu dan yang tidak mampu mengerjakan suatu tes dengan baik. Menurut Azwar (2007), secara sederhana dapat dikatakan bahwa indeks diskriminasi aitem merupakan suatu harga yang menunjukkan perbedaan proporsi penjawab aitem dengan benar antara kelompok dengan kemampuan tinggi dengan kelompok dengan kemampuan rendah.

b. Analisis Indeks Diskriminasi Aitem

  Diskriminasi aitem yang maksimal akan dicapai ketika seluruh subjek kelompok tinggi dapat menjawab aitem dengan benar dan seluruh subjek kelompok rendah tidak mampu untuk menjawabnya. Perbedaan proporsi penjawab aitem dengan benar antara kelompok tinggi dengan kelompok rendah dapat dirumuskan sebagai berikut :

  d = n / N – n / N

  (7)

  iT T iR R

  Keterangan: n iT = Jumlah peserta dari kelompok tinggi yang menjawab aitem dengan benar N T = Jumlah peserta dari kelompok tinggi n iR = Jumlah peserta dari kelompok rendah yang menjawab item dengan benar N = Jumlah peserta dari kelompok rendah

  R

  Karena n i / N= p, maka dapat juga dirumuskan dengan:

  d = p T - p R

  (8) Keterangan: p = Indeks kesukaran item kelompok tinggi

  T

  p R = Indeks kesukaran item kelompok rendah Secara matematik indeks diskriminasi aitem akan berkisar mulai dari -1 sampai dengan +1. Namun demikian hanya harga d yang bernilai positif saja yang memiliki arti dalam analisis aitem (Azwar, 2007).Harga d yang berada disekitar 0 menunjukkan bahwa aitem tersebut mempunyai diskriminasi yang rendah sedangkan harga d yang negatif menunjukkan bahwa aitem tesebut tidak berguna sama sekali.

  Indeks diskriminasi aitem yang ideal adalah yang mendekati angka 1, semakin besar indeks diskriminasi (semakin mendekati 1) berarti aitem tersebut mampu membedakan antara subjek yang menguasai materi yang diujikan dengan yang tidak menguasainya. Semakin kecil diskriminasi aitem (semakin mendekati 0) berarti semakin tidak jelaslah fungsi aitem yang bersangkutan dalam membedakan mana subjek yang menguasai materi yang diujikan dan subjek yang tidak tahu apa-apa (Azwar,2007).

  Ebel (dalam Azwar, 2007) memberikan suatu panduan dalam evaluasi indeks diskriminasi aitem, yaitu :

  Tabel 2. Evaluasi Indeks Diskriminasi Aitem d Evaluasi

  0,4 atau lebih Bagus sekali 0,3 - 0,39 Lumayan bagus, tidak membutuhkan revisi 0,2 – 0,29 Belum memuaskan, perlu revisi d < 0,20 Jelek dan harus dibuang

  Thorndike (dalam Azwar, 2007) mengatakan bahwa dalam proses seleksi aitem, aitem-aitem yang memiliki nilai diskriminasi aitem di atas 0,50 akan langsung dianggap baik sedangkan aitem-aitem dengan indeks diskriminasi di bawah 0,20 dapat langsung dibuang dan dianggap jelek.

  Menurut Murphy dan Davidshofer (2003) ada tiga cara statsistik yang dapat digunakan untuk mengukur indeks diskriminasi aitem, yaitu: 1)

  Metode kelompok ekstrim Metode kelompok ekstrim merupakan cara yang mudah untuk mengukur indeks diskriminasi aitem pada kelompok yang besar. Indeks diskriminasi aitem dihitung dengan cara membagi kelompok menjadi dua, Upper group yakni kelompok yang memiliki skor yang tinggi (25-35 % nilai tertinggi didalam kelompok) dan lower group yakni kelompok yang memiliki nilai yang rendah

  (25-35 % nilai terendah dalam kelompok). Aitem yang memiliki indeks diskriminasi yang baik akan dijawab benar oleh upper group dan dijawab salah oleh lower group. 2)

  Korelasi aitem-total Korelasi aitem-total memberikan informasi tentang apakah aitem mengukur hal yang sama dengan tes. Korelasi aitem-total untuk aitem yang diskor 1 jika benar dan 0 jika salah sering juga disebut korelasi poin biserial. Korelasi poin biserial digunakan apabila aitem-aitem dalam tes berbentuk dikotomi. Nilai positif menunjukkan bahwa aitem dan tes mengukur hal yang sama, nilai mendekati nol menunjukkan bahwa bahwa aitem tidak memiliki indeks diskriminasi yang baik sehingga upper group menjawab pertayaan dengan salah dan lower group menjawab pertanyaan dengan benar. 3)

  Korelasi inter-aitem Korelasi inter-aitem digunakan untuk memahami indeks diskriminasi aitem. Korelasi inter-aitem tidak menjelaskan mengapa beberapa aitem menunjukkan nilai yang tinggi atau rendah karena sangat jelas bahwa aitem yang memiliki nilai korelasi aitem total yang positif akan menunjukkan nilai yang positif juga pada kebanyakan aitemnya. Namun korelasi aitem total tidak dapat menjelaskan mengapa korelasi aitem total dapat bernilai negatif tetapi hal ini dapat dijelaskan dengan menggunakan korelasi inter-aitem.

  Korelasi inter-aitem dapat membantu dalam memahami mengapa beberapa aitem gagal dalam membedakan subjek yang memiliki kemampuan dengan subjek yang tidak memiliki kemampuan, dalam artian upper group menjawab dengan salah dan subjek dari lower group dapat menjawab dengan benar.

  Korelasi inter-aitem yang bernilai rendah dapat memiliki dua arti, kemungkinan pertama adalah aitem tidak mengukur hal yang sama dengan tes, sehingga aitem harus dibuang atau dibuat ulang, kemungkinan kedua adalah aitem memang mengukur atribut yang berbeda dengan tes dikarenakan tes memang disusun untuk mengukur dua atribut yang berbeda.

3. Reliabilitas Alat Ukur

a. Pengertian Reliabilitas

  Menurut Oslterlind (2010), reliabilitas mengarah pada ketepatan dalam pengukuran mental yang ditentukan oleh kekonsistenan dari pengukuran paralel secara acak dari beberapa pengukuran. Pengertian reliabilitas diterapkan dalam dua konteks. Pertama, reliabilitas mengungkap ketepatan instrumen pengukuran, sebagaimana dalam indeks reliabilitas (dikalkulasi sebagai koefisien reliabilitas), dan kedua, reliabilitas diterapkan dalam antar-subjekal untuk testee, sebagaimana dispesifikasi dalam standar error pengukuran (SEM). Reliabilitas juga menandai konsep untuk mengestimasi seberapa baik sampel aitem mewakili keseluruhan aitem untuk konstruk laten atau konten domain. Semakin reliabel sebuah pengukuran, semakin kecil error yang diungkap dalam skor dan semakin terpercaya interpretasi yang dihasilkan.

  Reliabilitas bergantung pada konteks penggunaan reliabilitas itu sendiri. Terdapat banyak perspektif pada reliabilitas, tergantung pada defenisi error yang digunakan dan defenisi konstruk laten maupun konten domain yang telah ditentukan sebelumnya.

  Menurut Azwar (2005), reliabilitas merupakan terjemahan dari kata

  

reliability yang menyatakan keterpercayaan, keterandalan, keajegan, kestabilan, konsistensi dan sebagainya, namun pada intinya konsep reliabilitas memiliki makna sejauh mana hasil suatu pengukuran dapat dipercaya. Menurut Anastasi & Urbina (2006) reliabilitas suatu tes merujuk pada konsistensi skor yang di peroleh oleh subjek yang sama ketika diberikan tes ulang yang sama atau seperangkat tes yang ekivalen dengan tes sebelumnya pada kondisi yang berbeda. Suryabrata (2005) menyatakan bahwa reliabilitas alat ukur menunjukkan sejauh mana hasil pengukuran dengan alat tersebut dapat dipercaya, yang mana hal ini ditunjukkan oleh taraf konsistensi skor yang diperoleh para subjek yang diukur dengan alat yang sama atau minimal setara, dalam kondisi yang berbeda. Oleh sebab itu, konsepsi mengenai reliabilitas berkaitan dengan derajat konsistensi antara dua perangkat skor tes, maka rumus reliabilitas selalu dinyatakan dalam bentuk koefisien korelasi (Azwar, 2005).

  Lord dan Novick (dalam Osterlind, 2010), memberikan defenisi reliabilitas sebagai “reliabilitas sebuah tes didefenisikan sebagai kuadrat korelasi antara skor tampak dan skor murni”, sebagaimana dalam rumus :

2 XT

  (9)

  ρ

  Menurut Osterlind (2010), reliabilitas juga dievaluasi dengan konsistensi pengukuran ketika pengukuran diulang terhadap subjek atau kelompok dari sebuah populasi. Semakin konstan pengukuran tersebut dalam pengukuran- pengukuran yang diulang, maka semakin tinggi reliabilitasnya.

  XT (10)

  ρ

  Gulliksen (dalam Osterlind, 2010) mengatakan bahwa reliabilitas adalah korelasi antara dua bentuk paralel dari sebuah tes. Pada koefisien ini, korelasinya adalah antara dua skor-skor tampak atau kumpulan-kumpulan skor. Hal ini ditunjukkan dalam rumus: x

  1 x

  2

  (11)

  ρ

b. Metode Estimasi Reliabilitas

  Reliabilitas alat ukur juga menunjukkan eror pengukuran yang tidak dapat ditentukan secara pasti, hanya dapat diestimasi (Suryabrata, 2005). Estimasi reliabilitas dapat dibagi ke dalam tiga bentuk metode, yaitu pendekatan tes ulang, pendekatan tes paralel, dan pendekatan konsistensi internal (Azwar, 2005 dan Suryabrata, 2005). 1) Pendekatan tes ulang

  Pendekatan ini dilakukan dengan cara menyajikan tes yang sama dua kali pada suatu kelompok yang sama dalam rentang waktu tertentu, minsalnya dua minggu (Suryabrata, 2005). Asumsinya adalah suatu tes yang reliabel akan menghasilkan skor tampak yang relatif sama apabila diberikan dua kali tes dalam waktu yang berbeda pada sekelompok subjek yang sama (Azwar, 2005).

  Pendekatan tes ulang ini dapat dikatakan baik secara teori, namun dalam prakteknya mengandung kelemahan, yaitu kondisi subjek pada tes kedua tidak lagi sama dengan kondisi subjek pada tes pertama baik dari proses belajar, perubahan motivasi, pengalaman, sehingga pendekatan ini lebih baik digunakan bila objek ukur berupa keterampilan, terutama keterampilan fisik (Suryabrata, 2005). Menurut Azwar (2005), pendekatan tes ulang cocok digunakan hanya bagi tes yang mengukur aspek psikologis yang relatif stabil dan tidak mudah berubah.

  Rumus yang dapat digunakan untuk menentukan reliabilitas tes ulang adalah Pearson product-moment (Kumar, 2009).

  2) Pendekatan tes paralel Pendekatan reliabilitas bentuk paralel dilakukan dengan memberikan dua bentuk tes yang paralel pada sekelompok subjek, yaitu tes yang memiliki tujuan ukur yang sama dan isi aitem yang setara secara kualitas maupun kuantitas (Azwar, 2005). Pendekatan ini disebut juga sebagai alternate form yang digunakan untuk mengatasi kelemahan pendekatan tes ulang (Kumar, 2009).

  Menurut Azwar (2005), dua tes yang paralel hanya ada secara teoritis, tidak benar-benar paralel secara empirik. Rumus yang dapat digunakan untuk menentukan reliabilitas tes ulang adalah korelasi Pearson product moment (Azwar, 2005) 3) Pendekatan konsistensi internal

  Pendekatan ini dilakukan dengan memberikan satu bentuk tes dengan sekali penyajian kepada sekelompok subjek yang bertujuan melihat konsistensi antar aitem atau antar bagian dalam tes tersebut serta menghindari masalah- masalah pada pendekatan tes ulang dan paralel. Seperangkat tes diberikan kepada sekelompok subjek satu kali sehingga diperoleh satu distribusi skor tes dari kelompok subjek tersebut. Prosedur analisis reliabilitasnya diarahkan pada analisis terhadap aitem-aitem atau terhadap kelompok-kelompok aitem dalam tes itu sehingga perlu dilakukan pembelahan tes menjadi beberapa kelompok aitem yang disebut belahan tes. Setiap cara pembelahan tes sebaiknya mengusahakan agar antar belahan memiliki jumlah aitem sama banyak, indeks kesukaran seimbang, isi sebanding, dan tujuan ukur yang sama atau dalam artian pembelahan aitem memenuhi ciri-ciri paralel (Azwar, 2005). Berikut beberapa cara dalam pembelahan tes (Azwar, 2005).

  (a). Pembelahan cara random Membelah tes menjadi dua bagian secara random dapat dilakukan dengan cara undian sederhana guna menentukan aitem-aitem nomor berapa sajakah yang dimasukkan menjadi belahan pertama dan yang mana menjadi belahan kedua. Pembelahan secara random hanya boleh dilakukan bila tes yang akan dibelah berisi aitem-aitem yang homogen baik dari segi konten maupun segi indeks kesukaran aitem, namun jika aitem tersebut heterogen dapat juga menggunakan cara pembelahan ini asalkan aitem tersebut jumlahnya sangat besar (Azwar, 2005). (b). Pembelahan gasal-genap

  Pembelahan gasal-genap dilakukan dengan cara mengelompokkan seluruh aitem yang bernomor urut gasal menjadi belahan pertama dan seluruh aitem yang bernomor urut genap dijadikan satu kelompok belahan kedua. Cara pembelahan ini selain mudah dilakukan juga dapat menghindari kemungkinan terjadinya pengelompokkan aitem-aitem tertentu ke dalam salah satu belahan saja (Azwar, 2005).

  (c). Pembelahan matched-random subtes Pembelahan dengan cara matched-random subtes ditemukan oleh

  Gulikksen tahun 1950 (dalam Azwar, 2005). Sebelum melakukan pembelahan tes terlebih dahulu harus dihitung indeks kesukaran aitem serta korelasi aitem dengan skor total tes. Dengan cara ini setiap aitem dalam tes diletakkan pada satu posisi atau titik tertentu dalam grafik berdasarkan harga indeks kesukaran aitem dan korelasi antara aitem yang bersangkutan dengan skor tes.

  Selain beberapa cara pembelahan tes telah diuraikan, reliabilitas berdasarkan konsistensi internal juga dapat diestimasi dengan beberapa rumus (Azwar, 2005). (a). Spearman-Brown

  Rumus Spearman-Brown digunakan untuk metode split-half atau belah dua (Kumar, 2009 dan Crocker & Algina, 2003). Rumus komputasi Spearman- Brown merupakan rumus koreksi terhadap koefisien korelasi antara dua bagian tes dan dirumuskan sebagai beikut (Azwar, 2005):

  S-B = r =

  (12)

  xx’

  Keterangan: r xx’ = Koefisien reliabilitas Spearman-Brown r

  1.2 = Koefisien korelasi antara dua belahan

  (b). Koefisien Alpha Cara-cara pembelahan dapat diperluas pemakaiannya untuk membagi tes menjadi beberapa belahan. Bahkan suatu tes yang akan diestimasi reliabilitasnya dapat dibelah menjadi bagian-bagian sebanyak jumlah aitemnya sehingga setiap bagian hanya berisi satu aitem saja. Koefisien Alpha akan lebih baik jika pembelahan paralel satu sama lain atau setidaknya dapat memenuhi asumsi

  τ-

  equivalent. Rumusan rumus Alpha adalah sebagai berikut (Azwar, 2005): (13) α =

  Keterangan : = banyaknya belahan tes

  = varians belahan j; j = 1, 2…k

  = varians skor tes Rumus ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap belahan memiliki aitem yang relatif setara, paralel atau setidaknya memenuhi asumsi

  τ-equivalent. Selain itu, aitem-aitem dalam tes haruslah homogen agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya.

  (c). Kuder-Richardson 20 (KR-20) KR 20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua yang mungkin dilakukan. Rumus ini juga disebut sebagai koefisien

  α-20. Koefisien ini mencerminkan sejauhmana kesetaraan isi aitem-aitem dalam tes. Rumusan rumus KR-20 adalah (Azwar, 2005):

  (14) Keterangan :

  = banyaknya aitem dalam tes = varians skor tes p = proporsi subjek yang mendapat angka 1 pada suatu aitem, yaitu banyaknya subjek yang mendapat angka 1 dibagi oleh banyaknya seluruh subjek yang menjawab aitem tersebut.

  Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya.

  (d). Kuder-Richardson 21 Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan aitem,

  Hal inilah yang membedakan antara KR-20 dengan KR-21. Rumusan KR-21 adalah (Azwar, 2005): (15)

  Keterangan : = banyaknya aitem dalam tes = rata-rata p yaitu,

  = varians skor tes Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem. Indeks kesukaran aitem haruslah setara satu sama lain agar estimasi reliabilitas mendekati nilai yang sesungguhnya. Jadi, indeks kesukaran aitem yang sangat bervariasi mengakibatkan estimasi reliabilitas akan lebih rendah dari pada menggunakan KR-20. (e). Rulon

  Rulon mengusulkan suatu formula komputasi untuk mengestimasi reliabilitas skor dengan pendekatan belah dua tanpa perlu berasumsi bahwa kedua belahan tersebut mempunyai sifat t-equivalent sepanjang jumlah aitem pada kedua belahan adalah sama. Formula Rulon dirumuskan sebagai : 2 2

  r ' = xx 1S / S d x

  (16) Keterangan : 2 S = Varians perbedaan skor kedua belahan d 2 S = Varians skor tes x d = Perbedaan skor kedua belahan (c). Reliabilitas Skor Komposit

  Ada kalanya skor tes sebagai deskripsi kuantitatif atribut dalam diri subjek tidak diperoleh langsung dari sekedar penjumlahan skor aitem-aitemnya, melainkan didapat dari komposisi atau penggabungan dari bebrapa skor. Beberapa skor tersebut dapat berupa skor dari bagian-bagian tes itu sendiri, yaitu komponen atau subtesnya, dapat pula berasal dari tes-tes yang berbeda sebagai suatu baterai instrumen. Dalam hal ini masing-masing komponen atau bagian tes akan memeberikan bobot yang tersendiri dalam menentukan skor tes (Azwar, 2012).

  Bobor relatif suatu komponen ditentukan oleh besarnya sumbangan komponen tersebut dalam menentukan skor akhir, misalnya suatu komponen yang berisi lebih banyak aitem akan lebir besar bobotnya. Begitu pula suatu komponen yang mungkin aitemnya tidak banyak akan tetapi karena mempunyai tingkat kesukaran yang tinggi akan dapat diberi bobot yang besar. Skor akhir tes seperti itu merupakan suatu komposit, yaitu penggabungan skor beberapa komponen setelah melalui prosedur atau penyetaraan skor (Azwar, 2012).

  Reliabilitas skor komposit ditentukan oleh reliabilitas skor komponennya. Banyaknya komponen yang membentuk skor tes akhir tidak terbatas pada dua atau tiga saja. Estimasi dapat dilakukan terhadap reliabilitas masing-masing komponen secara terpisah dan bila reliabilitas setiap komponen itu cukup tinggi maka dapat diharapkan bahwa skor kompositnya juga akan memiliki reliabilitas yang tinggi (Azwar, 2012). Bila diinginkan untuk memperoleh estimasi tunggal terhadap skor komposit, dapat digunakan formula yang disarankan oleh Mosier (dalam Azwar, 2012), yaitu: 2 2 2

  w sw s r ' j j j j [ ] jj

  ∑ ∑ r ' = xx 1 − 2 2

  (17)

  w s j j ( j k j k jk ) 2 w w s s r [ ]

  • Keterangan : W j = bobot relatif komponen j W k = bobot relatif komponen k S j = deviasi standar komponen j S k = deviasi standar komponen k

  ∑ ∑

  r = koefisien reliabilitas tiap komponen

  jj’

  r jk = koefisien relatif antara dua komponen yang berbeda

c. Standar Error Pengukuran dan Interpretasi Koefisien Reliabilitas

  Menurut Osterlind (2010), standar error pengukuran (SEM) mengindikasikan kesenjangan antara skor tampak dan skor murni. Standar error pengukuran juga didefenisikan sebagai standar deviasi sebuah distribusi dari keseluruhan skor untuk semua subjek. Karena teori mengasumsikan distribusi yang setara dan normal untuk semua subjek dalam populasi, standar error pengukuran bisa dipandang sebagai rata-rata standar deviasi pada keseluruhan mean skor.

  Standar error pengukuran menyediakan informasi mengenai akurasi dari nilai mean sebagai perwakilan skor murni, sehingga bisa dikatakan bahwa mean tersebut adalah indikator dari error. Hal ini penting karena mengarah pandangan bahwa standar error pengukuran adalah indikasi reliabilitas. Standar error pengukuran sering dimengerti sebagai analogi dari indeks reliabilitas. Indeks reliabilitas adalah pengukuran yang mengidikasikan kekurangan error, kebalikan dari SEM. Indeks reliabilitas didefenisikan sebagai korelasi sederhana antara bentuk-bentuk paralel sebuah tes (Osterlind, 2010).

  Standar error pengukuran merupakan fungsi dari reliabilitas (dan sebaliknya) ketika standar deviasi sebuah tes telah diketahui. Hubungan ini, dalam CTT, antara standar error pengukuran dan reliabilitas sudah terlihat ketika standar deviasi tetap konstan pada seluruh rentang skor sebuah tes. Standar deviasi yang konstan juga terlihat ketika skor ditunjukkan sebagai skor standar dalam unit-unit standar deviasi (Osterlind, 2010).

  Secara teoritik, koefisien reliabilitas berkisar antara 0 sampai 1, namun secara empirik koefisien reliabilitas tidak pernah mencapai 1. Artinya terdapat ketidakkonsistenan skor antara dua tes yang paralel yang disebabkan oleh eror yang mempengaruhi performa subjek dalam mengikuti tes atau perbedaan antara skor tampak dan skor murni subjek (Crocker & Algina, 2005). Penafsiran terhadap koefisien reliabilitas dapat dilakukan melalui penafsiran standar eror pengukuran (SEm), dengan rumusan sebagai berikut:

  (18) Semakin tinggi koefisien reliabilitas suatu tes, maka kemungkinan kesalahan yang terjadi akan semakin kecil. Jadi, tidak ada harga mati dalam koefisien reliabilitas. Tinggi rendahnya koefisien reliabilitas sangat bergantung pada tujuan tes digunakan(Suryabrata, 2005). Murphy dan Davidshofer (2003) menjelaskan bahwa makna tinggi atau rendahnya koefisien reliabilitas tergantung pada tipe dari tes yang dikategorikan sebagai berikut:

  Tabel 3. Kategori Nilai Estimasi Koefisien Reliabilitas Nilai estimasi Bentuk Tes Interpretasi reliabilitas

  0.95 Eror pengukuran memiliki efek Tes inteligensi yang sangat rendah

  0.90 Tinggi sampai sedang

  0.85 Tes prestasi

  0.80

  0.75 Kelompok tes pilihan ganda Sedang sampai rendah

  0.70 Skala

  0.65 Rendah

  0.60 Tes proyektif

  0.55

  0.50 Skor murni dan eror pengukuran seimbang pada skor tes

d. Faktor-faktor yang Mempengaruhi Koefisien Reliabilitas

  Crocker & Algina (2005) menjelaskan bahwa ada 3 hal utama yang secara tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu instrumen tes, yaitu: 1) Homogenitas Kelompok

  Koefisien reliabilitas suatu tes akan dipengaruhi oleh variasi antara skor murni dan eror kelompok subjek atau skor tampak kelompok subjek. Semakin besar homogenitas kelompok semakin rendah nilai koefisien reliabilitas suatu tes dibandingkan dengan kelompok subjek yang heterogen.

  2) Batasan Waktu dalam Tes Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki indeks reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang lebih pendek. Hal tersebut dikarenakan performansi subjek pada tes yang lebih panjang waktunya akan lebih maksimal. Sementara pada tes yang memiliki waktu lebih pendek, performansi subjek akan sangat ditentukan oleh banyak faktor, termasuk kelelahan dan performansi subjek lain yang mengikuti tes tersebut.

  3) Panjang Tes Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya aitem-aitem yang menyusun tes tersebut. Semakin banyak aitem yang memiliki kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas tes tersebut.

4. Validitas

a. Pengertian Validitas Menurut Osterlind (2010), validitas merupakan inti dari pengujian mental.

  Validitas berarti bahwa informasi yang diungkap oleh sebuah tes adalah informasi yang sesuai, bermakna, dan berguna untuk pengambilan keputusan yang merupakan tujuan pengukuran mental. Standards Text (dalam Osterlind, 2010) mendeskripsikan bahwa validitas adalah pertimbangan yang paling fundamental dalam mengembangkan dan mengevaluasi tes dimana validitas mengarah pada sejauh mana bukti dan teori mendukung interpretasi skor tes berdasarkan tujuan penggunaan tes. Garrett (dalam Osterlind, 2010) mengatakan bahwa validitas suatu tes merupakan tingkat dimana suatu alat tes mengukur apa yang hendak diukurnya.

  Kumar (2009) menyatakan validitas suatu tes mengambarkan ketepatan alat ukur mengukur apa yang akan diukur dengan membandingkan alat ukur tersebut dengan standar atau kriteria yang telah ditetapkan. Menurut Azwar (2005), validitas mempunyai arti sejauhmana ketepatan dan kecermatan suatu alat ukur dalam menjalankan fungsi ukurnya. Suatu tes atau instrumen pengukuran dapat dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannnya pengukuran tersebut, sehingga pengertian validitas terlihat berkaitan sangat erat dengan tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Pernyataan valid terhadap suatu pengukuran harus diikuti oleh keterangan yang menunjuk kepada tujuan awal pengukuran serta kelompok subjek yang mana yang hendak diukur (Azwar, 2005).

b. Sumber-sumber Bukti Validitas

  Bukti-bukti validitas harus terkumpul dari banyak sumber ketika akan mengevaluasi validitas. Sumber-sumber ini memberikan informasi mengenai tingkat kepercayaan untuk membuat kesimpulan-kesimpulan berdasarkan skor dalam situasi tertentu (Osterlind, 2010). Beberapa bukti yang mendukung dalam mengevaluasi validitas diberikan dalam Standards for Educational and

  

Psychological Testing /Standards text (American Educational Research

Association, dkk, 1999, dalam Osterlind 2010).

  1) Bukti Validitas Berdasarkan Isi Tes Mengevaluasi bukti untuk kesimpulan yang valid dari skor tes hampir selalu memasukkan informasi mengenai isi dari suatu pengukuran yang secara khusus mengarah pada content domain (dalam pengukuran berdasarkan domain) atau konstruk (dalam model trait tersembunyi). Banyak fungsi mental, seperti IQ dan proses psikologi lainnya, yang bisa diterangkan sebagai pengukuran konstruk, trait, atau domain. Ketika menilai konstruk psikologis yang tidak mudah untuk dijelaskan maka akan muncul masalah khusus, misalnya pengukuran IQ. Studi tentang inteligensi manusia penuh dengan pemikiran dan teori yang berlainan tentang apa yang termasuk dan tidak termasuk. Dalam hal ini spesifikasi konstruk dibutuhkan dalam tujuan yang berbeda. Ketika membangun sebuah instrumen, seringkali orang yang mengembangkan tes mengkombinasikan deskripsi isi tes dan jenis proses respon dalam sebuah blueprint tes, dimana blueprint ini bisa menjadi dokumen yang sangat berguna bagi pengguna tes ketika akan mengevaluasi validitas berdasarkan isi tes. Menurut Azwar (2005), Validitas isi menunjukkan sejauhmana aitem-aitem dalam tes mencakup keseluruhan kawasan isi objek atau ciri atribut yang hendak diukur. Validitas isi ini diestimasi lewat pengujian terhadap isi tes dengan analisis rasional atau lewat professional

  

judgement . Dengan kata lain validitas isi sangat tergantung pada penilaian

subjektif subjekal dan tidak melibatkan perhitungan statistik.

  2) Bukti Validitas Berdasarkan Proses Respon Pengujian mental atau proses kognitif digunakan untuk mengungkap respon terhadap stimulus pengukuran adalah sumber lain untuk bukti validitas.

  Beberapa metode berdasarkan variabel-variabel laten dan proses kausal sebuah konstruk mungkin memasukkan analisis variabel laten, structural equation

  modeling (SEM), Hierarchical linear modeling(HLM), dan beberapa meta-

  analisis. Metode-metode ini juga bisa mengungkap informasi penting mengenai proses respon subjek.

  3) Bukti Validitas Berdasarkan Struktur Internal Struktur internal tes sangat berhubungan dengan pembuatan kesimpulan yang sesuai dan terpercaya mengenai konstruk yang sedang diukur. Ada beberapa metode psikometri yang bisa secara empiris menginvestigasi struktur internal, tetapi tidak ada satu metode pun yang dianggap terbaik secara umum. Kesesuaian metode yang digunakan tergantung pada konteks dimana tes dikembangkan, bagaimana tes tersebut digunakan dan keputusan apa yang ingin diinformasikan. Beberapa cara yang relevan untuk mempelajari pengukuran struktur internal sebagai berikut :Analisis faktor, analisis kluster, analisis komponen prinsipal, konfirmasi teori psikologi: faktor analisis konfirmatori, multitrait-multimethod matrix, teknik estimasi parameter kemampuan (IRT), strategi-strategi yang melibatkan teori kemampuan-generalisasi.

  Model faktor umum (common factor model) adalah teori satu faktor dari Charles Spearman mengenai sebuah tes berisi aitem-aitem yang umum dan memiliki pengaruh yang unik. Dalam situasi praktis untuk validasi tes, model faktor umum diukur dengan menggunakan analisis faktor (factor analysis) atau analisis komponen prinsipal (principal component analysis, PCA). Inti prosedur ini adalah untuk mengurangi varians total diantara aitem-aitem dalam sebuah matriks kovarians sehingga jumlahnya bisa diestimasi.

  Menurut Azwar (2012), analisis faktor merupakan metode statistik yang berisi kumpulan prosedur matematik yang kompleks dalam pengembangan alat ukur untuk menganalisis adanya saling hubungan di antara variabel-variabel dan menjelaskan saling hubungan tersebut dalam bentuk kelompok variabel yang terbatas yang disebut faktor. Oleh karena validitas ini ditegakkan melalui prosedur analisis faktor maka disebut sebagai validitas faktorial. Menurut Field (2009), analisis faktor digunakan untuk melihat hubungan atau korelasi antara komponen- komponen aitem dengan variabel laten yang mendasari.

  Sebuah faktor adalah kombinasi aitem-aitem tes yang diyakini sebagai suatu kumpulan. Aitem-aitem yang berhubungan membentuk sebagian dari konstruk dan dikelompokkan bersama, aitem-aitem yang tidak berhubungan tidak membentuk bagian dari konstruk dan harus dikeluarkan dari kelompoknya (Munro, dalam Azwar, 2012).

  Analisis faktor memiliki dua jenis prosedur yang dilandasi oleh dasar pemikiran yang agak berbeda, yaitu analisis faktor eksploratori (exploratory

  

factor analysis, EFA) dan analisis faktor konfirmatori (confirmatory factor

analysis , CFA). Prosedur faktor analisis eksploratori membantu pengembang tes

  dalam mengenali dan mengidentifikasi berbagai faktor yang membentuk suatu konstruk dengan cara menemukan varians skor terbesar dengan jumlah faktor yang paling sedikit yang dinyatakan dalam bentuk eigenvalue > 1,0 (Azwar, 2012). Prosedur analisis faktor konfirmatori biasanya akan menindaklanjuti hasil EFA dengan menyertakan dasar teori yang melandasi bangunan tes tersebut agar dapat menguji validitas konstruknya lebih lanjut. Jadi, CFA menguji sejauhmana model statistik yang dipakai sesuai dengan data empirik (Waltz dkk., dalam Azwar, 2012). Analisis faktor konfirmatori hampir selalu digunakan dalam proses pengembangan instrument untuk menguji struktur laten suatu tes, dalam hal ini CFA digunakan untuk memverifikasi banyaknya dimensi yang mendasari bangunan suatu tes dan pola hubungan antara aitem dengan faktor (factor loading atau yang disebut muatan faktor)(Brown, dalam Azwar, 2012).

  Pada prosedur analisis faktor, tes yang dipengaruhi oleh faktor-faktor tertentu disebut sebagai tes yang memiliki muatan faktor (factor loading) yang tinggi. Muatan faktor berupa indeks yang arti dan besarannya mirip dengan koefisien korelasi. Bila faktor-faktor tidak berkorelasi satu sama lain maka muatan faktor bukanlah koefisien korelasi akan tetapi seringkali diinterpretasikan seakan- akan koefisien korelasi (Azwar, 2012).

  Analisis struktur faktor dilakukan untuk melihat struktur internal tes sebagai dukungan terhadap validitas model persamaan structural yang digunakan dalam konstruksi tes yang bersangkutan (Azwar, 2012). Untuk tujuan tersebut digunakan prosedur common factor analysis sebagai salahsatu metode pengujian model, terutama yang mengikuti anggapan bahwa satu konstruk dasar akan menghasilkan skor tampak (Aneshensel, dalam Azwar 2012). Bila model yang diajukan ternyata cocok dengan data skor subjek, berarti struktur internal tes adalah valid (Azwar, 2012)

  Metode multitrait-multimatriks secara konseptual mirip dengan analisis faktor yang merupakan prosedur untuk menganalisis hubungan dan menentukan pola-pola data. Metode ini bisa menyediakan bukti validitas yang berguna untuk evaluasi struktur internal. Dalam menggunakan metode ini harus berhati-hati untuk menghindari kesalahan-kesalahan yang membingungkan informasi dari metode multitrait-multimethod dengan yang diungkap melalui analisis faktor (Osterlind, 2010). Campbell dan Fiske (dalam Azwar, 2012) telah mengembangkan pendekatan ini yang dapat digunakan bilamana terdapat dua trait atau lebih yang diukur oleh dua macam metode atau lebih. Dasar pemikiran dalam proses validasi ini adalah bahwa validitas yang baik diperlihatkan oleh adanya korelasi yang tinggi di antara hasil pengukuran terhadap trait yang sama oleh beberapa metode yang berbeda (convergent validity), atau sebaliknya tidak adanya korelasi di antara hasil pengukuran terhadap beberapa trait yagn berbeda sekalipun diukur menggunakan metode yang serupa (discriminant validity).

  4) Bukti Validitas Berdasarkan Hubungan dengan Variabel Lain Hubungan antara skor tes dan kriteria yang diuji sering diidentifikasi dengan melabel bukti kriteria sebagai bukti prediktif atau konkuren dalam validitas. Kedua jenis bukti ini menunjukkan kemunculan hubungan antara tes dan sebuah kriteria eksternal, perbedaanya hanya waktu kapan pengukuran hubungan korelasional. Bukti prediktif juga adalah sebuah indikator yang muncul dari perbandingan antara sebuah tes dengan tes di masa depan atau kriteria administrasi posttest. Dalam mengevaluasi validitas, masalah muncul ketika sebuah hubungan korelasional adalah sumber utama dalam bukti validitas.

  Kesulitan muncul dari fakta bahwa dalam CTT, skor murni hanya bisa didapat secara teoritis dan tidak bisa diketahui secara pasti. Dalam dunia praktis, terbukti bahwa reliabilitas korelasional sebagai bukti kriteria untuk validitas tes, ditekan oleh derajat eror pengukuran dalam kriteria. Keadaan ini disebut sebagai masalah kriteria. Masalah kriteria adalah ketika reliabilitas kriteria bergantung pada hubungan korelasional dengan kriteria eksternalnya.

  5) Bukti Validitas Berdasarkan Pertimbangan-pertimbangan Eksternal Validitas Tampang sebagai Sumber Bukti

  Validitas tampang berarti bahwa peserta tes yang melihat instrumen tes untuk pertama kali seharusnya tidak terkonfrontasi dengan dokumen yang tidak lazim, sering terjadi karena persiapan yang tidak profesional. Validitas tampang tidak bisa diuji dengan metode statistik, bukan berarti validitas tampang bisa dianggap rendah. Memberikan sebuah instrumen tes yang memiliki tampilan profesional pada peserta tes adalah tanggung jawab validitas pembuat tes.

c. Interpretasi Koefisien Validitas

  Interpretasi koefisien validitas bersifat relatif. Tidak ada batasan universal yang mengarah kepada angka minimal yang harus dipenuhi agar suatu tes dikatakan valid. Menurut Cronbach (dalam Azwar, 2005) koefisien validitas yang baik adalah yang tertinggi yang bisa didapatkan. Jadi tidak ada batasan. Hal yang menjadi pertimbangan adalah sejauh mana tes tersebut dapat bermanfaat dalam pengambilan keputusan. Tes yang berfungsi untuk memprediksi hasil suatu prosedur seleksi dapat dikatakan memberikan kontribusi yang baik jika koefisien validitas berkisar antara 0,3 sampai dengan 0,5. Menurut Azwar (2005) koefisien validitas yang tidak begitu tinggi, sekitar 0,5 akan lebih dapat diterima dan dianggap memuaskan dan koefisien validitas yang kurang dari 0,3 biasanya dianggap tidak memuaskan. Sedangkan dalam penggunaan analisis faktor konfirmatori dengan bantuan program Lisrel 8.30, suatu aitem dikatakan memiliki validitas yang baik jika memenuhi dua nilai muatan faktor, yaitu t-values dan

  

standardize loading factor (muatan faktor standar) dengan batasan nilai kritikal

  tertentu. Jika nilai dari t-values <1,96 berarti estimasi muatan faktor tersebut tidak signifikan dan variabel teramati terkait bisa dihaput dari model. Sedangkan jika muatan faktor standar <0.50 makan variabel teramati tersebut bisa dihapus dari model (Wijanto, 2008). Suatu aitem dapat dikatakan valid jika kedua nilai muatan faktor tersebut terpenuhi

C. Analisis Karakteristik Psikometri Alat Ukur Alat ukur terdiri dari aitem-aitem yang dirancang untuk tujuan tertentu.

  Aitem dapat dikatakan memiliki kualitas yang baik jika aitem memiliki karakteristik psikometri yang baik pula (Azwar, 2007). Aitem berkualitas baik atau tidak dapat kita ketahui melalui analisis karakteristik psikometri terhadap aitem tersebut. Analisis terhadap aitem-aitem dalam suatu alat ukur pada awalnya akan memberikan tiga informasi, yaitu informasi tentang distraktor, indeks kesukaran aitem dan indeks diskriminasi aitem (Murphy & Davidshofer, 2003).

  Ketiga karakteristik tersebut akan saling mempengaruhi terhadap reliabilitas dan valididtas alat ukur. Tetapi penelitian ini hanya memberi informasi karakteristik indeks kesukaran aitem dan indeks diskriminasi aitem.

  Indeks kesukaran aitem secara langsung akan mempengaruhi indeks diskriminasi aitem. Ketika aitem sangat susah (p = 0) atau aitem sangat mudah (p = 1), maka aitem tidak akan dapat membedakan antara subjek yang memiliki pengetahuan dan subjek yang tidak memiliki pengetahun sehingga indeks diskriminasi aitem menjadi rendah (Murphy & Davidshofer, 2003). Menurut Kumar (2009), indeks diskriminasi yang rendah dapat mempengaruhi validitas aitem tersebut yang kemudian akan mempengaruhi validitas tes secara keseluruhan. Ketika aitem mengukur fungsi ukur dengan tepat, maka aitem akan dapat membedakan antara kelompok yang memiliki atribut yang hendak diukur dan yang tidak memiliki atribut yang hendak diukur sehingga aitem dapat dikatakan valid.

  Koefisien reliabilitas suatu tes juga akan dipengaruhi oleh indeks kesukaran aitem dalam tes tersebut. Ketika indeks kesukaran aitem tidak relatif setara satu sama lain atau sangat bervariasi maka koefisien reliabilitas akan rendah (Azwar, 2005). Pada beberapa kondisi, tes yang reliabel belum tentu valid, karena reliabilitas tes juga dipengaruhi oleh eror, tetapi tes yang valid sudah pasti reliabel (Azwar, 2005).