Analisis Karakteristik Psikometri pada Culture Fair Intelligence Test (CFIT) Skala 3B

(1)

ANALISIS KARAKTERISTIK PSIKOMETRI

PADA CULTURE FAIR INTELLIGENCE TEST

(CFIT) SKALA 3B

SKRIPSI

Diajukan untuk memenuhi persyaratan Ujian Sarjana Psikologi

Oleh

AGUS MANURUNG

071301071

FAKULTAS PSIKOLOGI

UNIVERSITAS SUMATERA UTARA

GENAP, 2013/2014


(2)

LEMBAR PERNYATAAN

Saya yang bertanda tangan di bawah ini menyatakan dengan sesungguhnya bahwa skripsi saya yang berjudul :

Analisis Karakteristik Psikometri

pada Culture Fair Intelligence Test (CFIT) Skala 3B

adalah hasil karya sendiri dan belum pernah diajukan untuk memperoleh gelar kesarjanaan di suatu perguruan tinggi manapun.

Adapun bagian-bagian tertentu dalam penulisan skripsi ini saya kutip dari hasil karya orang lain yang telah dituliskan sumbernya secara jelas sesuai dengan norma, kaidah, dan etika penulisan ilmiah.

Apabila di kemudian hari ditemukan adanya kecurangan di dalam skripsi ini, saya bersedia menerima sanksi dari Fakultas Psikologi Universita Sumatera Utara sesuai dengan peraturan yang berlaku.

Medan, Februari 2014

Agus Manurung NIM 071301071


(3)

ANALISIS KARAKTERISTIK PSIKOMETRI

PADA

CULTURE FAIR INTELLIGENCE TEST

(CFIT)

SKALA 3B

Agus Manurung dan Etty Rahmawati

ABSTRAK

Suatu alat tes psikologi harus memiliki kualitas yang baik secara psikometri sehingga proses dan penggunaan hasil pengukurannya dapat dipercaya. Alat tes yang baik diharapkan mampu berfungsi sesuai dengan tujuan disusunnya alat tes tersebut agar diperoleh hasil pengukuran yang objektif dan standard. Oleh karena itu, perlu dilakukan evaluasi terhadap kualitas alat tes yang digunakan sehingga diperoleh alat tes yang valid dan dan hasil pengukuran yang reliabel.Tujuan dari penelitian ini adalah melakukan analaisis karakteristik psikometri terhadap Culture Fair Intelligence Test (CFIT) Skala 3B yang mencakup analisis indeks kesukaran aitem, indeks diskriminasi aitem, reliabilitas, dan validitas konstrak alat tes tersebut. Metode pengumpulan data yang digunakan dalam penelitian ini adalah metode dokumentasi, yaitu dengan menggunakan data yang didokumentasikan oleh P3M Fakultas Psikologi USU dalam menyeleksi calon pegawai. Data yang digunakan berupa lembar jawaban peserta seleksi yang berjumlah 1623 lembar. Pendekatan yang digunakan adalah teori tes klasik. Hasil dari penelitian ini menemukan bahwa dari 50 aitem yang terdapat dalam CFIT Skala 3B terdapat 8 aitem yang memiliki indeks diskriminasi yang jelek, sedangkan 7 aitem memerlukan revisi. Terdapat pula beberapa aitem yang yang urutannya tidak sesuai dengan alur urutan indeks kesukaran pada subtes 2-4. Penelitian ini juga menemukan indeks reliabilitas yang tidak reliabel sebagai tes inteligensi yaitu sebesar 0,769. Selain itu, berdasarkan analisis validitas konstrak dengan analisis faktor konfirmatori, penelitian ini menemukan hanya terdapat 20 aitem yang memiliki muatan faktor standard di atas nilai kritikal dan hanya 14 aitem yang memiliki t-value di atas nilai kritikal, tetapi tidak ada aitem yang memenuhi keduanya untuk disebut valid sebagai bagian dari tes inteligensi.


(4)

PSYCHOMETRIC PROPERTIES ANALYSIS OF

CULTURE FAIR INTELLIGENCE TEST (CFIT)

SCALE 3B

Agus Manurung and Etty Rahmawati

ABSTRACT

A psychological test must have a good quality in psychometric so the process and the use of the result can be reliable. A good psychological test is expected to have function as the purpose of the test is made so we can get an objective and standard result. Hence, we need to evaluate the test quality so we can get a valid test and reliable measure result. The aim of this study is to analyze the psychometric properties of Culture Fair Intelligence Test (CFIT) Scale 3B include item difficulty index, item discrimination index, reliability, and construct validity of the test. This study uses documentation method by using data that documented by P3M Psychology Faculty of USU in applicants selection. The data is the applicants’ answer from 1623 answer sheets. This study uses classical test theory approach. The result of this study finds that from total 50 items in CFIT Scale 3B there are 8 items that have bad discrimination index and 7 items need to be revised. There are also few items that doesn’t fit with the item difficulty’s order in subtest 2-4. This study also finds that reliability index is unreliable as an intelligence test, only 0,769. Furthermore, based on construct validity analysis by confirmatory factor analysis, this study finds that there are only 20 items that have standardize loading factor above critical value and only 14 items that have t-value above critical value, but none of these items have both values above critical to be called valid as part of intelligence test.


(5)

KATA PENGANTAR

Puji dan syukur saya panjatkan kepada Tuhan Yang Maha Esa yang telah memberikan rahmat dan karuniaNya dalam proses penyelesaian skripsi ini. Judul skripsi ini adalah “Analisis Karakteristik Psikometri pada Culture Fair

Intelligence Test (CFIT) Skala 3B” yang disusun untuk memenuhi salah satu

syarat untuk mencapai gelar sarjana Psikologi di Fakultas Psikologi Universitas Sumatera Utara. Penulis memang mengakui bahwa selama proses pengerjaan skripsi ini dibutuhkan kemauan dan dorongan yang kuat untuk dapat menyelesaikannya.

Penulis menyadari bahwa akan sangat sulit untuk menyelesaikan penulisan skripsi ini apabila tanpa bantuan, bimbingan, dan dorongan dari berbagai pihak sejak masa perkuliahan hingga penyusunan skripsi ini. Oleh karena itu, penulis ingin mengucapkan rasa terima kasih kepada beberapa pihak :

1. Prof.Dr. Irmawati, psikolog selaku dekan Fakultas Psikologi USU

2. Pusat Pelayanan Psikologi pada Masyarakat (P3M) USU, terutama kepada pimpinan P3M USU Bapak Ferry Novliadi,M.Si dan Ibu Rika Barus,M.Psi.psikolog, terima kasih atas kesempatan yang diberikan kepada saya untuk melakukan penelitian di institusinya, dan kepada Bang Fauzi dan Bang Adlin yang telah membantu saya selama proses pengumpulan data.

3. Ibu Etty Rahmawaty, M.Si selaku dosen pembimbing skripsi yang telah dengan sangat sabar dan berbaik hati bersedia membimbing penulis hingga menyelesaikan skripsi ini. Rasanya ucapan terima kasih ini tidak cukup


(6)

untuk mengungkapkan rasa syukur penulis atas bimbingan dan bantuan Ibu selama ini, dan semoga Ibu bisa memaafkan segala kesalahan saya selama seluruh proses penyelesaian skripsi ini.

4. Orang tua penulis, Dornia Tambun, yang telah sangat sabar menasehati dan memberikan dorongan selama hidup saya, kelima kakak penulis Kak Ati, Kak Iyan, Kak Juni, Kak Ani, Kak Manok, juga adik saya Elsye, terima kasih atas nasehat, bantuan dan dukungan kalian selama ini baik secara moral maupun materil.

5. Ibu Ika Sari Dewi, S.Psi., psikolog dan Bapak Eka Danta Jaya Ginting,M.A.,psikolog yang telah meluangkan waktu sebagai dosen penguji skripsi ini, terima kasih atas bimbingan, saran, dan nasehatnya, terkhusus kepada Pak Eka yang telah menjadi lebih sebagai sahabat daripada sebagai dosen bagi penulis.

6. Ibu Liza Marini.M.Psi.,psikolog selaku dosen pembimbing akademik saya selama saya kuliah di Fakultas Psikologi USU, terima kasih atas bimbingan, saran, dan dorongan yang Ibu berikan kepada saya.

7. Seluruh staf pengajar di Fakultas Pskologi USU, terima kasih atas segala didikan, ilmu, dan pengalaman yang penulis dapatkan selama mengikuti perkuliahan di Fakultas Psikologi USU.

8. Seluruh pegawai di Fakultas Psikologi USU, terutama Pak Aswan, Kak Defi, Bang Ronal, terima kasih atas bantuannya kepada penulis selama pengurusan administrasi.

9. Teman-teman angkatan 2007 (Armen, Junias, Seja, Tua, Dier, Princen, Juned, Max, Imel, Indah, Shela, Kiki, Fenny, Rajes, Ramon, Novita, dan


(7)

seluruh angkatan 2007), sahabat enjoy (Johan, Holong, Efron, Jogi, Edom), Parker & Lengther (bang Fitrah, bang Gunawan, pak Iyal, bang Toni, bang Harri, bang Bima, bang Furqon, bang Endang, Rozi, Edwin, bang Jono, bang Dani, bang Surya, Rajiv, Bagus, Bobby, Sony, dkk), teman-teman lama (Daniel, Mei, Ira, Fida, Inggrid, Jendri, Manti, Eva, Lenny, Magda, Caca, Bernad, Anson, Anes, dkk), dan teman-teman umeks (Hitler, Siti, Tami, Dede, Wesly, dkk)

10.Seluruh penulis yang namanya tertera dan menjadi referensi dalam skripsi ini.

11.Seluruh pihak yang tidak dapat penulis sebutkan satu persatu yang telah membantu penulis dalam menyelesaikan skripsi ini.

Penulis menyadari bahwa penelitian ini masih memiliki banyak kekurangan dan jauh dari sempurna. Oleh karena itu, penulis mengharapkan kritik, saran, dan masukan yang membangun sehingga penelitian ini bisa menjadi lebih baik lagi di masa depan. Akhir kata, penulis berharap semoga skripsi ini bermanfaat.

Medan, Februari 2014


(8)

DAFTAR ISI

LEMBAR PERNYATAAN.... ... i

ABSTRAK... ... ii

KATA PENGANTAR. ... iv

DAFTAR ISI ... vi

DAFTAR TABEL ... vii

DAFTAR RUMUS ... viii

DAFTAR LAMPIRAN ... ix

BAB I. PENDAHULUAN A. Latar Belakang Masalah ... 1

B. Identifikasi Masalah ... 7

C. Rumusan Masalah ... 7

D. Tujuan Penelitian ... 8

E. Manfaat Penelitian ... 8

BAB II. LANDASAN TEORI A. Classical Test Theory (CTT) ... 9

1. Pengertian CTT ... 9

2. Asumsi-asumsi dalam CTT ... 10

B. Analisis Karakteristik Psikometri ... 12

1. Indeks Kesukaran Aitem ... 13


(9)

b. Analisis Indeks Kesukaran Aitem ... 13

2. Indeks Diskriminasi Aitem ... 14

a. Pengertian Indeks Diskriminasi Aitem ... 14

b. Analisis Indeks Diskriminasi Aitem ... 15

3. Reliabilitas Alat Ukur ... 18

a. Pengertian Reliabilitas ... 18

b. Metode Estimasi Reliabilitas ... 20

c. Reliabilitas Skor Komposit ... 26

d. Standar Error Pengukuran dan Interpretasi Koefisien Reliabilitas ... 27

e. Faktor-faktor yang Mempengaruhi Koefisien Reliabilitas ... 29

4. Validitas ... 30

a. Pengertian Validitas ... 30

b. Sumber-sumber Bukti Validitas ... 31

c. Interpretasi Koefisien Validitas ... 37

C. Analisis Karakteristik Psikometri Alat Ukur ... 38

D. Culture Fair Intelligence Test (CFIT) Skala 3B ... 39

1. Sejarah dan Perkembangan CFIT ... 39

BAB III. METODE PENELITIAN A. Jenis Penelitian ... 42

B. Subjek Penelitian ... 42

C. Data yang Digunakan ... 43


(10)

1. Persiapan Izin Pengambilan Data ... 43

2. Pelaksanaan Penelitian ... 43

E. Program Komputer yang Digunakan ... 45

F. Analisis Data ... 46

BAB IV. Hasil dan Pembahasan A. Hasil ... 49

1. Indeks Kesukaran Aitem ... 49

2. Indeks Diskriminasi Aitem ... 51

3. Reliabilitas Komposit ... 54

4. Validitas Konstruk ... 54

B. Pembahasan ... 59

BAB V. Kesimpulan dan Saran A. Kesimpulan ... 64

B. Saran ... 65


(11)

DAFTAR TABEL

Tabel 1. Kategori Batasan Nilai p ... 14

Tabel 2. Evaluasi Indeks Diskriminasi Aitem ... 16

Tabel 3. Kategori Nilai Estimasi Koefisien Reliabilitas ... 29

Tabel 4. Perbandingan Ukuran-ukuran GOF... 48

Tabel 5. Hasil Analisis Indeks Kesukaran Aitem pada CFIT Skala 3B ... 50

Tabel 6. Pengelompokan p CFIT Skala 3B ... 51

Tabel 7. Hasil Analisis Indeks Diskriminasi pada CFIT Skala 3B ... 52

Tabel 8. Evaluasi d CFIT Skala 3B ... 53

Tabel 9. Kecocokan Model... 54

Tabel 10. Muatan Faktor ... 55


(12)

DAFTAR RUMUS

Rumus 1. Asumsi 1 CTT ... 10

Rumus 2. Asumsi 2 CTT ... 11

Rumus 3. Asumsi 3 CTT ... 11

Rumus 4. Asumsi 4 CTT ... 11

Rumus 5. Asumsi 5 CTT ... 11

Rumus 6. Indeks Kesukaran Aitem ... 13

Rumus 7. Indeks Diskriminasi Aitem ... 15

Rumus 8. Indeks Diskriminasi Aitem ... 15

Rumus 9. Indeks Reliabilitas Lord dan Novick ... 19

Rumus 10. Indeks Reliabilitas Osterlind ... 19

Rumus 11. Indeks Reliabilitas Gulliksen ... 20

Rumus 12. Formula Spearman-Brown ... 23

Rumus 13. Formula Koefisien Alpha ... 23

Rumus 14. Formula Kuder-Richardson 20 (KR-20) ... 24

Rumus 15. Formula Kuder-Richardson 21 (KR-21) ... 25

Rumus 16. Formula Rulon ... 25

Rumus 17. Formula Reliabilitas Skor Komposit ... 27


(13)

DAFTAR LAMPIRAN

LAMPIRAN I. Output Lisrel 8.30 ... 67


(14)

ANALISIS KARAKTERISTIK PSIKOMETRI

PADA

CULTURE FAIR INTELLIGENCE TEST

(CFIT)

SKALA 3B

Agus Manurung dan Etty Rahmawati

ABSTRAK

Suatu alat tes psikologi harus memiliki kualitas yang baik secara psikometri sehingga proses dan penggunaan hasil pengukurannya dapat dipercaya. Alat tes yang baik diharapkan mampu berfungsi sesuai dengan tujuan disusunnya alat tes tersebut agar diperoleh hasil pengukuran yang objektif dan standard. Oleh karena itu, perlu dilakukan evaluasi terhadap kualitas alat tes yang digunakan sehingga diperoleh alat tes yang valid dan dan hasil pengukuran yang reliabel.Tujuan dari penelitian ini adalah melakukan analaisis karakteristik psikometri terhadap Culture Fair Intelligence Test (CFIT) Skala 3B yang mencakup analisis indeks kesukaran aitem, indeks diskriminasi aitem, reliabilitas, dan validitas konstrak alat tes tersebut. Metode pengumpulan data yang digunakan dalam penelitian ini adalah metode dokumentasi, yaitu dengan menggunakan data yang didokumentasikan oleh P3M Fakultas Psikologi USU dalam menyeleksi calon pegawai. Data yang digunakan berupa lembar jawaban peserta seleksi yang berjumlah 1623 lembar. Pendekatan yang digunakan adalah teori tes klasik. Hasil dari penelitian ini menemukan bahwa dari 50 aitem yang terdapat dalam CFIT Skala 3B terdapat 8 aitem yang memiliki indeks diskriminasi yang jelek, sedangkan 7 aitem memerlukan revisi. Terdapat pula beberapa aitem yang yang urutannya tidak sesuai dengan alur urutan indeks kesukaran pada subtes 2-4. Penelitian ini juga menemukan indeks reliabilitas yang tidak reliabel sebagai tes inteligensi yaitu sebesar 0,769. Selain itu, berdasarkan analisis validitas konstrak dengan analisis faktor konfirmatori, penelitian ini menemukan hanya terdapat 20 aitem yang memiliki muatan faktor standard di atas nilai kritikal dan hanya 14 aitem yang memiliki t-value di atas nilai kritikal, tetapi tidak ada aitem yang memenuhi keduanya untuk disebut valid sebagai bagian dari tes inteligensi.


(15)

PSYCHOMETRIC PROPERTIES ANALYSIS OF

CULTURE FAIR INTELLIGENCE TEST (CFIT)

SCALE 3B

Agus Manurung and Etty Rahmawati

ABSTRACT

A psychological test must have a good quality in psychometric so the process and the use of the result can be reliable. A good psychological test is expected to have function as the purpose of the test is made so we can get an objective and standard result. Hence, we need to evaluate the test quality so we can get a valid test and reliable measure result. The aim of this study is to analyze the psychometric properties of Culture Fair Intelligence Test (CFIT) Scale 3B include item difficulty index, item discrimination index, reliability, and construct validity of the test. This study uses documentation method by using data that documented by P3M Psychology Faculty of USU in applicants selection. The data is the applicants’ answer from 1623 answer sheets. This study uses classical test theory approach. The result of this study finds that from total 50 items in CFIT Scale 3B there are 8 items that have bad discrimination index and 7 items need to be revised. There are also few items that doesn’t fit with the item difficulty’s order in subtest 2-4. This study also finds that reliability index is unreliable as an intelligence test, only 0,769. Furthermore, based on construct validity analysis by confirmatory factor analysis, this study finds that there are only 20 items that have standardize loading factor above critical value and only 14 items that have t-value above critical value, but none of these items have both values above critical to be called valid as part of intelligence test.


(16)

BAB I

PENDAHULUAN

A. Latar Belakang Masalah

Ilmu Psikologi merupakan salah satu cabang ilmu yang berperan untuk mempelajari perilaku manusia. Untuk mempelajari perilaku manusia ini, para ahli psikologi melakukan berbagai macam pengukuran terhadap perilaku manusia tersebut, atau dengan kata lain dilakukan tes psikologi. Dibanding dengan negara-negara maju di Eropa maupun Amerika Serikat, ilmu Psikologi termasuk cabang ilmu yang baru di Indonesia tetapi tes psikologi sudah sangat umum dan sering digunakan untuk berbagai tujuan dalam berbagai bidang di Indonesia, khususnya bidang pendidikan dan pekerjaan.

Jika dilihat dari bagaimana perkembangan dunia pendidikan dan dunia kerja sekarang ini, tes psikologi merupakan sesuatu yang sangat dibutuhkan untuk melihat apakah seseorang sesuai untuk pendidikan tertentu atau jenis pekerjaan tertentu. Contohnya di bidang pendidikan, tes psikologi digunakan untuk menentukan seorang siswa masuk ke jurusan tertentu, misalnya jurusan ilmu pengetahuan alam dan ilmu pengetahuan sosial pada tingkat SMA. Sedangkan di bidang pekerjaan, tes psikologi digunakan untuk mengetahui kemampuan seseorang dan menentukan apakah seseorang sesuai dengan suatu posisi pekerjaan tertentu.

Urbina (2004) mengatakan bahwa ada tiga kategori tujuan penggunaan tes psikologi, yaitu pembuatan keputusan, penelitian psikologi, dan pemahaman dan


(17)

pengembangan diri. Selain penggunaan tes psikologi untuk tujuan tertentu di bidang pendidikan dan pekerjaan, masyarakat juga menggunakan tes psikologi untuk mengetahui kondisi psikologis dan pengembangan diri mereka. Hal ini dapat dilihat dari semakin banyak dan semakin berkembangnya biro-biro Psikologi di kota-kota besar di Indonesia yang menunjukkan bahwa masyarakat modern mulai peduli dengan kondisi psikologis mereka, misalnya bagaimana kepribadian mereka dan bagaimana kemampuan mereka dalam hal inteligensi. Banyaknya biro-biro psikologi ini juga bisa menunjukkan bahwa, selain minat masyarakat untuk mengetahui kondisi psikologis mereka, masyarakat juga sepertinya mulai mempercayai biro-biro tersebut untuk mengukur aspek-aspek psikologis masyarakat tersebut.

Menurut Anastasi dan Urbina (2006), tes psikologi merupakan suatu pengukuran yang objektif dan standar terhadap sampel dari suatu perilaku tertentu. Ada banyak jenis tes psikologi sehingga fungsi dan tujuannya pun berbeda-beda. Menurut Kaplan dan Saccuzo (2005), ada dua jenis tes psikologi, yaitu tes kepribadian (personality test) dan tes kemampuan (ablility test) Tes

inteligensi adalah salah satu tes kemampuan yang sering dan umum digunakan. Tes inteligensi merupakan tes yang digunakan untuk mengukur kemampuan kognisi atau inteligensi pada individu yang terlihat dari perilaku-perilaku yang ditunjukkan (Anastasi dan Urbina, 2006). Oleh karena kegunaan tes inteligensi untuk mengukur hal-hal tersebut, banyak pihak maupun institusi seperti sekolah dan perusahaan yang menggunakan tes inteligensi untuk memilih orang yang tepat untuk jurusan yang tepat di jurusan pendidikan tertentu maupun untuk posisi yang tepat dalam pekerjaan. Pihak maupun institusi tersebut


(18)

menggunakan tes inteligensi ini supaya orang-orang yang telah dipilih tersebut menunjukkan performansi yang diharapkan dalam menjalani pendidikan maupun pekerjaan.

Ada terdapat banyak jenis-jenis tes inteligensi yang digunakan dalam dunia pendidikan maupun dunia kerja. Salah satu tes inteligensi yang umum dan sering digunakan adalah Culture Fair Intelligence Test (selanjutnya akan disebut

CFIT). Culture Fair Intelligence Test adalah pengukuran nonverbal terhadap fluid

intelligence yang diciptakan oleh Raymond B. Cattel. Tujuan dari CFIT adalah

untuk mengukur fluid intelligence (kemampuan analisis dalam situasi abstrak)

dalam pola yang sebebas mungkin dari pengaruh budaya (Gregory, 2000). Culture

Fair Intelligence Test dirancang untuk memberikan sebuah estimasi kecerdasan

yang relatif bebas dari pengaruh bahasa dan budaya (Kaplan & Saccuzo, 2005) Awalnya tes ini dinamakan Culture Free Intelligence Test. Nama tes ini

berubah setelah diketahui bahwa pengaruh budaya tidak bisa dihilangkan seutuhnya dari tes inteligensi (Gregory, 2000). Salah satu tujuan instrument CFIT ini adalah untuk meminimalisir pengaruh-pengaruh yang tidak relevan dari pembelajaran budaya dan sosial sehingga dihasilkan pemisahan yang lebih bersih terhadap kemampuan alami dari pembelajaran yang spesifik (IPAT dalam Gregory, 2000). Untuk di Indonesia sendiri, CFIT diadopsi dan dikembangkan oleh Universitas Indonesia pada tahun 1975. Cattel merancang CFIT untuk mengurangi pengaruh budaya, perbedaan kecakapan verbal, dan perbedaan tingkat pendidikan. CFIT dirancang untuk bebas dari bias budaya dan cocok dipakai oleh beragam populasi, termasuk peserta tes yang tidak dapat berbicara dalam bahasa Inggris (Lynn dkk, dalam “Buku Petunjuk Penggunaan CFIT”, 2013), maka CFIT


(19)

dapat digunakan di Indonesia tanpa adanya perubahan atau adaptasi terhadap aitem-aitemnya (“Buku Petunjuk Penggunaan CFIT”, 2013).

Tes inteligensi yang sudah sering digunakan umumnya akan lebih dikenali oleh masyarakat luas. Oleh karena tes inteligensi ini, termasuk CFIT, sudah sangat sering digunakan, maka orang-orang yang pernah mengikuti tes inteligensi ini akan memiliki pengalaman untuk menghadapi tes yang sama di masa depan, dengan kata lain ada proses belajar yang dialami oleh peserta sehingga ini dapat menimbulkan bias pada hasil tes inteligensi tersebut. Hal ini berakibat banyaknya pihak-pihak yang berniat untuk memudahkan orang lain untuk menjalani tes inteligensi tersebut. Mereka banyak membuat bocoran-bocoran tentang bagaimana cara menghadapi dan menyelesaikan tes tersebut. Ini dapat kita lihat dari banyaknya tulisan-tulisan di internet yang membahas tentang tes inteligensi termasuk bagaimana cara menjalani tes tersebut dan bagaimana penilaiannya. Jika terdapat banyak individu yang mengikuti tes ini telah mengetahui jawaban yang benar dalam tes ini maka hal ini bisa berakibat pada tingginya indeks kesukaran aitem yang disebabkan oleh banyaknya individu yang menjawab benar pada aitem-aitem tersebut dan dapat mengacaukan daya diskriminasi aitem. Dengan munculnya indeks kesukaran yang tinggi ini dapat mengganggu reliabilitas alat tes tersebut. Tidak terlewatkan juga CFIT termasuk salah satu tes yang sudah bocor tersebut, bahkan ada beberapa situs yang melayani penjualan alat tes beserta kunci jawaban CFIT, seperti yang ditemukan oleh peneliti sendiri.

Seberapa baik proses seleksi yang menggunakan tes psikologi bergantung pada kualitas alat tes psikologi itu sendiri. Ini merupakan hal yang sangat penting karena hasil dari tes tersebut akan digunakan sebagai acuan dalam pengambilan


(20)

keputusan tentang bagaimana kemampuan seseorang. Menurut Azwar (1999), ketepatan interpretasi tes sangat bergantung pada dua karakteristik utama yang harus dimiliki oleh setiap tes, yaitu reliabilitas dan validitas. Hasil pengukuran yang tidak konsisten tidak dapat dipercaya dan apabila digunakan sebagai informasi dalam pengambilan keputusan maka keputusan tersebut tidak akan dapat diandalkan. Menurut Azwar (2005), suatu alat tes dikatakan memiliki validitas yang tinggi jika alat tes tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran, sedangkan tes dikatakan memiliki reliabilitas yang tinggi jika skor-tampak tes tersebut berkorelasi tinggi dengan skor skor-murninya sendiri, atau dapat pula diartikan sebagai seberapa tingginya korelasi antara skor-tampak pada dua tes yang paralel. Menurut Kaplan dan Saccuzo (2005), tes psikologi merupakan sejumlah aitem yang disusun untuk mengukur karakteristik manusia yang berhubungan dengan perilaku. Aitem-aitem tersebut dirancang sedemikian rupa berbentuk pertanyaan maupun pernyataan mengenai suatu hal yang akan diukur atau diungkap. Dari sini bisa dilihat bahwa kualitas dari suatu alat tes ditentukan oleh kualitas aitem-aitem yang digunakan dalam alat tes tersebut.

Sebagai salah satu alat tes psikologi yang mengukur inteligensi, CFIT termasuk sering digunakan oleh institusi-institusi Psikologi di Indonesia. Khususnya di daerah kota Medan, Sumatera Utara, terdapat beberapa institusi psikologi maupun perusahaan yang menggunakan CFIT sebagai salah satu alat tes inteligensi. Salah satu institusi tersebut adalah Unit Pelayanan Pusat Pelayanan Psikologi pada Masyarakat (selanjutnya akan disebut P3M) Fakultas Psikologi Universitas Sumatera Utara. Penelitian ini terbatas hanya dilakukan di P3M


(21)

Fakultas psikologi Universitas Sumatera Utara karena adanya keterbatasan aksesibilitas dan hal-hal terkait konfidensialitas dari institusi-institusi psikologi yang lain. CFIT termasuk salah satu alat tes psikologi yang sudah sangat lama tetapi masih sering digunakan di institusi P3M Fakultas Psikologi Universitas Sumatera Utara. Bentuk CFIT yang paling sering digunakan adalah skala 3B, ini terlihat dari banyaknya lembar jawaban CFIT skala 3B yang telah digunakan dalam beberapa proses seleksi masuk kerja yang diselenggarakan oleh P3M bekerjasama dengan beberapa institusi atau perusahaan tertentu. Melihat permasalahan ini, mungkin kita akan mempertanyakan bagaimana sebenarnya kondisi kualitas CFIT tersebut, tetapi pengujian atau evaluasi (analisis karakteristik psikometri) yang dilakukan terhadap alat tes ini masih sedikit dan terbatas di Indonesia. Untuk di Unit P3M Fakultas Psikologi Universitas Sumatera Utara sendiri bahkan belum pernah dilakukan evaluasi terhadap alat tes CFIT ini, padahal alat tes psikologi ini masih sering digunakan di Fakultas Psikologi USU.

Jika dilihat dari penggunaan hasil tes psikologi, khususnya tes inteligensi, yang sangat luas di institusi-institusi seperti sekolah dan perusahaan, sangatlah penting untuk tetap menggunakan alat tes yang tepat dan benar-benar berkualitas, yaitu alat tes yang sesuai dengan fungsinya dan hasilnya dapat dipercaya. Oleh karena itu, untuk memperoleh hasil-hasil yang valid dan reliabel dari suatu tes psikologi, perlu diadakan evaluasi secara rutin terhadap tes tersebut mengingat adanya kemungkinan pergeseran maupun perubahan budaya dan perkembangan informasi yang pesat yang dapat mempengaruhi validitas dan reliabilitas alat tes psikologi tersebut, dalam hal ini CFIT.


(22)

Oleh karena itu, peneliti melakukan penelitian ini dengan menggunakan analisis karakteristik psikometri pada alat tes CFIT. Penelitian ini bertujuan untuk mengetahui apakah CFIT ini masih standard, berkualitas, dan tepat untuk digunakan di masyarakat, sehingga dalam setiap penggunaanya kita mendapatkan hasil yang benar-benar sesuai dengan tujuan dari disusunnya alat tes ini dan dapat dipercaya.

B.Identifikasi Masalah

Berdasarkan latar belakang masalah yang telah diuraikan, maka dapat diidentifikasi masalah yang berhubungan dengan CFIT yaitu:

1. CFIT masih sering digunakan sebagai tes inteligensi oleh P3M Fakultas Psikologi USU dan belum pernah dievaluasi secara psikometri oleh P3M Fakultas psikologi USU.

2. CFIT juga telah mulai bocor ke publik sehingga tidak jarang individu mendapatkan skor CFIT yang mungkin lebih tinggi dari yang sebenarnya.

C. Rumusan Masalah

Masalah dalam penelitian ini dirumuskan dalam bentuk pertanyaan penelitian sebagai berikut:

1. Seberapa besarkah indeks kesukaran aitem dan indeks diskriminasi aitem pada CFIT?

2. Bagaimana kondisi nilai indeks reliabilitas pada CFIT?

3. Bagaimana kondisi nilai indeks validitas konstrak pada CFIT?

4. Berdasarkan hasil analisis karakteristik psikometri, apakah CFIT masih tepat digunakan sebagai tes inteligensi?


(23)

D. Tujuan Penelitian

Penelitian ini bertujuan untuk melihat bagaimana kondisi kualitas dan ketepatan CFIT skala 3B, apakah CFIT skala 3B masih berfungsi sesuai dengan tujuan CFIT disusun berdasarkan kondisi karakteristik psikometri yang dimiliki.

E. Manfaat Penelitian

Penelitian ini diharapkan dapat memberikan manfaat teoritis maupun praktis, sebagai berikut:

1. Manfaat Teoritis

Penelitian ini diharapkan dapat menambah manfaat keilmuan dalam bidang psikologi mengenai karakteristik psikometri pada CFIT sehingga dapat memberikan informasi apakah CFIT masih berfungsi sesuai dengan tujuan aitem-aitem pada subtes-subtes tersebut disusun.

2. Manfaat Praktis

a) Penelitian ini diharapkan dapat memberikan masukan bagi para akademisi psikometri untuk merevisi CFIT di masa yang akan datang.

b) Penelitian ini diharapkan dapat menjadi bahan pertimbangan bagi para praktisi psikologi dalam menggunakan CFIT sebagai alat pengukur inteligensi dan pengambilan keputusan.


(24)

BAB II

LANDASAN TEORI

Pada dasarnya, ilmu pengukuran psikologis memiliki dua pendekatan, yaitu pendekatan classical test theory (selanjutnya akan disebut CTT) dan item

response theory (selanjutnya akan disebut IRT). Pendekatan CTT adalah metode

pertama yang dikembangkan untuk pengukuran. Teori-teori CTT mendominasi pengembangan rumus reliabilitas dan validitas yang dikenal dewasa ini (Suryabrata, 2005).

A. Classical Test Theory (CTT)

1. Pengertian CTT

Model dari pendekatan teori tes klasik ini disebut juga sebagai model skor murni (true score model). Pendekatan ini telah berhasil meletakkan dasar-dasar

konsep dalam analisis karakteristik psikometri perangkat ukur psikologi (Crocker & Algina, 2005). Pendekatan CTT ini juga telah berkontribusi dalam pengembangan pengukuran psikometri dan pendekatan ini dianggap sebagai model yang sederhana dan kuat. Fokus utama dari pendekatan ini adalah informasi pada level tes dan juga menyediakan informasi mengenai aitem-aitem yang digunakan (Coaley, 2009). Selain itu, teori tes klasik ini juga praktis dan tidak memerlukan perhitungan yang rumit (Kaplan & Saccuzo, 2005). Oleh karena itu, peneliti mempertimbangkan menggunakan pendekatan CTT dalam proses analisis yang akan dilakukan pada penelitian ini.


(25)

2. Asumsi-asumsi dalam CTT

Asumsi-asumsi CTT pada dasarnya merupakan hubungan matematis antara skor tampak yang disimbolkan dengan huruf X, skor murni yang dilambangkan dengan huruf T, dan eror pengukuran yang diberi simbol huruf E. Skor tampak merupakan nilai performansi subjek yang diungkap melalui pengukuran yang dinyatakan dalam bentuk angka yang merupakan nilai total dari jawaban subjek terhadap aitem atau pernyataan dalam tes tersebut. Skor murni menjelaskan bahwa performansi subjek sesungguhnya yang tidak mungkin dapat diungkap secara langsung oleh tes. Eror pengukuran merupakan besaran eror subjek dalam setiap tes yang angkanya juga tidak dapat diketahui dengan pasti (Azwar, 2005).

Pendekatan CTT terdiri dari asumsi-asumsi yang berkaitan dengan skor tampak, skor murni dan komponen eror pengukuran. Allen & Yen (dalam Azwar, 2005) menjabarkan asumsi-asumsi hubungan antara skor tampak, eror pengukuran dan skor murni sebagai berikut:

Asumsi 1: X = T + E (1)

Asumsi ini didasarkan pada model Spearman yang menyatakan bahwa setiap skor tes menggambarkan gabungan dari skor murni dan komponen eror (Crocker & Algina, 2005). X merupakan jumlah T dan E, sehingga besar X akan tergantung oleh besarnya E pengukuran, sedangkan besarnya T subjek pada setiap pengukuran yang sama diasumsikan selalu tetap. Jadi dapat disimpulkan bahwa skor yang diperoleh dari suatu pengukuran umumnya tidak menunjukkan keadaan sebenarnya (Suryabrata, 2005).


(26)

Asumsi 2: ε(X) = T (2) Asumsi ini menyatakan bahwa T sama dengan nilai harapan dari X-nya yang dilambangkan dengan ε(X). Jadi, T merupakan harga rata-rata dari distribusi teoretik X apabila orang yang sama dikenai tes yang sama berulangkali dengan asumsi pengulangan tes itu dilakukan tidak terbatas banyaknya dan setiap pengulangan tes adalah independen satu sama lain.

Asumsi 3: = 0 (3)

Asumsi ini menyatakan bahwa bagi populasi subjek yang dikenai tes, distribusi E pengukuran dan distribusi T tidak berkorelasi satu sama lain. Implikasinya, skor murni yang tinggi tidak selalu berarti mengandung eror yang selalu positif ataupun selalu negatif atau mempunyai E lebih tinggi dibanding subjek yang T-nya rendah.

Asumsi 4: = 0 (4)

Asumsi ini menyatakan bahwa eror pada dua tes ( yang dimaksud untuk mengukur hal yang sama) tidak saling berkorelasi. Artinya besarnya E pada suatu tes tidak tergantung pada E tes lainnya. Asumsi ini akan tidak terpenuhi sekiranya skor tampak dipengaruhi kondisi testing, seperti misalnya kelelahan, efek latihan, suasana hati, atau faktor-faktor dari lingkungan (Suryabrata, 2005).

Asumsi 5 : = 0 (5)

Asumsi ini menyatakan bahwa E pada suatu tes tidak berkorelasi dengan T pada tes lain. E yang dimaksud dalam CTT adalah penyimpangan X dari skor harapan teoritik yang terjadi secara random atau tidak terjadi secara sistematik. Jika penyimpangan terjadi secara sistematik maka itu tidaklah dianggap sebagai sumber eror.


(27)

Selain lima asumsi yang telah diuraikan, terdapat dua asumsi lagi yang dijelaskan oleh Suryabrata (2005), yaitu:

Asumsi 6

Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan untuk setiap populasi subjek T = T’ serta varians eror kedua tes tersebut sama, maka

kedua tes tersebut disebut sebagai tes yang paralel. Asumsi 7

Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan apabila untuk setiap populasi subjek T1 = T2 + C, dengan C sebagai suatu bilangan konstan, maka kedua tes tersebut dapat disebut sebagai tes yang setara (equivalent test).Dua tes yang setara dapat memiliki varians eror yang berbeda

karena keduanya belum tentu merupakan tes yang paralel, namun dua tes yang paralel tentu memenuhi syarat sebagai tes yang setara (Azwar, 2005).

B. Analisis Karakteristik Psikometri

Analisis aitem merupakan suatu prosedur untuk meningkatakan validitas dan reliabilitas suatu alat tes dengan cara memilih aitem-aitem yang baik sesuai dengan tujuan alat tes (Crocker & Algina, 2005). Menurut Kaplan & Saccuzo (2005), alat tes yang baik memiliki aitem yang baik. Aitem yang baik dapat dilihat melalui analisis terhadap beberapa parameter, seperti indeks kesukaran aitem dan indeks diskriminasi aitem.


(28)

1. Indeks Kesukaran Aitem

a. Pengertian Indeks Kesukaran Aitem

Indeks kesukaran aitem adalah rasio antara subjek yang menjawab aitem dengan benar dan total subjek yang menjawab aitem tersebut. Indeks kesukaran aitem ditentukan oleh seberapa banyak peserta tes berhasil menjawab aitem dengan benar. Semakin banyak peserta tes menjawab dengan benar, berarti semakin mudah aitem tersebut dan sebaliknya semakin sedikit peserta menjawab dengan benar, maka semakin sulit aitem tersebut (Azwar, 2007).

b. Analisis Indeks Kesukaran Aitem

Taraf kesukaran suatu aitem dinyatakan oleh suatu indeks yang dinamakan indeks kesukaran aitem yang disimbolkan dengan huruf p, dengan rumus :

p = ni / N (6)

Keterangan:

p = Derajat kesukaran aitem

ni = Banyak peserta tes yang menjawab benar

N = Banyak peserta tes yang menjawab aitem

Azwar (2007) menyatakan bahwa taraf kesukaran yang terbaik bergantung pada tujuan dari tes tersebut. Misalnya, tes prestasi yang bertujuan untuk evaluasi formatif misalnya, tidak jarang diperlukan aitem-aitem dengan taraf kesukaran rendah atau aitem-aitem dengan harga p tinggi. Namun untuk tes yang bertujuan untuk proses seleksi masuk, terlebih dalam tes masuk yang bertujuan untuk proses pendidikan harus diusahakan tes yang memiliki harga p yang rendah atau aitem yang sulit, sehingga subjek yang dinyatakan lulus selanjutnya adalah subjek yang benar-benar mampu mengikuti proses pendidikan selanjutnya (Suryabrata, 2005).


(29)

Tes disusun untuk melihat perbedaan subjek sehingga jika tidak ada seorang pun yang menjawab pertanyaan dengan benar, dalam artian aitem sangat susah (p = 0), atau sebaliknya, jika soal sangat gampang sehingga semua dapat menjawab pertanyaan dengan benar (p= 1) maka tujuan alat tes tidak dapat dipenuhi (Murphy & Davidshofer, 2003). Gregory (2000) mengkategorikan nilai p sebagai berikut:

Tabel 1. Kategori Batasan Nilai p

No. P Kategori

1 p < 0,3 Sulit

2 0.3 <p< 0,7 Sedang

3 p > 0,7 Mudah

2. Indeks Diskriminasi Aitem

a. Pengertian Indeks Diskriminasi Aitem

Daya diskriminasi aitem merupakan kemampuan aitem dalam membedakan antara subjek yang memiliki atribut psikologis yang diukur dengan subjek yang tidak memiliki atribut psikologis yang diukur (Azwar, 2007). Murphy dan Davidshofer (2003) mengatakan bahwa aitem yang baik seharusnya mampu membedakan kelompok subjek yang mampu dan yang tidak mampu mengerjakan suatu tes dengan baik. Menurut Azwar (2007), secara sederhana dapat dikatakan bahwa indeks diskriminasi aitem merupakan suatu harga yang menunjukkan perbedaan proporsi penjawab aitem dengan benar antara kelompok dengan kemampuan tinggi dengan kelompok dengan kemampuan rendah.


(30)

b. Analisis Indeks Diskriminasi Aitem

Diskriminasi aitem yang maksimal akan dicapai ketika seluruh subjek kelompok tinggi dapat menjawab aitem dengan benar dan seluruh subjek kelompok rendah tidak mampu untuk menjawabnya. Perbedaan proporsi penjawab aitem dengan benar antara kelompok tinggi dengan kelompok rendah dapat dirumuskan sebagai berikut :

d = niT / NT – niR / NR (7)

Keterangan:

niT = Jumlah peserta dari kelompok tinggi yang menjawab aitem dengan benar

NT = Jumlah peserta dari kelompok tinggi

niR = Jumlah peserta dari kelompok rendah yang menjawab item dengan benar

NR = Jumlah peserta dari kelompok rendah

Karena ni / N= p, maka dapat juga dirumuskan dengan:

d = pT - pR (8)

Keterangan:

pT = Indeks kesukaran item kelompok tinggi

pR = Indeks kesukaran item kelompok rendah

Secara matematik indeks diskriminasi aitem akan berkisar mulai dari -1 sampai dengan +1. Namun demikian hanya harga d yang bernilai positif saja yang memiliki arti dalam analisis aitem (Azwar, 2007).Harga d yang berada disekitar 0 menunjukkan bahwa aitem tersebut mempunyai diskriminasi yang rendah sedangkan harga d yang negatif menunjukkan bahwa aitem tesebut tidak berguna sama sekali.


(31)

Indeks diskriminasi aitem yang ideal adalah yang mendekati angka 1, semakin besar indeks diskriminasi (semakin mendekati 1) berarti aitem tersebut mampu membedakan antara subjek yang menguasai materi yang diujikan dengan yang tidak menguasainya. Semakin kecil diskriminasi aitem (semakin mendekati 0) berarti semakin tidak jelaslah fungsi aitem yang bersangkutan dalam membedakan mana subjek yang menguasai materi yang diujikan dan subjek yang tidak tahu apa-apa (Azwar,2007).

Ebel (dalam Azwar, 2007) memberikan suatu panduan dalam evaluasi indeks diskriminasi aitem, yaitu :

Tabel 2. Evaluasi Indeks Diskriminasi Aitem

d Evaluasi

0,4 atau lebih Bagus sekali

0,3 - 0,39 Lumayan bagus, tidak membutuhkan revisi

0,2 – 0,29 Belum memuaskan, perlu revisi

d < 0,20 Jelek dan harus dibuang

Thorndike (dalam Azwar, 2007) mengatakan bahwa dalam proses seleksi aitem, aitem-aitem yang memiliki nilai diskriminasi aitem di atas 0,50 akan langsung dianggap baik sedangkan aitem-aitem dengan indeks diskriminasi di bawah 0,20 dapat langsung dibuang dan dianggap jelek.

Menurut Murphy dan Davidshofer (2003) ada tiga cara statsistik yang dapat digunakan untuk mengukur indeks diskriminasi aitem, yaitu:

1)Metode kelompok ekstrim

Metode kelompok ekstrim merupakan cara yang mudah untuk mengukur indeks diskriminasi aitem pada kelompok yang besar. Indeks diskriminasi aitem dihitung dengan cara membagi kelompok menjadi dua, Upper group yakni


(32)

(25-35 % nilai terendah dalam kelompok). Aitem yang memiliki indeks diskriminasi yang baik akan dijawab benar oleh upper group dan dijawab salah

oleh lower group.

2)Korelasi aitem-total

Korelasi aitem-total memberikan informasi tentang apakah aitem mengukur hal yang sama dengan tes. Korelasi aitem-total untuk aitem yang diskor 1 jika benar dan 0 jika salah sering juga disebut korelasi poin biserial. Korelasi poin biserial digunakan apabila aitem-aitem dalam tes berbentuk dikotomi. Nilai positif menunjukkan bahwa aitem dan tes mengukur hal yang sama, nilai mendekati nol menunjukkan bahwa bahwa aitem tidak memiliki indeks diskriminasi yang baik sehingga upper group menjawab pertayaan dengan

salah dan lower group menjawab pertanyaan dengan benar.

3)Korelasi inter-aitem

Korelasi inter-aitem digunakan untuk memahami indeks diskriminasi aitem. Korelasi inter-aitem tidak menjelaskan mengapa beberapa aitem menunjukkan nilai yang tinggi atau rendah karena sangat jelas bahwa aitem yang memiliki nilai korelasi aitem total yang positif akan menunjukkan nilai yang positif juga pada kebanyakan aitemnya. Namun korelasi aitem total tidak dapat menjelaskan mengapa korelasi aitem total dapat bernilai negatif tetapi hal ini dapat dijelaskan dengan menggunakan korelasi inter-aitem.

Korelasi inter-aitem dapat membantu dalam memahami mengapa beberapa aitem gagal dalam membedakan subjek yang memiliki kemampuan dengan subjek yang tidak memiliki kemampuan, dalam artian upper group menjawab dengan


(33)

Korelasi inter-aitem yang bernilai rendah dapat memiliki dua arti, kemungkinan pertama adalah aitem tidak mengukur hal yang sama dengan tes, sehingga aitem harus dibuang atau dibuat ulang, kemungkinan kedua adalah aitem memang mengukur atribut yang berbeda dengan tes dikarenakan tes memang disusun untuk mengukur dua atribut yang berbeda.

3. Reliabilitas Alat Ukur a. Pengertian Reliabilitas

Menurut Oslterlind (2010), reliabilitas mengarah pada ketepatan dalam pengukuran mental yang ditentukan oleh kekonsistenan dari pengukuran paralel secara acak dari beberapa pengukuran. Pengertian reliabilitas diterapkan dalam dua konteks. Pertama, reliabilitas mengungkap ketepatan instrumen pengukuran, sebagaimana dalam indeks reliabilitas (dikalkulasi sebagai koefisien reliabilitas), dan kedua, reliabilitas diterapkan dalam antar-subjekal untuk testee, sebagaimana dispesifikasi dalam standar error pengukuran (SEM). Reliabilitas juga menandai konsep untuk mengestimasi seberapa baik sampel aitem mewakili keseluruhan aitem untuk konstruk laten atau konten domain. Semakin reliabel sebuah pengukuran, semakin kecil error yang diungkap dalam skor dan semakin terpercaya interpretasi yang dihasilkan.

Reliabilitas bergantung pada konteks penggunaan reliabilitas itu sendiri. Terdapat banyak perspektif pada reliabilitas, tergantung pada defenisi error yang digunakan dan defenisi konstruk laten maupun konten domain yang telah ditentukan sebelumnya.

Menurut Azwar (2005), reliabilitas merupakan terjemahan dari kata


(34)

konsistensi dan sebagainya, namun pada intinya konsep reliabilitas memiliki makna sejauh mana hasil suatu pengukuran dapat dipercaya. Menurut Anastasi & Urbina (2006) reliabilitas suatu tes merujuk pada konsistensi skor yang di peroleh oleh subjek yang sama ketika diberikan tes ulang yang sama atau seperangkat tes yang ekivalen dengan tes sebelumnya pada kondisi yang berbeda. Suryabrata (2005) menyatakan bahwa reliabilitas alat ukur menunjukkan sejauh mana hasil pengukuran dengan alat tersebut dapat dipercaya, yang mana hal ini ditunjukkan oleh taraf konsistensi skor yang diperoleh para subjek yang diukur dengan alat yang sama atau minimal setara, dalam kondisi yang berbeda. Oleh sebab itu, konsepsi mengenai reliabilitas berkaitan dengan derajat konsistensi antara dua perangkat skor tes, maka rumus reliabilitas selalu dinyatakan dalam bentuk koefisien korelasi (Azwar, 2005).

Lord dan Novick (dalam Osterlind, 2010), memberikan defenisi reliabilitas sebagai “reliabilitas sebuah tes didefenisikan sebagai kuadrat korelasi antara skor tampak dan skor murni”, sebagaimana dalam rumus :

ρ

2

XT (9)

Menurut Osterlind (2010), reliabilitas juga dievaluasi dengan konsistensi pengukuran ketika pengukuran diulang terhadap subjek atau kelompok dari sebuah populasi. Semakin konstan pengukuran tersebut dalam pengukuran-pengukuran yang diulang, maka semakin tinggi reliabilitasnya.

ρ

XT (10)

Gulliksen (dalam Osterlind, 2010) mengatakan bahwa reliabilitas adalah korelasi antara dua bentuk paralel dari sebuah tes. Pada koefisien ini, korelasinya


(35)

adalah antara dua skor-skor tampak atau kumpulan-kumpulan skor. Hal ini ditunjukkan dalam rumus:

ρ

x1x2 (11)

b. Metode Estimasi Reliabilitas

Reliabilitas alat ukur juga menunjukkan eror pengukuran yang tidak dapat ditentukan secara pasti, hanya dapat diestimasi (Suryabrata, 2005). Estimasi reliabilitas dapat dibagi ke dalam tiga bentuk metode, yaitu pendekatan tes ulang, pendekatan tes paralel, dan pendekatan konsistensi internal (Azwar, 2005 dan Suryabrata, 2005).

1) Pendekatan tes ulang

Pendekatan ini dilakukan dengan cara menyajikan tes yang sama dua kali pada suatu kelompok yang sama dalam rentang waktu tertentu, minsalnya dua minggu (Suryabrata, 2005). Asumsinya adalah suatu tes yang reliabel akan menghasilkan skor tampak yang relatif sama apabila diberikan dua kali tes dalam waktu yang berbeda pada sekelompok subjek yang sama (Azwar, 2005).

Pendekatan tes ulang ini dapat dikatakan baik secara teori, namun dalam prakteknya mengandung kelemahan, yaitu kondisi subjek pada tes kedua tidak lagi sama dengan kondisi subjek pada tes pertama baik dari proses belajar, perubahan motivasi, pengalaman, sehingga pendekatan ini lebih baik digunakan bila objek ukur berupa keterampilan, terutama keterampilan fisik (Suryabrata, 2005). Menurut Azwar (2005), pendekatan tes ulang cocok digunakan hanya bagi tes yang mengukur aspek psikologis yang relatif stabil dan tidak mudah berubah. Rumus yang dapat digunakan untuk menentukan reliabilitas tes ulang adalah


(36)

2) Pendekatan tes paralel

Pendekatan reliabilitas bentuk paralel dilakukan dengan memberikan dua bentuk tes yang paralel pada sekelompok subjek, yaitu tes yang memiliki tujuan ukur yang sama dan isi aitem yang setara secara kualitas maupun kuantitas (Azwar, 2005). Pendekatan ini disebut juga sebagai alternate form yang

digunakan untuk mengatasi kelemahan pendekatan tes ulang (Kumar, 2009). Menurut Azwar (2005), dua tes yang paralel hanya ada secara teoritis, tidak benar-benar paralel secara empirik. Rumus yang dapat digunakan untuk menentukan reliabilitas tes ulang adalah korelasi Pearson product moment

(Azwar, 2005)

3) Pendekatan konsistensi internal

Pendekatan ini dilakukan dengan memberikan satu bentuk tes dengan sekali penyajian kepada sekelompok subjek yang bertujuan melihat konsistensi antar aitem atau antar bagian dalam tes tersebut serta menghindari masalah-masalah pada pendekatan tes ulang dan paralel. Seperangkat tes diberikan kepada sekelompok subjek satu kali sehingga diperoleh satu distribusi skor tes dari kelompok subjek tersebut. Prosedur analisis reliabilitasnya diarahkan pada analisis terhadap aitem-aitem atau terhadap kelompok-kelompok aitem dalam tes itu sehingga perlu dilakukan pembelahan tes menjadi beberapa kelompok aitem yang disebut belahan tes. Setiap cara pembelahan tes sebaiknya mengusahakan agar antar belahan memiliki jumlah aitem sama banyak, indeks kesukaran seimbang, isi sebanding, dan tujuan ukur yang sama atau dalam artian pembelahan aitem memenuhi ciri-ciri paralel (Azwar, 2005). Berikut beberapa cara dalam pembelahan tes (Azwar, 2005).


(37)

(a). Pembelahan cara random

Membelah tes menjadi dua bagian secara random dapat dilakukan dengan cara undian sederhana guna menentukan aitem-aitem nomor berapa sajakah yang dimasukkan menjadi belahan pertama dan yang mana menjadi belahan kedua. Pembelahan secara random hanya boleh dilakukan bila tes yang akan dibelah berisi aitem-aitem yang homogen baik dari segi konten maupun segi indeks kesukaran aitem, namun jika aitem tersebut heterogen dapat juga menggunakan cara pembelahan ini asalkan aitem tersebut jumlahnya sangat besar (Azwar, 2005).

(b). Pembelahan gasal-genap

Pembelahan gasal-genap dilakukan dengan cara mengelompokkan seluruh aitem yang bernomor urut gasal menjadi belahan pertama dan seluruh aitem yang bernomor urut genap dijadikan satu kelompok belahan kedua. Cara pembelahan ini selain mudah dilakukan juga dapat menghindari kemungkinan terjadinya pengelompokkan aitem-aitem tertentu ke dalam salah satu belahan saja (Azwar, 2005).

(c). Pembelahan matched-random subtes

Pembelahan dengan cara matched-random subtes ditemukan oleh

Gulikksen tahun 1950 (dalam Azwar, 2005). Sebelum melakukan pembelahan tes terlebih dahulu harus dihitung indeks kesukaran aitem serta korelasi aitem dengan skor total tes. Dengan cara ini setiap aitem dalam tes diletakkan pada satu posisi atau titik tertentu dalam grafik berdasarkan harga indeks kesukaran aitem dan korelasi antara aitem yang bersangkutan dengan skor tes.


(38)

Selain beberapa cara pembelahan tes telah diuraikan, reliabilitas berdasarkan konsistensi internal juga dapat diestimasi dengan beberapa rumus (Azwar, 2005).

(a). Spearman-Brown

Rumus Spearman-Brown digunakan untuk metode split-half atau belah

dua (Kumar, 2009 dan Crocker & Algina, 2003). Rumus komputasi Spearman-Brown merupakan rumus koreksi terhadap koefisien korelasi antara dua bagian tes dan dirumuskan sebagai beikut (Azwar, 2005):

S-B = rxx’= (12)

Keterangan:

rxx’ =Koefisien reliabilitas Spearman-Brown

r1.2 = Koefisien korelasi antara dua belahan

(b). Koefisien Alpha

Cara-cara pembelahan dapat diperluas pemakaiannya untuk membagi tes menjadi beberapa belahan. Bahkan suatu tes yang akan diestimasi reliabilitasnya dapat dibelah menjadi bagian-bagian sebanyak jumlah aitemnya sehingga setiap bagian hanya berisi satu aitem saja. Koefisien Alpha akan lebih baik jika pembelahan paralel satu sama lain atau setidaknya dapat memenuhi asumsi τ

-equivalent. Rumusan rumus Alpha adalah sebagai berikut (Azwar, 2005):

α = (13)

Keterangan :

= banyaknya belahan tes = varians belahan j; j = 1, 2…k


(39)

= varians skor tes

Rumus ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap belahan memiliki aitem yang relatif setara, paralel atau setidaknya memenuhi asumsi τ-equivalent. Selain itu, aitem-aitem dalam tes haruslah homogen agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya.

(c). Kuder-Richardson 20 (KR-20)

KR 20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua yang mungkin dilakukan. Rumus ini juga disebut sebagai koefisien α-20. Koefisien ini mencerminkan sejauhmana kesetaraan isi aitem-aitem dalam tes. Rumusan rumus KR-20 adalah (Azwar, 2005):

(14)

Keterangan :

= banyaknya aitem dalam tes = varians skor tes

p = proporsi subjek yang mendapat angka 1 pada suatu aitem, yaitu banyaknya subjek yang mendapat angka 1 dibagi oleh banyaknya seluruh subjek yang menjawab aitem tersebut.

Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya.


(40)

(d). Kuder-Richardson 21

Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan aitem, Hal inilah yang membedakan antara KR-20 dengan KR-21. Rumusan KR-21 adalah (Azwar, 2005):

(15) Keterangan :

= banyaknya aitem dalam tes = rata-rata p yaitu,

= varians skor tes

Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem. Indeks kesukaran aitem haruslah setara satu sama lain agar estimasi reliabilitas mendekati nilai yang sesungguhnya. Jadi, indeks kesukaran aitem yang sangat bervariasi mengakibatkan estimasi reliabilitas akan lebih rendah dari pada menggunakan KR-20.

(e). Rulon

Rulon mengusulkan suatu formula komputasi untuk mengestimasi reliabilitas skor dengan pendekatan belah dua tanpa perlu berasumsi bahwa kedua belahan tersebut mempunyai sifat t-equivalent sepanjang jumlah aitem pada kedua

belahan adalah sama. Formula Rulon dirumuskan sebagai : 2

x 2

d S

S 1

r ' = − /

xx (16)


(41)

Keterangan : 2

d

S = Varians perbedaan skor kedua belahan 2

x

S = Varians skor tes

d = Perbedaan skor kedua belahan (c). Reliabilitas Skor Komposit

Ada kalanya skor tes sebagai deskripsi kuantitatif atribut dalam diri subjek tidak diperoleh langsung dari sekedar penjumlahan skor aitem-aitemnya, melainkan didapat dari komposisi atau penggabungan dari bebrapa skor. Beberapa skor tersebut dapat berupa skor dari bagian-bagian tes itu sendiri, yaitu komponen atau subtesnya, dapat pula berasal dari tes-tes yang berbeda sebagai suatu baterai instrumen. Dalam hal ini masing-masing komponen atau bagian tes akan memeberikan bobot yang tersendiri dalam menentukan skor tes (Azwar, 2012).

Bobor relatif suatu komponen ditentukan oleh besarnya sumbangan komponen tersebut dalam menentukan skor akhir, misalnya suatu komponen yang berisi lebih banyak aitem akan lebir besar bobotnya. Begitu pula suatu komponen yang mungkin aitemnya tidak banyak akan tetapi karena mempunyai tingkat kesukaran yang tinggi akan dapat diberi bobot yang besar. Skor akhir tes seperti itu merupakan suatu komposit, yaitu penggabungan skor beberapa komponen setelah melalui prosedur atau penyetaraan skor (Azwar, 2012).

Reliabilitas skor komposit ditentukan oleh reliabilitas skor komponennya. Banyaknya komponen yang membentuk skor tes akhir tidak terbatas pada dua atau tiga saja. Estimasi dapat dilakukan terhadap reliabilitas masing-masing komponen secara terpisah dan bila reliabilitas setiap komponen itu cukup tinggi maka dapat diharapkan bahwa skor kompositnya juga akan memiliki reliabilitas


(42)

yang tinggi (Azwar, 2012). Bila diinginkan untuk memperoleh estimasi tunggal terhadap skor komposit, dapat digunakan formula yang disarankan oleh Mosier (dalam Azwar, 2012), yaitu:

[

]

(

)

[

+

]

− − = jk k j k j j j jj j j j j xx r s s w w s w r s w s w 2

1 2 2

2 2 2 ' ' r (17) Keterangan :

Wj = bobot relatif komponen j

Wk= bobot relatif komponen k

Sj = deviasi standar komponen j

Sk = deviasi standar komponen k

rjj’ = koefisien reliabilitas tiap komponen

rjk = koefisien relatif antara dua komponen yang berbeda

c. Standar Error Pengukuran dan Interpretasi Koefisien Reliabilitas

Menurut Osterlind (2010), standar error pengukuran (SEM) mengindikasikan kesenjangan antara skor tampak dan skor murni. Standar error pengukuran juga didefenisikan sebagai standar deviasi sebuah distribusi dari keseluruhan skor untuk semua subjek. Karena teori mengasumsikan distribusi yang setara dan normal untuk semua subjek dalam populasi, standar error pengukuran bisa dipandang sebagai rata-rata standar deviasi pada keseluruhan mean skor.

Standar error pengukuran menyediakan informasi mengenai akurasi dari nilai mean sebagai perwakilan skor murni, sehingga bisa dikatakan bahwa mean tersebut adalah indikator dari error. Hal ini penting karena mengarah pandangan bahwa standar error pengukuran adalah indikasi reliabilitas. Standar error


(43)

pengukuran sering dimengerti sebagai analogi dari indeks reliabilitas. Indeks reliabilitas adalah pengukuran yang mengidikasikan kekurangan error, kebalikan dari SEM. Indeks reliabilitas didefenisikan sebagai korelasi sederhana antara bentuk-bentuk paralel sebuah tes (Osterlind, 2010).

Standar error pengukuran merupakan fungsi dari reliabilitas (dan sebaliknya) ketika standar deviasi sebuah tes telah diketahui. Hubungan ini, dalam CTT, antara standar error pengukuran dan reliabilitas sudah terlihat ketika standar deviasi tetap konstan pada seluruh rentang skor sebuah tes. Standar deviasi yang konstan juga terlihat ketika skor ditunjukkan sebagai skor standar dalam unit-unit standar deviasi (Osterlind, 2010).

Secara teoritik, koefisien reliabilitas berkisar antara 0 sampai 1, namun secara empirik koefisien reliabilitas tidak pernah mencapai 1. Artinya terdapat ketidakkonsistenan skor antara dua tes yang paralel yang disebabkan oleh eror yang mempengaruhi performa subjek dalam mengikuti tes atau perbedaan antara skor tampak dan skor murni subjek (Crocker & Algina, 2005). Penafsiran terhadap koefisien reliabilitas dapat dilakukan melalui penafsiran standar eror pengukuran (SEm), dengan rumusan sebagai berikut:

(18) Semakin tinggi koefisien reliabilitas suatu tes, maka kemungkinan kesalahan yang terjadi akan semakin kecil. Jadi, tidak ada harga mati dalam koefisien reliabilitas. Tinggi rendahnya koefisien reliabilitas sangat bergantung pada tujuan tes digunakan(Suryabrata, 2005).


(44)

Murphy dan Davidshofer (2003) menjelaskan bahwa makna tinggi atau rendahnya koefisien reliabilitas tergantung pada tipe dari tes yang dikategorikan sebagai berikut:

Tabel 3. Kategori Nilai Estimasi Koefisien Reliabilitas

Nilai estimasi reliabilitas

Bentuk Tes Interpretasi

0.95

Tes inteligensi

Eror pengukuran memiliki efek yang sangat rendah

0.90 Tinggi sampai sedang

0.85 Tes prestasi

0.80

0.75 Kelompok tes pilihan ganda Sedang sampai rendah

0.70 Skala

0.65 Rendah

0.60 Tes proyektif

0.55

0.50 Skor murni dan eror pengukuran

seimbang pada skor tes

d. Faktor-faktor yang Mempengaruhi Koefisien Reliabilitas

Crocker & Algina (2005) menjelaskan bahwa ada 3 hal utama yang secara tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu instrumen tes, yaitu:

1) Homogenitas Kelompok

Koefisien reliabilitas suatu tes akan dipengaruhi oleh variasi antara skor murni dan eror kelompok subjek atau skor tampak kelompok subjek. Semakin besar homogenitas kelompok semakin rendah nilai koefisien reliabilitas suatu tes dibandingkan dengan kelompok subjek yang heterogen.

2) Batasan Waktu dalam Tes

Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki indeks reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang lebih pendek. Hal tersebut dikarenakan performansi subjek pada tes yang lebih panjang waktunya akan lebih maksimal. Sementara pada tes yang memiliki waktu


(45)

lebih pendek, performansi subjek akan sangat ditentukan oleh banyak faktor, termasuk kelelahan dan performansi subjek lain yang mengikuti tes tersebut. 3) Panjang Tes

Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya aitem-aitem yang menyusun tes tersebut. Semakin banyak aitem yang memiliki kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas tes tersebut.

4. Validitas

a. Pengertian Validitas

Menurut Osterlind (2010), validitas merupakan inti dari pengujian mental. Validitas berarti bahwa informasi yang diungkap oleh sebuah tes adalah informasi yang sesuai, bermakna, dan berguna untuk pengambilan keputusan yang merupakan tujuan pengukuran mental. Standards Text (dalam Osterlind, 2010)

mendeskripsikan bahwa validitas adalah pertimbangan yang paling fundamental dalam mengembangkan dan mengevaluasi tes dimana validitas mengarah pada sejauh mana bukti dan teori mendukung interpretasi skor tes berdasarkan tujuan penggunaan tes. Garrett (dalam Osterlind, 2010) mengatakan bahwa validitas suatu tes merupakan tingkat dimana suatu alat tes mengukur apa yang hendak diukurnya.

Kumar (2009) menyatakan validitas suatu tes mengambarkan ketepatan alat ukur mengukur apa yang akan diukur dengan membandingkan alat ukur tersebut dengan standar atau kriteria yang telah ditetapkan. Menurut Azwar (2005), validitas mempunyai arti sejauhmana ketepatan dan kecermatan suatu alat ukur dalam menjalankan fungsi ukurnya. Suatu tes atau instrumen pengukuran


(46)

dapat dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannnya pengukuran tersebut, sehingga pengertian validitas terlihat berkaitan sangat erat dengan tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Pernyataan valid terhadap suatu pengukuran harus diikuti oleh keterangan yang menunjuk kepada tujuan awal pengukuran serta kelompok subjek yang mana yang hendak diukur (Azwar, 2005).

b. Sumber-sumber Bukti Validitas

Bukti-bukti validitas harus terkumpul dari banyak sumber ketika akan mengevaluasi validitas. Sumber-sumber ini memberikan informasi mengenai tingkat kepercayaan untuk membuat kesimpulan-kesimpulan berdasarkan skor dalam situasi tertentu (Osterlind, 2010). Beberapa bukti yang mendukung dalam mengevaluasi validitas diberikan dalam Standards for Educational and

Psychological Testing/Standards text (American Educational Research

Association, dkk, 1999, dalam Osterlind 2010). 1) Bukti Validitas Berdasarkan Isi Tes

Mengevaluasi bukti untuk kesimpulan yang valid dari skor tes hampir selalu memasukkan informasi mengenai isi dari suatu pengukuran yang secara khusus mengarah pada content domain (dalam pengukuran berdasarkan domain)

atau konstruk (dalam model trait tersembunyi). Banyak fungsi mental, seperti IQ dan proses psikologi lainnya, yang bisa diterangkan sebagai pengukuran konstruk, trait, atau domain. Ketika menilai konstruk psikologis yang tidak mudah untuk dijelaskan maka akan muncul masalah khusus, misalnya pengukuran IQ. Studi


(47)

tentang inteligensi manusia penuh dengan pemikiran dan teori yang berlainan tentang apa yang termasuk dan tidak termasuk. Dalam hal ini spesifikasi konstruk dibutuhkan dalam tujuan yang berbeda. Ketika membangun sebuah instrumen, seringkali orang yang mengembangkan tes mengkombinasikan deskripsi isi tes dan jenis proses respon dalam sebuah blueprint tes, dimana blueprint ini bisa

menjadi dokumen yang sangat berguna bagi pengguna tes ketika akan mengevaluasi validitas berdasarkan isi tes. Menurut Azwar (2005), Validitas isi menunjukkan sejauhmana aitem-aitem dalam tes mencakup keseluruhan kawasan isi objek atau ciri atribut yang hendak diukur. Validitas isi ini diestimasi lewat pengujian terhadap isi tes dengan analisis rasional atau lewat professional

judgement. Dengan kata lain validitas isi sangat tergantung pada penilaian

subjektif subjekal dan tidak melibatkan perhitungan statistik. 2) Bukti Validitas Berdasarkan Proses Respon

Pengujian mental atau proses kognitif digunakan untuk mengungkap respon terhadap stimulus pengukuran adalah sumber lain untuk bukti validitas. Beberapa metode berdasarkan variabel-variabel laten dan proses kausal sebuah konstruk mungkin memasukkan analisis variabel laten, structural equation

modeling (SEM), Hierarchical linear modeling(HLM), dan beberapa

meta-analisis. Metode-metode ini juga bisa mengungkap informasi penting mengenai proses respon subjek.

3) Bukti Validitas Berdasarkan Struktur Internal

Struktur internal tes sangat berhubungan dengan pembuatan kesimpulan yang sesuai dan terpercaya mengenai konstruk yang sedang diukur. Ada beberapa metode psikometri yang bisa secara empiris menginvestigasi struktur internal,


(48)

tetapi tidak ada satu metode pun yang dianggap terbaik secara umum. Kesesuaian metode yang digunakan tergantung pada konteks dimana tes dikembangkan, bagaimana tes tersebut digunakan dan keputusan apa yang ingin diinformasikan. Beberapa cara yang relevan untuk mempelajari pengukuran struktur internal sebagai berikut :Analisis faktor, analisis kluster, analisis komponen prinsipal, konfirmasi teori psikologi: faktor analisis konfirmatori, multitrait-multimethod matrix, teknik estimasi parameter kemampuan (IRT), strategi-strategi yang melibatkan teori kemampuan-generalisasi.

Model faktor umum (common factor model) adalah teori satu faktor dari

Charles Spearman mengenai sebuah tes berisi aitem-aitem yang umum dan memiliki pengaruh yang unik. Dalam situasi praktis untuk validasi tes, model faktor umum diukur dengan menggunakan analisis faktor (factor analysis) atau

analisis komponen prinsipal (principal component analysis, PCA). Inti prosedur

ini adalah untuk mengurangi varians total diantara aitem-aitem dalam sebuah matriks kovarians sehingga jumlahnya bisa diestimasi.

Menurut Azwar (2012), analisis faktor merupakan metode statistik yang berisi kumpulan prosedur matematik yang kompleks dalam pengembangan alat ukur untuk menganalisis adanya saling hubungan di antara variabel-variabel dan menjelaskan saling hubungan tersebut dalam bentuk kelompok variabel yang terbatas yang disebut faktor. Oleh karena validitas ini ditegakkan melalui prosedur analisis faktor maka disebut sebagai validitas faktorial. Menurut Field (2009), analisis faktor digunakan untuk melihat hubungan atau korelasi antara komponen-komponen aitem dengan variabel laten yang mendasari.


(49)

Sebuah faktor adalah kombinasi aitem-aitem tes yang diyakini sebagai suatu kumpulan. Aitem-aitem yang berhubungan membentuk sebagian dari konstruk dan dikelompokkan bersama, aitem-aitem yang tidak berhubungan tidak membentuk bagian dari konstruk dan harus dikeluarkan dari kelompoknya (Munro, dalam Azwar, 2012).

Analisis faktor memiliki dua jenis prosedur yang dilandasi oleh dasar pemikiran yang agak berbeda, yaitu analisis faktor eksploratori (exploratory

factor analysis, EFA) dan analisis faktor konfirmatori (confirmatory factor

analysis, CFA). Prosedur faktor analisis eksploratori membantu pengembang tes

dalam mengenali dan mengidentifikasi berbagai faktor yang membentuk suatu konstruk dengan cara menemukan varians skor terbesar dengan jumlah faktor yang paling sedikit yang dinyatakan dalam bentuk eigenvalue > 1,0 (Azwar,

2012). Prosedur analisis faktor konfirmatori biasanya akan menindaklanjuti hasil EFA dengan menyertakan dasar teori yang melandasi bangunan tes tersebut agar dapat menguji validitas konstruknya lebih lanjut. Jadi, CFA menguji sejauhmana model statistik yang dipakai sesuai dengan data empirik (Waltz dkk., dalam Azwar, 2012). Analisis faktor konfirmatori hampir selalu digunakan dalam proses pengembangan instrument untuk menguji struktur laten suatu tes, dalam hal ini CFA digunakan untuk memverifikasi banyaknya dimensi yang mendasari bangunan suatu tes dan pola hubungan antara aitem dengan faktor (factor loading

atau yang disebut muatan faktor)(Brown, dalam Azwar, 2012).

Pada prosedur analisis faktor, tes yang dipengaruhi oleh faktor-faktor tertentu disebut sebagai tes yang memiliki muatan faktor (factor loading) yang


(50)

koefisien korelasi. Bila faktor-faktor tidak berkorelasi satu sama lain maka muatan faktor bukanlah koefisien korelasi akan tetapi seringkali diinterpretasikan seakan-akan koefisien korelasi (Azwar, 2012).

Analisis struktur faktor dilakukan untuk melihat struktur internal tes sebagai dukungan terhadap validitas model persamaan structural yang digunakan dalam konstruksi tes yang bersangkutan (Azwar, 2012). Untuk tujuan tersebut digunakan prosedur common factor analysis sebagai salahsatu metode pengujian

model, terutama yang mengikuti anggapan bahwa satu konstruk dasar akan menghasilkan skor tampak (Aneshensel, dalam Azwar 2012). Bila model yang diajukan ternyata cocok dengan data skor subjek, berarti struktur internal tes adalah valid (Azwar, 2012)

Metode multitrait-multimatriks secara konseptual mirip dengan analisis faktor yang merupakan prosedur untuk menganalisis hubungan dan menentukan pola-pola data. Metode ini bisa menyediakan bukti validitas yang berguna untuk evaluasi struktur internal. Dalam menggunakan metode ini harus berhati-hati untuk menghindari kesalahan-kesalahan yang membingungkan informasi dari metode multitrait-multimethod dengan yang diungkap melalui analisis faktor (Osterlind, 2010). Campbell dan Fiske (dalam Azwar, 2012) telah mengembangkan pendekatan ini yang dapat digunakan bilamana terdapat dua trait atau lebih yang diukur oleh dua macam metode atau lebih. Dasar pemikiran dalam proses validasi ini adalah bahwa validitas yang baik diperlihatkan oleh adanya korelasi yang tinggi di antara hasil pengukuran terhadap trait yang sama oleh beberapa metode yang berbeda (convergent validity), atau sebaliknya tidak adanya


(51)

korelasi di antara hasil pengukuran terhadap beberapa trait yagn berbeda sekalipun diukur menggunakan metode yang serupa (discriminant validity).

4) Bukti Validitas Berdasarkan Hubungan dengan Variabel Lain

Hubungan antara skor tes dan kriteria yang diuji sering diidentifikasi dengan melabel bukti kriteria sebagai bukti prediktif atau konkuren dalam validitas. Kedua jenis bukti ini menunjukkan kemunculan hubungan antara tes dan sebuah kriteria eksternal, perbedaanya hanya waktu kapan pengukuran hubungan korelasional. Bukti prediktif juga adalah sebuah indikator yang muncul dari perbandingan antara sebuah tes dengan tes di masa depan atau kriteria administrasi posttest. Dalam mengevaluasi validitas, masalah muncul ketika sebuah hubungan korelasional adalah sumber utama dalam bukti validitas. Kesulitan muncul dari fakta bahwa dalam CTT, skor murni hanya bisa didapat secara teoritis dan tidak bisa diketahui secara pasti. Dalam dunia praktis, terbukti bahwa reliabilitas korelasional sebagai bukti kriteria untuk validitas tes, ditekan oleh derajat eror pengukuran dalam kriteria. Keadaan ini disebut sebagai masalah kriteria. Masalah kriteria adalah ketika reliabilitas kriteria bergantung pada hubungan korelasional dengan kriteria eksternalnya.

5) Bukti Validitas Berdasarkan Pertimbangan-pertimbangan Eksternal Validitas Tampang sebagai Sumber Bukti

Validitas tampang berarti bahwa peserta tes yang melihat instrumen tes untuk pertama kali seharusnya tidak terkonfrontasi dengan dokumen yang tidak lazim, sering terjadi karena persiapan yang tidak profesional. Validitas tampang


(52)

tidak bisa diuji dengan metode statistik, bukan berarti validitas tampang bisa dianggap rendah. Memberikan sebuah instrumen tes yang memiliki tampilan profesional pada peserta tes adalah tanggung jawab validitas pembuat tes.

c. Interpretasi Koefisien Validitas

Interpretasi koefisien validitas bersifat relatif. Tidak ada batasan universal yang mengarah kepada angka minimal yang harus dipenuhi agar suatu tes dikatakan valid. Menurut Cronbach (dalam Azwar, 2005) koefisien validitas yang baik adalah yang tertinggi yang bisa didapatkan. Jadi tidak ada batasan. Hal yang menjadi pertimbangan adalah sejauh mana tes tersebut dapat bermanfaat dalam pengambilan keputusan. Tes yang berfungsi untuk memprediksi hasil suatu prosedur seleksi dapat dikatakan memberikan kontribusi yang baik jika koefisien validitas berkisar antara 0,3 sampai dengan 0,5. Menurut Azwar (2005) koefisien validitas yang tidak begitu tinggi, sekitar 0,5 akan lebih dapat diterima dan dianggap memuaskan dan koefisien validitas yang kurang dari 0,3 biasanya dianggap tidak memuaskan. Sedangkan dalam penggunaan analisis faktor konfirmatori dengan bantuan program Lisrel 8.30, suatu aitem dikatakan memiliki validitas yang baik jika memenuhi dua nilai muatan faktor, yaitu t-values dan

standardize loading factor (muatan faktor standar) dengan batasan nilai kritikal

tertentu. Jika nilai dari t-values <1,96 berarti estimasi muatan faktor tersebut

tidak signifikan dan variabel teramati terkait bisa dihaput dari model. Sedangkan jika muatan faktor standar <0.50 makan variabel teramati tersebut bisa dihapus dari model (Wijanto, 2008). Suatu aitem dapat dikatakan valid jika kedua nilai muatan faktor tersebut terpenuhi


(53)

C. Analisis Karakteristik Psikometri Alat Ukur

Alat ukur terdiri dari aitem-aitem yang dirancang untuk tujuan tertentu. Aitem dapat dikatakan memiliki kualitas yang baik jika aitem memiliki karakteristik psikometri yang baik pula (Azwar, 2007). Aitem berkualitas baik atau tidak dapat kita ketahui melalui analisis karakteristik psikometri terhadap aitem tersebut. Analisis terhadap aitem-aitem dalam suatu alat ukur pada awalnya akan memberikan tiga informasi, yaitu informasi tentang distraktor, indeks kesukaran aitem dan indeks diskriminasi aitem (Murphy & Davidshofer, 2003). Ketiga karakteristik tersebut akan saling mempengaruhi terhadap reliabilitas dan valididtas alat ukur. Tetapi penelitian ini hanya memberi informasi karakteristik indeks kesukaran aitem dan indeks diskriminasi aitem.

Indeks kesukaran aitem secara langsung akan mempengaruhi indeks diskriminasi aitem. Ketika aitem sangat susah (p = 0) atau aitem sangat mudah (p = 1), maka aitem tidak akan dapat membedakan antara subjek yang memiliki pengetahuan dan subjek yang tidak memiliki pengetahun sehingga indeks diskriminasi aitem menjadi rendah (Murphy & Davidshofer, 2003). Menurut Kumar (2009), indeks diskriminasi yang rendah dapat mempengaruhi validitas aitem tersebut yang kemudian akan mempengaruhi validitas tes secara keseluruhan. Ketika aitem mengukur fungsi ukur dengan tepat, maka aitem akan dapat membedakan antara kelompok yang memiliki atribut yang hendak diukur dan yang tidak memiliki atribut yang hendak diukur sehingga aitem dapat dikatakan valid.

Koefisien reliabilitas suatu tes juga akan dipengaruhi oleh indeks kesukaran aitem dalam tes tersebut. Ketika indeks kesukaran aitem tidak relatif


(54)

setara satu sama lain atau sangat bervariasi maka koefisien reliabilitas akan rendah (Azwar, 2005). Pada beberapa kondisi, tes yang reliabel belum tentu valid, karena reliabilitas tes juga dipengaruhi oleh eror, tetapi tes yang valid sudah pasti reliabel (Azwar, 2005).

D. Culture Fair Intelligence Test (CFIT) Skala 3B 1. Sejarah dan Perkembangan CFIT

Spearman (1927) menyusun faktor analisis pertama terhadap kemampuan-kemampuan dan mengatakan bahwa kemampuan-kemampuan-kemampuan-kemampuan tersebut dapat dijelaskan dalam sebuah faktor umum (general factor) yang disebut “g” yang

mengarah pada kecerdasan umum (Coaley, 2010). Menurut Spearman, kecerdasan terdiri dari satu faktor umum ditambah sejumlah faktor-faktor spesifik di dalamnya (Kaplan & Saccuzo, 2005). Dalam perkembangannya, Cattel menemukan bahwa kecerdasan bukan merupakan satu konsep tunggal tetapi terdiri dari dua komponen. Cattel membenarkan bahwa kecerdasan umum (general intelligence) memang ada tetapi dia mengatakan bahwa kecerdasan

umum terdiri dari dua hal yang berhubungan tetapi berbeda, yaitu fluid

intelligence dan crystallized intelligence.Fluid intelligence lebih ditentukan secara

genetis sehingga lebih bebas budaya. Cattel memandang bahwa fluid intelligence

sebagai kemampuan logika primer yang berhubungan dengan masalah-masalah abstrak dan lebih terlibat dalam proses adaptasi. Sebaliknya, crystallized

intelligence berkembang dari latihan terhadap fluid intelligence dalam lingkungan

tertentu. (Coaley, 2010).

Semua budaya cenderung menguatkan keahlian dan aktifitas tertentu. Salahsatu tujuan tes performansi nonverbal adalah untuk mengurangi faktor-faktor


(55)

yang berhubungan dengan pengaruh budaya sehingga bisa diukur kecerdasan yang bebas dari proses belajar, budaya, dan sebagainya (Kaplan & Saccuzo, 2005).

Culture Fair Intelligence Test adalah pengukuran nonverbal terhadap fluid

intelligence yang diciptakan oleh Raymond B. Cattel. Tujuan dari CFIT adalah

untuk mengukur fluid intelligence (kemampuan analisis dalam situasi abstrak)

dalam pola yang sebebas mungkin dari pengaruh budaya (Gregory, 2000). Culture

Fair Intelligence Test dirancang untuk memberikan sebuah estimasi kecerdasan

yang relatif bebas dari pengaruh bahasa dan budaya (Kaplan & Saccuzo, 2005) Salah satu tujuan tes instrument CFIT ini adalah untuk meminimalisir pengaruh-pengaruh yang tidak relevan dari pembelajaran budaya dan sosial sehingga dihasilkan pemisahan yang lebih bersih terhadap kemampuan alami dari pembelajaran yang spesifik (IPAT dalam Gregory, 2000). Awalnya tes ini dinamakan Culture Free Intelligence Test. Nama tes ini berubah setelah diketahui

bahwa pengaruh budaya tidak bisa dihilangkan seutuhnya dari tes inteligensi (Gregory, 2000).

Culture Fair Intelligence Test telah direvisi beberapa kali, dan bentuk

yang sekarang muncul setelah revisi pada tahun 1961. Test ini berisi tiga versi: Skala 1 untuk anak usia 4-8 tahun dan untuk dewasa dengan gangguan mental; skala 2 untuk anak usia 9-13 tahun dan untuk dewasa dengan kecerdasan rata-rata; Skala 3 untuk siswa SMA dan perguruan tinggi dan untuk dewasa dengan kecerdasan tinggi. Skala 1 melibatkan interaksi antara tester dan testee sehingga harus diadministrasikan secara subjekal, sedangkan Skala 2 dan 3 merupakan tes kelompok dan kedua skala ini berbeda dalam tingkat kesulitan. Pada setiap skala terdapat dua bentuk yang setara disebut Bentuk A dan Bentuk B. Setiap bentuk


(56)

berisi 4 subtes : Seri, Klasifikasi, Matriks, dan Kondisi/topologi. Tiap subtes memiliki batasan waktu. CFIT merupakan speed test, dengan waktu 30 menit

untuk skala 2 dan 3, tetapi hanya diberikan 12,5 menit pada tes sebenarnya (Gregory, 2000).

Reliabilitas CFIT melalui tes-retes, bentuk alternatif, dan konsitensi internal pada umumnya 0,70an pada skala 2 dan 3. Dalam hal validitas, CFIT berkorelasi sekitar 0,80an dengan faktor umum inteligensi dan menunjukkan hubungan yang kuat sekitar 0,70an dan 0,80an dengan alat ukur inteligensi yang umum dipakai seperti: WAIS, WISC, Raven PM, Stanford-Binet, Otis, dan

General Aptitude Test (IPAT pada tahun 1973, dalam Gregory, 2000). Dari sini

dapat dikatakan bahwa CFIT dirancang dengan baik, berguna, dan valid sebagai tes inteligensi (Gregory, 2000). Lembaga Pengembangan Sarana Pengukuran dan Pendidikan Psikologi Fakultas Psikologi Universitas Indonesia (LPSP3 UI) (“Buku Petunjuk Penggunaan CFIT, 2013) melakukan pengujian reliabilitas menggunakan 1.843 data dengan menggunakan data dari tahun 2005 hingga 2007 yang sebagian besar berasal dari hasil seleksi dan penempatan dalam pendidikan (seperti masuk sekolah atau penjurusan SMA) maupun pekerjaan. Karena CFIT skala 3 dimaksudkan untuk mengukur sebuah kemapuan intelektual umum atau faktor “g”, maka perlu dilakukan pengujian reliabilitas dengan metode konsistensi internal menggunakan formula Cronbach. Diperoleh koefisien Alpha-Cronbach sebesar 0,786 (Mean = 26,87, SD = 5,854). Menurut Murphy dan Davishofer (2001), koefisien reliabilitas sebesar 0,7 tergolong rendah.


(1)

Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file sub2.dat Page 1

Item Statistics Alternative Statistics --- ---

Seq. Scale Prop. Point Prop. Point No. -Item Correct Biser. Biser. Alt. Endorsing Biser. Biser. Key

---- --- --- --- --- --- --- --- --- --- 1 0-1 0.814 0.753 0.518 1 0.814 0.753 0.518 *

2 0.000 -9.000 -9.000 Other 0.186 -0.753 -0.518 2 0-2 0.738 0.737 0.546 1 0.738 0.737 0.546 *

2 0.000 -9.000 -9.000 Other 0.262 -0.737 -0.546 3 0-3 0.793 0.805 0.568 1 0.793 0.805 0.568 *

2 0.000 -9.000 -9.000 Other 0.207 -0.805 -0.568 4 0-4 0.584 0.599 0.474 1 0.584 0.599 0.474 *

2 0.000 -9.000 -9.000 Other 0.416 -0.599 -0.474 5 0-5 0.705 0.661 0.500 1 0.705 0.661 0.500 *

2 0.000 -9.000 -9.000 Other 0.295 -0.661 -0.500 6 0-6 0.763 0.630 0.457 1 0.763 0.630 0.457 *

2 0.000 -9.000 -9.000 Other 0.237 -0.630 -0.457 7 0-7 0.675 0.151 0.116 1 0.675 0.151 0.116 *

2 0.001 0.056 0.005 Other 0.325 -0.151 -0.116 8 0-8 0.453 0.459 0.365 1 0.453 0.459 0.365 *

2 0.000 -9.000 -9.000 Other 0.547 -0.459 -0.365 9 0-9 0.219 0.542 0.387 1 0.219 0.542 0.387 *

2 0.000 -9.000 -9.000 Other 0.781 -0.542 -0.387 10 0-10 0.222 0.178 0.128 1 0.222 0.178 0.128 *

2 0.000 -9.000 -9.000 Other 0.778 -0.178 -0.128 11 0-11 0.216 0.608 0.433 1 0.216 0.608 0.433 *

2 0.000 -9.000 -9.000 Other 0.784 -0.608 -0.433


(2)

Item Statistics Alternative Statistics --- ---

Seq. Scale Prop. Point Prop. Point No. -Item Correct Biser. Biser. Alt. Endorsing Biser. Biser. Key

---- --- --- --- --- --- --- --- --- --- 12 0-12 0.182 0.412 0.282 1 0.182 0.412 0.282 *

2 0.000 -9.000 -9.000 Other 0.818 -0.412 -0.282 13 0-13 0.165 0.414 0.277 1 0.165 0.414 0.277 *

2 0.000 -9.000 -9.000 Other 0.835 -0.414 -0.277 14 0-14 0.043 0.105 0.047 1 0.043 0.105 0.047 *

2 0.000 -9.000 -9.000 Other 0.957 -0.105 -0.047

MicroCAT (tm) Testing System Copyright (c) 1982, 1984, 1986, 1988 by Assessment Systems Corporation

Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file sub2.dat Page 3

There were 1623 examinees in the data file.

Scale Statistics --- Scale: 0 --- N of Items 14 N of Examinees 1623

Mean 6.572 Variance 4.738 Std. Dev. 2.177 Skew -0.441 Kurtosis 0.079 Minimum 0.000 Maximum 12.000

Median 7.000 Alpha 0.520 SEM 1.508 Mean P 0.469 Mean Item-Tot. 0.364


(3)

Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file subtes3.dat Page 1

Item Statistics Alternative Statistics --- ---

Seq. Scale Prop. Point Prop. Point No. -Item Correct Biser. Biser. Alt. Endorsing Biser. Biser. Key

---- --- --- --- --- --- --- --- --- --- 1 0-1 0.931 0.673 0.352 1 0.931 0.673 0.352 *

2 0.000 -9.000 -9.000 Other 0.069 -0.673 -0.352 2 0-2 0.807 0.750 0.521 1 0.807 0.750 0.521 *

2 0.000 -9.000 -9.000 Other 0.193 -0.750 -0.521 3 0-3 0.842 0.669 0.443 1 0.842 0.669 0.443 *

2 0.000 -9.000 -9.000 Other 0.158 -0.669 -0.443 4 0-4 0.559 0.567 0.450 1 0.559 0.567 0.450 *

2 0.000 -9.000 -9.000 Other 0.441 -0.567 -0.450 5 0-5 0.136 0.502 0.319 1 0.136 0.502 0.319 *

2 0.000 -9.000 -9.000 Other 0.864 -0.502 -0.319 6 0-6 0.861 0.662 0.424 1 0.861 0.662 0.424 *

2 0.000 -9.000 -9.000 Other 0.139 -0.662 -0.424 7 0-7 0.591 0.615 0.486 1 0.591 0.615 0.486 *

2 0.000 -9.000 -9.000 Other 0.409 -0.615 -0.486 8 0-8 0.456 0.475 0.378 1 0.456 0.475 0.378 *

2 0.000 -9.000 -9.000 Other 0.544 -0.475 -0.378 9 0-9 0.168 0.268 0.180 1 0.168 0.268 0.180 *

2 0.000 -9.000 -9.000 Other 0.832 -0.268 -0.180 10 0-10 0.057 0.311 0.154 1 0.057 0.311 0.154 *

2 0.000 -9.000 -9.000 Other 0.943 -0.311 -0.154 11 0-11 0.070 0.390 0.205 1 0.070 0.390 0.205 *

2 0.000 -9.000 -9.000 Other 0.930 -0.390 -0.205


(4)

Item Statistics Alternative Statistics --- ---

Seq. Scale Prop. Point Prop. Point No. -Item Correct Biser. Biser. Alt. Endorsing Biser. Biser. Key

---- --- --- --- --- --- --- --- --- --- 12 0-12 0.068 0.251 0.131 1 0.068 0.251 0.131 *

2 0.000 -9.000 -9.000 Other 0.932 -0.251 -0.131 13 0-13 0.063 0.059 0.030 1 0.063 0.059 0.030 *

2 0.000 -9.000 -9.000 Other 0.937 -0.059 -0.030

MicroCAT (tm) Testing System Copyright (c) 1982, 1984, 1986, 1988 by Assessment Systems Corporation

Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file subtes3.dat Page 3

There were 1623 examinees in the data file.

Scale Statistics --- Scale: 0 --- N of Items 13 N of Examinees 1623

Mean 5.608 Variance 2.431 Std. Dev. 1.559 Skew -0.484 Kurtosis 0.231 Minimum 0.000 Maximum 10.000

Median 6.000 Alpha 0.322 SEM 1.284 Mean P 0.431 Mean Item-Tot. 0.313


(5)

Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file subtes4.dat Page 1

Item Statistics Alternative Statistics --- ---

Seq. Scale Prop. Point Prop. Point No. -Item Correct Biser. Biser. Alt. Endorsing Biser. Biser. Key

---- --- --- --- --- --- --- --- --- --- 1 0-1 0.801 0.732 0.511 1 0.801 0.732 0.511 *

2 0.000 -9.000 -9.000 Other 0.199 -0.732 -0.511 2 0-2 0.891 0.761 0.456 1 0.891 0.761 0.456 *

2 0.000 -9.000 -9.000 Other 0.109 -0.761 -0.456 3 0-3 0.466 0.676 0.539 1 0.466 0.676 0.539 *

2 0.000 -9.000 -9.000 Other 0.534 -0.676 -0.539 4 0-4 0.287 0.578 0.435 1 0.287 0.578 0.435 *

2 0.000 -9.000 -9.000 Other 0.713 -0.578 -0.435 5 0-5 0.393 0.616 0.485 1 0.393 0.616 0.485 *

2 0.000 -9.000 -9.000 Other 0.607 -0.616 -0.485 6 0-6 0.332 0.578 0.446 1 0.332 0.578 0.446 *

2 0.000 -9.000 -9.000 Other 0.668 -0.578 -0.446 7 0-7 0.288 0.392 0.296 1 0.288 0.392 0.296 *

2 0.000 -9.000 -9.000 Other 0.712 -0.392 -0.296 8 0-8 0.294 0.509 0.385 1 0.294 0.509 0.385 *

2 0.000 -9.000 -9.000 Other 0.706 -0.509 -0.385 9 0-9 0.286 0.617 0.465 1 0.286 0.617 0.465 *

2 0.000 -9.000 -9.000 Other 0.714 -0.617 -0.465 10 0-10 0.213 0.446 0.316 1 0.213 0.446 0.316 *

2 0.000 -9.000 -9.000 Other 0.787 -0.446 -0.316 MicroCAT (tm) Testing System


(6)

Scale Statistics --- Scale: 0 --- N of Items 10 N of Examinees 1623

Mean 4.251 Variance 3.637 Std. Dev. 1.907 Skew 0.143 Kurtosis -0.167 Minimum 0.000 Maximum 10.000

Median 4.000 Alpha 0.514 SEM 1.329 Mean P 0.425 Mean Item-Tot. 0.433