Karakteristik Psikometri Subtes Wortauswahl (WA) Pada Intelligenz Struktur Test (IST)

(1)

KARAKTERISTIK PSIKOMETRI SUBTES WORTAUSWAHL

(WA) PADA INTELLIGENZ STRUKTUR TEST (IST)

SKRIPSI

Diajukan untuk memenuhi persyaratan Ujian Sarjana Psikologi

Oleh:

DERMIKA SIRAIT

071301050

FAKULTAS PSIKOLOGI

UNIVERSITAS SUMATERA UTARA

GENAP, 2010/2011


(2)

SKRIPSI

KARAKTERISTIK PSIKOMETRI SUBTES WORTAUSWAHL

(WA) PADA INTELLIGENZ STRUCTURE TEST (IST)

Dipersiapkan dan disusun oleh :

DERMIKA SIRAIT

071301050

Telah dipertahankan di depan Dewan Penguji Pada tanggal 4 Maret 2011

Mengesahkan, Dekan Fakultas Psikologi

Prof. Dr. Dra. Irmawati, Psikolog, M.Si. NIP. 195301311980032001

Tim Penguji

1. Lili Garliah, M.Si. Penguji I/Pembimbing

NIP. 196006041986032002

2. Ika Sari Dewi, S.Spi, Psikolog Penguji II

NIP. 197809102005012001 3. Rahmi Putri Rangkuti, M. Psi. Penguji III


(3)

LEMBAR PERNYATAAN

Saya yang bertanda tangan di bawah ini menyatakan dengan sesungguhnya bahwa skripsi saya yang berjudul :

Karakteristik Psikometri Subtes Wortauswahl (WA) Pada Intelligenz Struktur Test (IST)

adalah hasil karya sendiri dan belum pernah diajukan untuk memperoleh gelar kasarjanaan di suatu perguruan tinggi manapun.

Adapun bagian-bagian tertentu dalam penulisan skripsi ini saya kutip dari hasil karya orang lain yang telah dituliskan sumbernya secara jelas sesuai dengan norma, kaidah, dan etika penulisan ilmiah.

Apabila di kemudian hari ditemukan adanya kecurangan di dalam skripsi ini, saya bersedia menerima sanksi dari Fakultas Psikologi Universitas Sumatera Utara sesuai dengan peraturan yang berlaku.

Medan, Februari 2011

DERMIKA SIRAIT NIM 071301050


(4)

Karakteristik Psikometri Subtes Wortauswahl (WA) Pada Intelligenz Struktur Test (IST)

Dermika Sirait dan Lili Garliah

ABSTRAK

Tes psikologi dibangun oleh sekumpulan aitem yang telah dirancang sedemikian rupa, baik itu berbentuk pertanyaan atau pernyataan mengenai sesuatu hal yang hendak diukur atau diungkap (Azwar, 2007). Oleh karena itu, kualitas sebuah alat tes sangat ditentukan oleh kualitas aitem-aitem pembangunnya. Suatu tes psikologi yang baik secara psikometri merupakan syarat mendasar untuk mencapai tujuan tes itu sendiri. Oleh karena itu adalah sangat penting untuk melakukan analisa karakteristik psikometri pada setiap alat tes psikologi yang digunakan. Tujuan dari penelitian ini adalah untuk menganalisis karakteristik psikometri subtes Wortauswahl (WA) pada Intelegenz Struktur Test (IST) yang digunakan di P3M Fakultas Psikologi Universitas Sumatera Utara, yang mencakup analisis indeks kesulitan aitem, indeks daya diskriminasi aitem, analisis efektivitas distraktor, analisis reliabilitas serta analisis validitas konstrak subtes WA.

Metode pengumpulan data yang digunakan dalam penelitian ini adalah metode dokumentasi, yaitu dengan menggunakan data yang didokumentasikan oleh Pusat Penelitian dan Pengabdian pada Masyarakat (P3M) Fakultas Psikologi Universitas Sumatera Utara, berupa respon jawaban subjek terhadap subtes Wortauswahl (WA) yang berjumlah total 2011 orang.

Secara keseluruhan, dengan menggunakan pendekatan teori skor murni klasik diperoleh bahwa dari total 20 aitem subtes WA, tidak ada satu pun yang memiliki taraf kesulitan tinggi, 16 aitem mampu membedakan antara individu yang memiliki dan yang tidak memiliki trait yang diukur, serta 17 aitem memiliki distraktor yang berfungsi secara efektif. Selain itu juga diperoleh indeks reliabilitas subtes WA α = 0.650, dimana indeks ini menunjukkan bahwa subtes tersebut sudah tidak reliabel. Validitas konstruk subtes WA juga dapat dilihat dengan mengkorelasikan skor subtes WA dengan 8 subtes WA lainnya, yang menghasilkan nilai korelasi maing-masing r(WA,SE) = 0.552, r(WA,AN) = 0.579, r(WA,GE) = 0.524, r(WA,RA) = 0.548, r(WA,ZR) = 0.546, r(WA,FA) = 0.379, r(WA,WU) = 0.384, r(WA,ME) = 0.540. Nilai korelasi ini menunjukkan bahwa subtes WA sudah konvergen dengan delapan subtes lainnya. Itu artinya WA sudah tidak valid mengukur konstrak yang dimaksud pada awalnya. Hasil akhirnya menunjukkan bahwa secara keseluruhan aitem-aitem subtes WA memerlukan revisi untuk dapat dipergunakan secara memuaskan sesuai dengan tujuannya.


(5)

Psychometric Characteristic of Wortauswahl (WA) Subtest in Intelligenz Struktur Test (IST)

Dermika Sirait and Lili Garliah

ABSTRACT

Psychology test consist of a group of item which have been designed in such a manner, in form of questions or statements about something that will be measured (Azwar, 2007). Therefore, the quality of a psychology test determined by it’s items constructor’s quality. A psychology test that good in psychometric is a basic condition to reach the purpose of its test instrument. That’s why that it is so important to analyzing the psychometric properties for each psychology test that be used. The aim of this study was to analyze the psychometric properties of Wortauswahl (WA) Subtest in Intelligenz Struktur Test (IST) that have been being used in Pusat Penelitian dan Pengabdian pada Masyarakat (P3M) faculty of Psychology, University of North Sumatera, include item difficulty index, item discrimination index, effectivity of distractor, instrument reliability and construct validity of Wortauswahl (WA) Subtest in Intelligenz Struktur Test (IST).

This study uses documentation method. The data was the score of Wortauswahl (WA) subtest from the documentation of Pusat Penelitian dan Pengabdian pada Masyarakat (P3M) faculty of Psychology, University of North Sumatera, namely the respon of subjects to Wortauswahl (WA) subtest. The data was collected from 2011 subjects.

Overall, using classical true score test theory approach we found that from total 20 items of Wortauswahl (WA) subtest, None of items that has high level of difficulty. 16 items pass of selection of item discrimination index, it’s mean that 16 items can discriminate between people who have and doesn’t have the trait measured. 17 items have effective distractor. Beside it, we found that Wortauswahl (WA) subtest has reliability index α = 0.650. It’s mean that WA subtest have not reliable. Construct validity of Wortauswahl (WA) subtest also can be seen in way correlate WA score subject with eight others. The value of correlation index indicate the construct validity of Wortauswahl (WA) subtest. They are r(WA,SE) = 0.552, r(WA,AN) = 0.579, r(WA,GE) = 0.524, r(WA,RA) = 0.548, r(WA,ZR) = 0.546, r(WA,FA) = 0.379, r(WA,WU) = 0.384, and r(WA,ME) = 0.540. The correlation index show that WA subtest have not valid to measure the aimed trait. The final result show that overall items of Wortauswahl (WA) subtest need to be revised so that can be used well according to early purpose of the test.


(6)

KATA PENGANTAR

Segala puji syukur dan hormat bagi Tuhan Yesus Kristus, Sang Juruselamat yang telah memberikan kekuatan dan menyertai saya selama dalam mengerjakan skripsi ini, sehingga saya dapat menyelesaikan skripsi ini tepat waktu. Tanpa penyertaanMu ya Tuhanku, saya tidak berarti apa-apa dan tidak akan sanggup berbuat apa-apa. Terimakasih ya Tuhanku, telah mempercayakan studi di Psikologi ini, dan biarlah apa yang kukerjakan selama ini menjadi persembahan yang teridah dihadapanMu.

Adapun judul skripsi ini adalah “Karakteristik Psikometri Subtes Wortauswahl (WA) pada Intelligenz Struktur Test (IST)”. Skripsi ini disusun dalam rangka memenuhi salah satu syarat untuk mencapai gelar Sarjana Psikologi Fakultas Psikologi Universitas Sumatera Utara, Medan. Selama dalam penyelesaian skripsi ini, penulis banyak mendapat bimbingan dan dukungan, baik material dan moral, dan tanpa bimbingan dan dukungan tersebut, penulis menyadari sangat sulit dalam menyelesaikan penuliksan skripsi ini.

Ppenghargaan dan ucapan terimakasih yang terdalam penulis ucapkan kepada orang-orang yang Tuhan percayakan mengisi hidupku. Terimakasih yang sedalam-dalamnya kepada:

1. Prof. Dr. Dra. Irmawati, Psikolog, M.Si. selaku dekan Fakultas Psikologi Universitas Sumatera Utara.

2. Kedua orangtuaku tercinta yang kubanggakan dan kuhormati, sumber inspirasiku sehingga aku bisa seperti sekarang ini, sumber semangatku,


(7)

kalian lah satu alasan yang membuatku semangat dalam mengerjakan studi ini, semua yang kukerjakan selama ini tidak lain dan tidak bukan hanyalah untuk membahagiakan kalian. Aku ingin membahagiakan kalian dan membuat kalian tersenyum.

3. Pusat Penelitian dan Pengabdian pada Masyarakat (P3M) Fakultas Psikologi Universitas Sumatera Utara, atas kesempatan dan kepercayaan yang diberikan kepada saya untuk mengadakan penelitian di lingkungan institusinya, terutama untuk Bapak Ari Widiyanta, S.Psi., M.Si., Psikolog selaku ketua P3M atas izinnya untuk membantu dalam penelitian ini.

4. Ibu Lili Garliah,M.Si.,psikolog dosen pembimbing skripsi saya yang begitu baik dan sabar membimbing saya. Terimakasih Ibuku untuk semua hal yang telah ibu berikan selama membimbing saya menyelesaikan skripsi ini. Terimakasih untuk saran, kesabaran, waktu, ”ketajaman” ibu, komentar, dukungan dan perhatian yang ibu curahkan untuk saya Ibu.

5. Untuk Ibu Ika Sari Dewi, S.Spi, Psikolog, selaku dosen penguji penulis. Terima kasih banyak ya Ibu atas kesediaan Ibu membimbing dan menguji saya.

6. Untuk Ka Rahmi Putri Rangkuti, selaku dosen penguji penulis. Terima kasih banyak juga ya Ka atas kesediaan Kakak membimbing dan menguji saya.


(8)

7. Untuk Ibu Etty Rahmawati, M.Si yang telah banyak membimbing dan membantu dalam penyelelesaian skripsi ini. Terimakasih Ibu buat semuanya.

8. Teman-teman seperjuangan, Kak Rena, Kiki, Princen dan Fitri Susanti yang telah banyak membantu dan berdiskusi demi penyelesaian penelitian paying ini, terimakasih juga buat kebersamaan kita selama ini.

9. Kak Arliza Lubis, selaku dosen pembimbing akademik sekaligus orangtua bagi saya selama kuliah di Fakultas Psikologi USU. Terima kasih atas segala bimbingan dan semangat yang Ibu berikan kepada saya.

10.Abangku Ojak Sirait, yang telah banyak membantu saya dalam studi, terutama dalam hal materi dan dukungan moral, terimakasih Abangku, semoga aku bisa membalas kebaikanmu Bang.

11.Abangku Marusaha, Tongam, Parlin dan juga Kakak ku Lamria serta Adikku tercinta Frengky. Terimakasih buat dukungan dan doa-doa kalian, aku menyayangi kalian semua.

12.B’Jhon Nerton yang memberikan dukungan dan semangat padaku, terimakasih buat dukungan dan cintamu Bang.

13.Untuk teman-teman ku yang kusayangi dan yang banyak memberikan dukungan dan motivasi pada penulis, Ita Novita (F.Psi 07), Erni (F.Psi 07), Arini (F.Psi 07), Lenny (F.Psi 07), Esna (F.Psi 07), Intan H M


(9)

(F.Psi 07), Iren (F.Psi 07), Didier (F.Psi 07), Desmi (F.Psi 07), Rora (F.Psi 07), Nela (F.Psi 07), K’Sustri (F.Psi 07), serta semua teman-teman anak-anak 20077 yang tidak bisa saya sebutkan satu persatu. Termakasih buat kebersamaan kita selama ini, dan terimakasih buat bantuan dan dukungan serta doa-doa kalian.

14.Untuk K’Devi (F.Psi 06), K’Olive (F.Psi 06) dan Iren (F.Psi 07) yang telah banyak memberikan dukungan moril kepada ku, terimakasih saudari-saudariku.

15.Untuk sahabatku Dessi Sianipar (Akuntansi Unimed’07), Paber Situngkir (FE USU 07), Lister (Unimed’07), Verawaty (Stikes’07), terimakasih banyak buat masukan dan dukungan serta bantuan kalian yah.

16.Untuk keluarga kecilku, senasib dan sepenanggungan Ka Dodo (Fisip USU’2010) dan Ka Yeyen, makasih banyak buat dukungan dan kebersamaan kita selamma ini. Semuanya tidak akan pernah terlupakan. 17.Seluruh penulis buku dan peneliti yang namanya tercantum dan menjadi

sumber referensi dalam skripsi ini.

Semoga Tuhan Yang Maha Kuasa memberikan balasan atas banntun yang diberikan dalam penulisan skripsi ini. Penulis juga menyadari bahwa tulisan ini masih jauh dari kesempurnaan. Untuk itu penulis meminta maaf dan sekaligus mengharapkan masukan dan kritikan yang bersifat membangun demi kebaikan pelaporan hasil peneliitan ini dimasa yang akan datang. Akhir


(10)

kata penulis mengharapkan semoga skripsi ini dapat bermanfaat bagi kita semua.

Medan, Maret 2011


(11)

DAFTAR ISI

ABSTRAK ... i

KATA PENGANTAR ... ii

DAFTAR ISI ... iii

DAFTAR TABEL... iv

DAFTAR RUMUS... v

DAFTAR LAMPIRAN... vi

BAB I PENDAHULUAN A. Latar Belakang ... 1

B. Perumusan Masalah ... 9

C. Tujuan Penelitian ... 10

D. Manfaat Penelitian ... 11

E. Sistematika Penelitian... 12

BAB II TINJAUAN PUSTAKA A. Classical True-score Theory ………. 13

1. Pengertian Classical True-score Theory ………. 13

2. Asumsi-asumsi dalam Classical True-score Theory …… 13

B. Analisis Karakteristik Psikometri ………. …. 15

1. Indeks Kesulitan Aitem ………. 16

a. Pengertian Indeks Kesulitan Aitem ………. 16

b. Analisis Indeks Kesulitan Aitem ………. 17


(12)

b. Analisis Indeks Diskriminasi Aitem ……….. 21

3. Efektivitas Distraktor……… 24

4. Reliabilitas ……… 25

a. Pengertian Reliabilitas ……… 25

b. Jenis-jenis Pendekatan Estimasi Reliabilitas………… 27

c. Analisis Koefisien Reliabilitas……….. 37

d. Interpretasi Koefisien Reliabilitas ……… 38

e. Faktor-faktor yang Mempengaruhi Reliabilitas ……… 40

5. Validitas ………. 41

a. Pengertian Validitas ……….. 41

b. Jenis-jenis Validitas………. 43

6. Hubungan Karakteristik Psikometri……… 46

C. Intelligenz Structure Test (IST)……… 47

D. Subtes Wortauswahl (WA)……… 51

a. Inductive Reasoning……….. 53

b. Categorization……… 54

c. Skoring dan Interpretasi WA………. 55

BAB III METODE PENELITIAN A. Jenis Penelitian……….. 57

B. Metode Pengumpulan Data ……… 57

C. Data Penelitian……….. 58

D. Prosedur dan Pelaksanaan Penelitian………. 58


(13)

F. Analisis Data……….. 61 BAB IV HASIL DAN PEMBAHASAN

A. Deskripsi Hasil

1. Analisis Indeks Kesulitan Aitem Subtes WA

2. Analisis Indeks Daya Diskriminasi Aitem Subtes WA. 3. Analisis Efektivitas Distraktor Subtes WA.

4. Seleksi Aitem Berdasarkan Indeks Kesulitan Aitem, Indeks Daya Diskriminasi Aitem dan Efektivitas Distraktor

5. Indeks Reliabilitas Subtes WA

6. Analisis Validitas Konstrak Subtes WA B. Pembahasan

1. Analisis Indeks Kesulitan Aitem Subtes WA

2. Analisis Indeks Daya Diskriminasi Aitem Subtes WA. 3. Analisis Efektivitas Distraktor Subtes WA.

4. Seleksi Aitem Berdasarkan Indeks Kesulitan Aitem, Indeks Daya Diskriminasi Aitem dan Efektivitas Distraktor

5. Indeks Reliabilitas Subtes WA

6. Analisis Validitas Konstrak Subtes WA BAB V KESIMPULAN DAN SARAN

1. Kesimpulan 2. Saran


(14)

DAFTAR TABEL

Halaman

Tabel 1 Kategori Tingkat Kesulitan Aitem

Tabel 2 Evaluasi Indeks Daya Diskriminasi Aitem

Tabel 3 Indeks kesulitan aitem subtes WA

Tabel 4 Analisis aitem berdasarkan nila p

Tabel 5 Indeks Daya Diskriminasi Aitem Subtes WA dengan metode extreme group

Tabel 6 Hasil Analisis Indeks Daya Diskriminasi Aitem Subtes WA dengan bantuan program Iteman.

Tabel 7 Analisis aitem berdasarkan nilai d

Tabel 8 Efektivitas Distraktor Subtes WA

Tabel 10 Seleksi Aitem Berdasarkan Indeks Kesulitan Aitem, Indeks Daya Diskriminasi Aitem dan Efektivitas Distraktor


(15)

DAFTAR FORMULA

Formula 1 Asumsi 1 CTT

Formula 2 Asumsi 2 CTT Formula 3 Asumsi 3 CTT

Formula 4 Asumsi 4 CTT

Formula 5 Asumsi 5 CTT

Formula 6 Indeks Kesulitan Aitem

Formula 7 Indeks Diskriminasi Aitem

Formula 8 Bentuk sederhana dari formua Indeks Diskriminasi Aitem

Formula 9 Formula Poin Biserial

Formula 10 Formula Sperman Brown Formula 11 Formula Rulon

Formula 12 Formula Koefisien Alpha untuk Tes Belah Dua

Formula 13 Formula Koefisien Alpha untuk Tes Belah Lebih dari Dua Belahan Formula 14 Formula Flanagan

Formula 15 Formula KR-20 Formula 16 Formula KR-21

Formula 17 Bentuk lain Formula KR-21

Formula 18 Formula untuk Tes Belah Tiga (Formula Kristof) Formula 19 Formula Reliabilitas Hoyt

Formula 20 Formula Feldt

Formula 21 Interpretasi 3 Koefisien Reliabilitas Formula 22 Interpretasi 4 Koefisien Reliabilitas Formula 23 Interpretasi 5 Koefisien Reliabilitas Formula 24 Interpretasi 6 Koefisien Reliabilitas Formula 25 Standard error Pengukuran


(16)

DAFTAR LAMPIRAN

Halaman

Lampiran 1 DATA PENELITIAN

A. Tabulasi Respon Subjek terhadap Subtes WA pada IST

Lampiran 2 ANALISIS PARAMETER AITEM DENGAN

PROGRAM ITEMAN

A. Menyimpan Data dalam Bentuk NotePad/Fixed ASCII B. Membuat Syntax (Control Tile)

C. Membuka Lembar Kerja ITEMAN D. Membaca Hasil Analisis Iteman

E. Output Analisis Aitem Subtes WAdengan Iteman

Lampiran 3 OUTPUT ANALISIS KORELASI SUBTES RA

DENGAN 8 SUBTES LAINNYA PADA IST DENGAN BANTUAN SPSS VERSI 16 A. Transformasi Z Skor Subjek Pada 9 Subtes IST. B. Output Validitas Konstrak Subtes WA


(17)

Karakteristik Psikometri Subtes Wortauswahl (WA) Pada Intelligenz Struktur Test (IST)

Dermika Sirait dan Lili Garliah

ABSTRAK

Tes psikologi dibangun oleh sekumpulan aitem yang telah dirancang sedemikian rupa, baik itu berbentuk pertanyaan atau pernyataan mengenai sesuatu hal yang hendak diukur atau diungkap (Azwar, 2007). Oleh karena itu, kualitas sebuah alat tes sangat ditentukan oleh kualitas aitem-aitem pembangunnya. Suatu tes psikologi yang baik secara psikometri merupakan syarat mendasar untuk mencapai tujuan tes itu sendiri. Oleh karena itu adalah sangat penting untuk melakukan analisa karakteristik psikometri pada setiap alat tes psikologi yang digunakan. Tujuan dari penelitian ini adalah untuk menganalisis karakteristik psikometri subtes Wortauswahl (WA) pada Intelegenz Struktur Test (IST) yang digunakan di P3M Fakultas Psikologi Universitas Sumatera Utara, yang mencakup analisis indeks kesulitan aitem, indeks daya diskriminasi aitem, analisis efektivitas distraktor, analisis reliabilitas serta analisis validitas konstrak subtes WA.

Metode pengumpulan data yang digunakan dalam penelitian ini adalah metode dokumentasi, yaitu dengan menggunakan data yang didokumentasikan oleh Pusat Penelitian dan Pengabdian pada Masyarakat (P3M) Fakultas Psikologi Universitas Sumatera Utara, berupa respon jawaban subjek terhadap subtes Wortauswahl (WA) yang berjumlah total 2011 orang.

Secara keseluruhan, dengan menggunakan pendekatan teori skor murni klasik diperoleh bahwa dari total 20 aitem subtes WA, tidak ada satu pun yang memiliki taraf kesulitan tinggi, 16 aitem mampu membedakan antara individu yang memiliki dan yang tidak memiliki trait yang diukur, serta 17 aitem memiliki distraktor yang berfungsi secara efektif. Selain itu juga diperoleh indeks reliabilitas subtes WA α = 0.650, dimana indeks ini menunjukkan bahwa subtes tersebut sudah tidak reliabel. Validitas konstruk subtes WA juga dapat dilihat dengan mengkorelasikan skor subtes WA dengan 8 subtes WA lainnya, yang menghasilkan nilai korelasi maing-masing r(WA,SE) = 0.552, r(WA,AN) = 0.579, r(WA,GE) = 0.524, r(WA,RA) = 0.548, r(WA,ZR) = 0.546, r(WA,FA) = 0.379, r(WA,WU) = 0.384, r(WA,ME) = 0.540. Nilai korelasi ini menunjukkan bahwa subtes WA sudah konvergen dengan delapan subtes lainnya. Itu artinya WA sudah tidak valid mengukur konstrak yang dimaksud pada awalnya. Hasil akhirnya menunjukkan bahwa secara keseluruhan aitem-aitem subtes WA memerlukan revisi untuk dapat dipergunakan secara memuaskan sesuai dengan tujuannya.


(18)

Psychometric Characteristic of Wortauswahl (WA) Subtest in Intelligenz Struktur Test (IST)

Dermika Sirait and Lili Garliah

ABSTRACT

Psychology test consist of a group of item which have been designed in such a manner, in form of questions or statements about something that will be measured (Azwar, 2007). Therefore, the quality of a psychology test determined by it’s items constructor’s quality. A psychology test that good in psychometric is a basic condition to reach the purpose of its test instrument. That’s why that it is so important to analyzing the psychometric properties for each psychology test that be used. The aim of this study was to analyze the psychometric properties of Wortauswahl (WA) Subtest in Intelligenz Struktur Test (IST) that have been being used in Pusat Penelitian dan Pengabdian pada Masyarakat (P3M) faculty of Psychology, University of North Sumatera, include item difficulty index, item discrimination index, effectivity of distractor, instrument reliability and construct validity of Wortauswahl (WA) Subtest in Intelligenz Struktur Test (IST).

This study uses documentation method. The data was the score of Wortauswahl (WA) subtest from the documentation of Pusat Penelitian dan Pengabdian pada Masyarakat (P3M) faculty of Psychology, University of North Sumatera, namely the respon of subjects to Wortauswahl (WA) subtest. The data was collected from 2011 subjects.

Overall, using classical true score test theory approach we found that from total 20 items of Wortauswahl (WA) subtest, None of items that has high level of difficulty. 16 items pass of selection of item discrimination index, it’s mean that 16 items can discriminate between people who have and doesn’t have the trait measured. 17 items have effective distractor. Beside it, we found that Wortauswahl (WA) subtest has reliability index α = 0.650. It’s mean that WA subtest have not reliable. Construct validity of Wortauswahl (WA) subtest also can be seen in way correlate WA score subject with eight others. The value of correlation index indicate the construct validity of Wortauswahl (WA) subtest. They are r(WA,SE) = 0.552, r(WA,AN) = 0.579, r(WA,GE) = 0.524, r(WA,RA) = 0.548, r(WA,ZR) = 0.546, r(WA,FA) = 0.379, r(WA,WU) = 0.384, and r(WA,ME) = 0.540. The correlation index show that WA subtest have not valid to measure the aimed trait. The final result show that overall items of Wortauswahl (WA) subtest need to be revised so that can be used well according to early purpose of the test.


(19)

BAB I

PENDAHULUAN

A.Latar Belakang

Psikologi merupakan salah satu bidang ilmu yang sangat dekat dengan kehidupan manusia, bahkan boleh dikatakan bahwa dimana ada manusia, disana ilmu psikologi itu berlaku. Hal ini disebabkan karena psikologi adalah ilmu yang mempelajari perilaku manusia. Dewasa ini ilmu psikologi semakin berkembang dan kebutuhan akan jasa layanan psikologi semakin meningkat. Hal ini sesuai dengan apa yang dinyatakan oleh Gunarsa (1992), bahwa semakin maraknya biro-biro psikologi di kota-kota besar menandakan bahwa masyarakat mulai mempercayai biro-biro psikologi untuk mengukur aspek psikologis dalam dirinya Menurut data yang diperoleh Hirzithariqi (2009) ada banyak nama-nama biro konsultasi psikologi yang berkembang. Tercatat di Jakarta ada 109 biro layanan psikologi, di Yogyakarta ada 8 biro layanan psikologi, di Bandung ada 7 biro, dan masih banyak biro di kota-kota kecil yang belum terjangkau. Di kota medan sendiri ada 6 biro layanan psikologi yang tercatat pada tahun 2009, termasuk Pusat Penelitian dan Pengembangan Masyarakat (selanjutnya akan disebut P3M) Fakultas Psikologi Universitas Sumatra Utara.

Berkaitan dengan kebutuhan akan ilmu psikologi yang semakin meningkat, baik dalam dunia pendidikan maupun pekerjaan, orang-orang berlomba-lomba untuk belajar tentang psikologi, latihan psikotes dan berbagai hal


(20)

dinyatakan oleh Anastasi dan Urbina (2003) bahwa aplikasi utama tes psikologi adalah untuk seleksi dan klasifikasi sumber daya manusia untuk bidang industri, seperti penerimaan karyawan, penunjukan tugas, pemindahan, promosi atau bahkan pemutusan hubungan kerja . Karena bersifat kompetisi ini lah maka orang-orang beerusaha untuk memenangkan kompetisi tersebut dengan berbagai cara. Mereka berusaha mencari buku panduan dan bimbingan tes serta latihan-latihan. Tentu saja hal ini sangat merugikan, karena tes psikologi yang seharusnya dijaga kerahasiaannya akan menjadi suatu alat tes yang tidak valid dan tidak reliabel. Tes psikologi akan kehilangan fungsi sebagai suatu instrumen yang dapat digunakan untuk mengukur secara objektif sampel perilaku manusia.

Tes Psikologi merupakan salah satu andalan dalam ilmu psikologi. Menurut Anastasi & Urbina (2003), tes psikologi merupakan suatu pengukuran yang objektif terhadap suatu sampel perilaku. Tujuan dari tes psikologi adalah untuk mengukur perbedaan antara individu atau reaksi individu yang sama pada situasi yang berbeda. Tes psikologi memiliki empat tujuan utama, yaitu diagnosa, prediksi, dekripsi dan pemahaman diri. Berdasarkan empat fungsi utama tersebut, maka dapat disimpulkan bahwa sebuah tes psikologi sangat berperan penting dalam memberikan profil mengenai seseorang. Untuk itulah tes psikologi perlu dijaga dengan baik, agar tujuan-tujuan tersebut bisa tercapai.

Tes psikologi dibangun oleh sekumpulan aitem yang telah dirancang sedemikian rupa, baik itu berbentuk pertanyaan atau pernyataan mengenai sesuatu hal yang hendak diukur atau diungkap (Azwar, 2007). Berdasarkan definisi di atas dapat ditarik kesimpulan, bahwa kualitas tes ditentukan oleh kualitas aitem-aitem


(21)

yang membangunnya. Suatu tes psikologi yang baik secara psikometri merupakan syarat mendasar untuk mencapai tujuan tes itu sendiri. Oleh karena itu adalah penting untuk melakukan analisa karakteristik psikometri pada setiap alat tes psikologi yang digunakan.

Ada berbagai jenis tes psikologi yang disesuaikan dengan objek pengukurannya dan digunakan sesuai dengan kebutuhan, diantaranya tes inteligensi, tes bakat, tes prestasi, tes kreativitas tes kepribadian, inventori minat, prosedur tingkah laku, tes neuropsikologi (Gregory, 2004). Intelegenz Struktur Test (selanjutnya akan disebut dengan IST) sendiri merupakan salah satu dari jenis tes inteligensi yang banyak digunakan saat ini. IST merupakan suatu alat tes inteligensi yang dibuat di Jerman oleh Rudolf Amthauer pada tahun 1953. Tes ini terdiri dari 9 subtes yang mengukur aspek inteligensi yang berbeda-beda satu sama lain. Menurut Amthauer, inteligensi merupakan suatu struktur tersendiri dari keseluruhan struktur kepribadian manusia yang terdiri dari kemampuan jiwani dan rohani. Struktur tersebut memiliki fungsi sedemikian rupa, sehingga memungkinkan manusia itu bertindak sebagai pelaku dalam dunianya. Inteligensi dapat dinilai berdasarkan keberhasilan atau prestasi yang dicapai individu (diktat kuliah IST Universitas Padjadjaran, 2008).

Menurut Bonang, dkk (dalam Gayatri, 2008), IST merupakan alat tes inteligensi yang paling sering digunakan, baik di lingkungan pendidikan maupun pekerjaan. Di bidang pendidikan, tes inteligensi digunakan untuk mengetahui kecerdasan dan tingkat kemampuan siswa, sehingga berdasarkan profil siswa bisa dirancang suatu metode pengajaran yang efektif disesuaikan dengan kemampuan


(22)

siswa tersebut. Selain itu, tes inteligensi juga dapat mengukur minat dan bakat siswa, sehingga dapat membantu proses penjurusan, misalnya apakah siswa tersebut lebih cenderung ke IPA, IPS atau Bahasa. Dalam hal ini, tes inteligensi dapat membantu siswa dalam mengenali diri dan potensi yang dimiliki, sehingga dari awal bisa mengarahkan dirinya ke bidang yang tepat pada saat kuliah nantinya. Di bidang pekerjaan, tes inteligensi sering digunakan untuk menyeleksi karyawan, menempatkan karyawan pada suatu jabatan tertentu, mengevaluasi karyawan dan lain sebagainya. Selain di bidang pendidikan dan pekerjaan, tes inteligensi juga sering dipergunakan di bidang klinis, seperti diagnosa mental retardation. Biasanya penggunaan IST dipaketkan dengan tes-tes psikologis lainnya. Namun beberapa keluhan yang sering disampaikan mengenai IST sendiri adalah adanya beberapa aitem yang sudah tidak relevan dengan keadaan sekarang yang menyulitkan subjek dalam mengerjakan aitem tersebut.

Saat ini IST yang digunakan di Indonesia adalah IST ’70 yang diadaptasi untuk pertama kalinya pada tahun 1973 oleh Fakultas Psikologi Universitas Padjadjaran. Salah satu biro yang menggunakan IST adalah Unit Pelayanan Pusat Penelitian dan Pengembangan Masyarakat (selanjutnya disebut P3M) Fakultas Psikologi Universitas Sumatra Utara. Biasanya IST digunakan untuk menyeleksi karyawan-karyawan yang akan diterima oleh perusahaan yang mempercayakan P3M Fakultas Psikologi Universitas Sumatera Utara sebagai recruiternya. Sejak bulan April 2010 sampai bulan Agustus 2010 tercatat beberapa perusahaan besar yang mempercayakan P3M Fakultas Psikologi Universitas Sumatera Utara sebagai recruiter nya, dan IST adalah salah satu dari sekian alat tes yang sering


(23)

digunakan dalam proses seleksi tersebut. (Novi, Komunikasi Personal, Oktober 2010).

Permasalahan dalam penggunaan IST yaitu pemakaian yang dianggap sudah terlalu sering sehingga terdapat kejenuhan dalam pemakaiannya dan menimbulkkan efek pembelajaran bagi subjek. Di samping itu penggunaanya yang sering dimaksudkan untuk kepentingan seleksi menyebabkan orang-orang berusaha untuk mempelajari tes tersebut dengan berbagai cara, termasuk mencari buku-buku panduan dan soal-soal latihan yang memang sudah banyak beredar di internet maupun di toko-toko buku. Sebagai contoh kasus, peneliti dalam pembicaraan pribadinya dengan salah satu peserta tes seleksi karyawan di lingkungan Fakultas Psikologi Universitas Sumatera Utara, menemukan bahwa soal-soal mirip dengan IST memang sudah banyak dijual di pasaran.

“soal-soal kemarin mah dah sering saya kerjakan, saya punya bukunya juga, dibeli di gramedia,,,model soalnya sama bahkan ada yang sama persis. Di internet apalagi, gampang dicari soal yang seperti itu” (Sitio, peserta tes Pelindo I 2009, Maret 2011)

Fenomena di atas menunjukkan bahwa selain penggunaan IST yang sudah terlalu sering sehingga menimbulkan pembelajaran, kerahasiaan tes ini juga memang sudah sangat sulit untuk dikontrol. Hal ini juga didukung oleh issue yang beredar menurut HIMPSI (Himpunan Sarjana Psikologi dan Psikolog Indonesia) yang menyatakan bahwa IST’70 sudah tidak valid lagi untuk mengukur


(24)

inteligensi. Kondisi ini dilatarbelakangi oleh kedua faktor tadi, yaitu frekuensi pemakaian yang sudah terlalu tinggi dan kerahasiaannya yang sulit dikontrol.

Penemuan lain mengenai permasalahan penggunaan IST, khususnya di lingkungan P3M Fakultas Psikologi USU yaitu dikawatirkan alat tes ini sudah bocor. Berdasarkan hasil wawancara dengan salah satu administrasi P3M menyatakan bahwa beberapa tahun terakhir sering ditemukan lembar jawaban dengan nilai yang sempurna untuk beberapa subtes (Novi, Komunikasi Personal, Oktober 2010). Hal ini tentu saja mustahil terjadi sekalipun untuk subjek genius sekalipun atau seandainya terjadi proses pembelajaran karena dikenai tes yang sama secara berulang-ulang. Kemungkinan besar nilai sempurna tersebut disebabkan karena mereka memiliki kunci jawaban.

Beberapa penelitian terhadap IST sebenarnya sudah pernah dilakukan di Indonesia. Salah satunya dilakukan oleh Santosa et al. pada tahun 1997. Penelitian ini dimaksudkan untuk menguji validitas prediktif dengan subjek penelitian mahasiswa baru di Atmajaya pada tahun akademik 1997/1998. Hasilnya menyatakan bahwa beberapa subtes pada IST dapat dijadikan prediktor untuk prestasi mahasiswa di semester pertama, namun skor total IST secara keseluruhan kurang baik dalam memprediksi keberhasilan prestasi mahasiswa. Hanya beberapa tes yang berkorelasi signifikan (p≤0.05) dengan prestasi mahasiswa dan korelasinya masih dalam taraf yang kecil. Subtes-subtes tersebut adalah SE (saterganzung) dengan r = 0,219; AN (Analogien) dengan r = 0,192; ME (Merk Aufgaben) dengan r = 0,210; RA (Rechen Aufgaben) dengan r =0,251; ZR (


(25)

Zahlen Reihen) dengan r = 0,176; GE (Gemeinsamkeiten) dengan r = 0,152 (dalam Bawono, 2008).

Penelitian lain terhadap IST dilakukan oleh Fakultas Psikologi Universitas Airlangga pada tahun 2004 untuk melihat validitas dan reabilitas. Penelitian ini menggunakan populasi siswa SMU Negeri maupun swasta Jawa Timur. Hasil dari penelitian ini menunjukkan bahwa dari 176 item tes terdapat 131 item yang dinyatakan valid dan 45 item yang dinyatakan gugur dan dari sembilan subtes, satu subtes yakni ZR (dengan jumlah item 20) dinyatakan semua itemnya valid. Sedangkan untuk realibitas dari Sembilan subtes tersebut semuanya dinyatakan reliabel dengan besar koefisien sebesar 0,463-0,821 pada taraf signifikansi 0,01 (Hamidah, 2000).

Dari beberapa penelitian yang telah dilakukan, peneliti merasa masih kurangnya penelitian mengenai validitas dan reliabilitas terhadap IST, mengingat tes ini merupakan salah satu alat tes yang masih sering digunakan dan juga bahwa syarat alat tes yang baik adalah alat tes yang harus terus menerus dievaluasi penggunaannya. Hal ini sesuai dengan apa yang dinyatakan oleh Bonang et al. (dalam Bawono 2008) bahwa sebuah tes yang telah dipakai dalam jangka waktu yang cukup lam seperti IST, memang memerlukan pengujian ulang untuk melihat sejauhmana tes tersebut masih dapat digunakan sebagai alat ukur yang handal.

Pada penelitian ini, akan dilakukan analisis karakteristik psikometri pada satu subtes saja, yaitu subtes wortaushwahl (selanjutnya akan disebut dengan WA). Secara umum, subtes WA ini sering dikenal dengan penalaran verbal. Subtes WA ini tediri dari 20 aitem, masing-masing aitem terdiri dari 5 kata, empat


(26)

diantaranya memiliki kemiripan dan testee diharapkan mampu memilih satu yang paling berbeda. Sebelum menentukan satu kata yang paling berbeda, testee perlu menentukan empat kata yang mirip dan bisa dikelompokkan ke dalam satu kategori. Maka disimpulkan bahwa subtes WA ini mengukur kemampuan inductive reasoning yang di dalamnya terdapat proses categorization.

Berpikir Induktif (Inductive Reasoning) mencakup pembuatan prediksi mengenai situasi baru berdasarkan pengetahuan yang sudah ada. Induksi berhubungan dengan banyak penalaran yang dilakukan oleh manusia dalam kehidupan sehari-hari, seperti memprediksi kemungkinan hujan turun, memprediksi bagaimana reaksi pasangan ketika menerima sekotak coklat pemberian suami, memprediksi kenaikan harga 6 bulan ke depannya, dan sebagainya. Lebih umum, induksi tercakup dalam suatu ranges aktivitas-aktivitas kognitif seperti categorization, probability judgment, analogical reasoning,

scientific inference, and decision making. (Brett K. Hayes; Evan Heit; and Haruka

Swendsen, 2010).

Categorization dan inductive reasoning berjalan berdampingan. Menurut Anderson (dalam Heit, 2007), fungsi utama dari categorization bukan supaya kita dapat mengkategorikan sesuatu hal, tetapi lebih kepada mengijinkan kita untuk membuat suatu kesimpulan. Categorization terdiri dari objek-objek atau kejadian-kejadian yang harus kita kelompokkan bersama karena kita merasa mereka berhubungan. Kemampuan categorization memungkinkan kita untuk berinteraksi dengan lingkungan tanpa diliputi oleh kerumitannya. Jadi kemampuan categorization ini merupakan faktor penting yang sangat dibutuhkan dalam


(27)

kehidupan manusia. Bruner, Goodnow and Austin (dalam Stephen K. Reed, 2004) menyebutkan lima keuntungan categorization, yaitu: (1) mengkategorikan objek dapat mengurangi kompleksitas lingkungan, (2) kategorisasi berarti objek di dunia sekitar dapat teridentifikasi, (3) membangun categorization mengurangi kebutuhan untuk terus-terus belajar hal yang sama, (4) Categorizing mengijinkan kita untuk memutuskan hal apa yang mendasari suatu tindakan yang sesuai, (5) Categorizing memungkinkan kita untuk menyusun dan menghubungkan kelas dari objek dan kejadian-kejadian.

Sebelumnya sudah pernah dilakukan penelitian analisis karakteristik psikometri khusus terhadap subtes WA di Universitas Katolik Atmajaya Jakarta. Penelitian ini menggunakan sampel anak SMA. Hasilnya adalah bahwa semua aitem dalam subtes ini memilliki daya diskriminasi yang baik, namun tidak reliabel, memiliki validitas prediktif yang sangat rendah, Artinya dari penelitian ini didapat bahwa subtes WA tidak bisa memprediksi siswa siswi SMA jurusan IPA atau IPS (Gayatri, 2008).

Mengingat masih sangat kurangnya penelitian terhadap subtes WA ini, dan juga menyadari permasalahan-permasalahan dalam penggunaan IST yang sudah dijelaskan sebelumnya, serta mengingat bahwa aspek yang diukur oles subtes WA merupakan suatu aspek yang sangat dibutuhkan dalam kehidupan sehari-hari, maka penelitian ini bermaksud untuk melakukan analisis karakteristik psikometri terhadap IST subtes WA. Adapun karakteristik psikometri yang dimaksud dalam penelitian ini adalah parameter aitem subtes WA berupa indeks diskriminasi dan taraf kesulitan aitem, efektivitas distraktor pada masing—masing aitem, analisis


(28)

validitas dan analisis reliabilitas. Masing-masing parameter akan dihitung secara terpisah, dan pada akhirnya secara bersama-sama akan menunjukkan apakah aitem-aitem dalam alat tes baik atau tidak (Kaplan & saccuzzo, 2005). Proses analisis karakteristik psikometri akan dilakukan dengan menggunakan pendekatan teori klasik atau Classical Test Theory (selanjutnya disebut CTT). CTT ini memiliki asumsi bahwa setiap pengukuran menghasilkan skor tampak (X), dimana skor X ini merupakan skor murni (T) individu ditambah error (E) pengukuran. Jadi setiap pengukuran yang dilakukan mengandung error. Semakin tinggi error yang terjadi, maka semakin tidak bagus intrumen tersebut.

B. Perumusan Masalah

Sejak pertamakali dibuat pada tahun 1953 oleh Amthauer, IST telah direvisi beberapa kali, yaitu IST 1955, IST 70, IST 2000, IST 2000-Revised. Meskipun sudah direvisi beberapa kali, itu haya terjadi di luar negeri. Kebanyakan di Indonesia masih menggunakan versi IST 70 yang diadaptasi untuk pertama kalinya oleh Universitas Padjajaran, termasuk P3M Fakultas Psikologi Universitas Sumatera Utara. Penggunaan IST versi 70 yang diketahui peneliti belum pernah direvisi dikawatirkan sudah tidak relevan dengan kondisi saat ini. Selain itu, penggunaan IST yang terlalu sering dan maraknya soal-soal tes/ latihan yang begitu mirip dengan IST yang tersedia dipasaran, juga dikawatirkan telah menimbulkan proses pembelajaran bagi peserta tes, yang mana hal ini sangat mempengaruhi keakuratan hasil tes. Untuk itu, penelitian ini bermaksud untuk


(29)

melihat, apakah IST khususnya subtes WA masih layak dipergunakan sebagai tes seleksi.

Penelitian ini bersifat eksploratif yang berusaha mencari jawaban atas pertanyaan penelitian : “Bagaimanakah kualitas dari subtes WA pada IST berdasarkan hasil analisis karakteristik psikometri?”. Adapun karakteristik psikometri yang akan ditinjau dirumuskan dalam bentuk pertanyaan-pertanyaan sebagai berikut:

1. Seberapa besar indeks kesulitan aitem subtes WA pada IST?

2. Seberapa besar indeks daya diskriminasi aitem subtes WA pada IST? 3. Bagaimanakah efektivitas distraktor aitem-aitem subtes WA pada IST? 4. Seberapa besar indeks reliabilitas dari subtes WA pada IST?

5. Bagaimana validitas konstruk dari subtes WA pada IST, ditinjau dari indeks validitas konvergen dan indeks validitas diskriminan nya?

C. Tujuan Penelitian

Penelitian ini bertujuan untuk melihat apakah IST, khususnya subtes WA masih layak digunakan sebagai alat tes intelegensi, berdasarkan hasil analisis karakteristik psikometri yang dilakukan.

D. Manfaat Penelitian

Penelitian mengenai Karakteristik Psikometri Subets WA pada IST ini diharapkan akan bermanfaat, baik secara teoritis maupun secara praktis, yaitu : 1. Manfaat Teoritis


(30)

Hasil penelitian ini diharapkan bisa menambah data dalam bidang psikometri dan hal-hal yang berkaitan dengan karakteristik psikometri, kelayakan alat tes serta pengukuran inteligensi melalui alat ukur tertentu, khususnya subtes WA pada IST.

2. Manfaat Praktis

Hasil penelitian ini diharapkan dapat menjadi pertimbangan ketika menggunakan IST khususnya subtes WA, baik itu biro penyelenggara tes maupun perusahaan pengguna jasa tes tersebut dalam rangka pengambilan keputusan selanjutnya, baik secara administratif maupun akademik terhadap calon karyawan, karena disadari atau tidak kualitas instrumen yang digunakan dalam proses seleksi calon karyawan akan menentukan keberhasilan institusi dan perusahaan untuk menemukan individu yang paling sesuai untuk pekerjaan yang tepat.

Selain itu juga, hasil penelitian ini diharapkan jadi dasar pertimbangan bagi para tenaga akademisi, khususnya bidang psikometri untuk dapat melakukan suatu revisi terhadap IST, khususnya subtes WA.

E. Sistematika Penulisan

Adapun sistematika penulisan yang disusun dalam penelitian ini adalah : Bab I : Pendahuluan

Bab ini menjelaskan latar belakang masalah penelitian, pertanyaan penelitian, tujuan dan manfaat penelitian, serta sistematika penulisan. Bab II : Landasan Teori


(31)

Bab ini memuat tinjauan pustaka yang menjadi acuan dalam pembahasan masalah. Teori- teori yang dimuat adalah teori yang berhubungan dengan pendekatan CTT, Analisis Psikometri, Intelligenz Strucrure Test, dan Subtes WA.

Bab III : Metodologi Penelitian

Pada bab ini dijelaskan mengenai jenis penelitian, metode pengumpulan data, populasi yang digunakan, persiapan dan pelaksanaan penelitian, program yang digunakan serta analisis data.

Bab IV : Hasil dan Pembahasan

Bab ini memuat hasil analisis karakteristik psikometri serta pembahasan hasil pennelitian dengan teori yang relevan.

Bab V : Kesimpulan dan Saran

Bab ini berisi kesimpulan yang diperoleh dari penelitian, hasil penelitian, serta saran-saran yang diperlukan, baik untuk penyempurnaan penelitian ataupun untuk penelitian-penelitian selanjutnya.


(32)

BAB II

TINJAUAN PUSTAKA

Menurut Azwar (2007) bahwa teori pengukuran dapat dibahas dari tiga macam pendekatan secara umum, yaitu (a) pendekatan teori skor murni klasikal (classical score theory), (b) pendekatan teori skor murni kuat (strong true-score theory) dan (c) pendekatan latent-trait theory.

Teori murni kuat mempunyai pandangan yang mirip dengan teori skor-murni klasikal mengenai nilai harapan skor tampak yang merupakan skor skor-murni, akan tetapi dalam teori skor murni kuat terdapat asumsi-asumsi tambahan mengenai probabilitas skor-tampak yang akan diperoleh seorang subjek yang merupakan skor-murni tertentu sehingga dengan asumsi-asumsi tersebut kelayakan teori skor-murni kuat bagi data tertentu, dapat diuji.

Sedangkan latent-trait theory berasumsi bahwa aspek performansi terpenting pada suatu tes dapat ditunjukkan oleh kedudukan seorang subjek pada suatu latent-trait yang berupa karakteristik psikologis yang tidak tampak. Berbeda dengan teori skor murni kuat, walaupun asumsi bahwa nilai harapan skor tampak pada teori latent-trait juga merupakan skor murni, pada umumnya tidak terdapat hubungan linear antara skor-murni dengan latent-trait sehingga nilai harapan skor tampak tidak sama dengan nilai latent-trait.

Teori skor murni kuat dan teori latent-trait tidak cuma sekedar membahas konsep eror standar dalam pengukuran saja, akan tetapi juga membahas masalah


(33)

eror standar yang bervariasi sesuai dengan level skor murni atau latent-traitnya. Menurut kedua teori tersebut, eror standar tidak terpengaruh oleh distribusi skor subjek.

Penelitian ini akan menggunakan pendekatan pendekatan teori skor murni klasikal dalam proses analisis yang dilakukan, denga pertimbangan bahwa teori ini lebih praktis dalam menerangkan masalah reliabilitas dan validitas. Selain itu juga pemahamannya yang tidak menuntut pengetahuan yang terlalu dalam mengenai beberapa fungsi distribusi statistik dan model-model matematiknya.

E. Classical True-score Theory

1. Pengertian Classical True-score Theory

Classical True-score Theory (selanjutnya disebut dengan CTT) merupakan pendekatan yang telah berhasil meletakkan dasar-dasar konsepsi reliabilitas pada dekade-dekade yang telah lalu dan memiliki kontribusi yang sangat besar dalam pengembangan formula-formula reliabilitas. Pendekatan ini juga memiliki nilai praktis yang tinggi dalam menerangkan masalah validitas dan reliabilitas (Azwar, 2004)

CTT pada intinya dijelaskan dalam bentuk asumsi-asumsi matematis, yang pada akhirnya dijadikan sebagai dasar turunan aljabar atau kesimpulan-kesimpulannya.


(34)

2. Asumsi-asumsi dalam Classical True-score Theory

Sebelum membahas asumsi-asumsi dalam CTT, perlu diketahui bahwa asumsi-asumsi tersebut merupakan hubungan matematis dari skor tampak (X), skor murni (T), dan eror pengukuran (E). Skor tampak merupakan angka yang menunjukkan nilai performansi subjek pada suatu pengukuran, yang tidak lain merupakan nilai total dari jawaban subjek dalam tes tersebut. Skor murni dijelaskan sebagai angka performansi.

Adapun sumsi-asumsi dalam CTT (dalam Azwar, 2007) adalah sebagai berikut:

Asumsi 1 :

X = T + E (1)

Asumsi ini menjelaskan bahwa sifat aditif berlaku pada hubungan antara skor tampak, skor muni, dan eror. Skor tampak (X) merupakan jumlah skor murni (T) dan eror (E)

Asumsi 2:

ε(X) = T (2)

Asumsi ini menyatakan bahwa skor murni merupakan nilai harapan dari skor tampaknya. Jadi, T merupakan harga rata-rata distribusi teoretik skor tampak apabila orang yang sama dikenai tes yang sama berulangkali dengan asumsi pengulangan tes itu dilakukan tidak terbatas banyaknya dan setiap pengulangan tes adalah independen satu sama lain.

Asumsi 3:


(35)

Asumsi ini menyatakan bahwa bagi populasi subjek yang dikenai tes, distribusi eror pengukuran dan distribusi skor murni tidak berkorelasi. Implikasinya, skor murni yang tinggi tidak selalu berarti mengandung eror yang selalu positif ataupun selalu negatif (Azwar, 2007).

Asumsi 4:

= 0 (4)

Asumsi ini menyatakan bahwa dalam eror pada dua tes ( yang dimaksud untuk mengukur hal yang sama) tidak saling berkorelasi. Asumsi ini akan tidak terpenuhi sekiranya skor tampak dipengaruhi kondisi testing, seperti misalnya kelelahan, Practice effect, suasana hati, atau factor-faktor dari lingkungan (Suryabrata, 2005).

Asumsi 5 :

= 0 (5)

Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama, maka eror pada tes pertama tidak berkorelasi dengan skor-skor murni pada tes kedua.

Asumsi 6

Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama membunyai skot tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan jika untuk setiap populasi subjek T = T’ serta varians eror kedua tes tersebut sama, kedua tes tersebut disebut sebagai tes yang parallel (Suryabrata, 2005)


(36)

Asumsi 7

Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama membunyai skot tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan jika untuk setiap populasi subjek T1 = T2 + C. Dengan C sebagai suatu bilangan konstan, maka kedua tes tersebut dapat disebut sebagai tes yang setara (equivalent test).

B. Analisis Karakteristik Psikometri

Sebuah instrument tes merupakan sekumpulan aitem yang disusun sedemikian rupa, baik berupa pertanyaan maupun pernyataan mengenai suatu hal yang hendak diukur (Azwar, 2007). Proses analisis terhadap karakteristik psikometri dari suatu instrument tes ditujukan untuk memilih aitem-aitem yang layak dan mengetahui kelayakan instrument tersebut. Jadi proses analisis dapat dilakukan untuk merancang sebuah instrumen tes yang baru atau menguji instrument yang sudah ada. Proses analisis tersebut secara sederhana meliputi dua cara, yaitu:

Tahap Pertama adalah analisis dan seleksi aitem berdasarkan evaluasi secara kualitatif. Evaluasi ini bertujuan untuk melihat apakah aitem yang ditulis sudah sesuai dengan blue-print dan indikator perilaku yang hendak diungkap, melihat apakah aitem telah ditulis sesuai dengan kaidah penulisan yang benar, dan melihat apakah aitem-aitem yang ditulis masih mengandung social desirability yang tinggi. Evaluasi secara kualitatif ini dikerjakan oleh suatu panel ahli.


(37)

Tahap kedua adalah prosedur seleksi aitem berdasarkan data empiris dengan melakukan analisis kuantitatif terhadap parameter-parameter aitem. Parameter-parameter yang dimaksud meliputi indeks diskriminasi aitem dan indeks kesulitan aitem, analisis efektivitas distraktor, analisis reliabilitas, serta analisis validitas dari instrumen tersebut (Crocker & Algina, 2005).

1. Indeks Kesulitan Aitem

a. Pengertian Indeks Kesulitan Aitem

Indeks kesulitan aitem yang biasanya disimbolkan dengan huruf p merupakan rasio antara penjawab aitem dengan benar dan banyaknya penjawab aitem. Secara teoritik dikatakan bahwa p sebenarnya merupakan probabilitas empirik untuk lulus aitem tertentu bagi kelompok subjek tertentu. Secara matematis diformulaikan sebagai berikut:

p = ni / N (6)

Keterangan:

p = indeks kesulitan aitem

ni = banyaknya subjek yang menjawab aitem dengan benar N = banyaknya subjek yang menjawab aitem

Selain untuk membedakan subjek yang menguasai suatu pelajaran dengan baik dengan yang tidak menguasai dengan baik, indeks kesulitan aitem juga berfungsi dalam hal penyusunan aitem-aitem saat penyusunan alat tes. Hal ini sesuai dengan apa yang diungkapkan oleh Kumar (2009), yang menyatakan bahwa penyusunan aitem dilakukan berdasarkan nilai indeks kesulitan aitem. Lebih lanjut Murphy & Davidshofer (2003) menyarankan untuk menyusun


(38)

aitem-aitem dalam tes secara sistematis, dengan menempatkan aitem-aitem-aitem-aitem berdasarkan tingkat kesukarannya, mulai dari aitem yang paling mudah hingga yang paling sulit. Sehingga pola penyusunan aitem-aitem dalam tes dimulai dari aitem dengan harga p yang paling tinggi hingga aitem dengan harga p yang paling rendah. b. Analisis Indeks Kesulitan Aitem

Nilai p yang semakin tinggi menunjukkan bahwa aitem yang bersangkutan semakin mudah. Nilai p berkisar dari 0 sampai dengan angka 1. Apabila sebuah aitem sedemikian sukarnya, sehingga tidak seorang subjek pun dapat menjawab dengan benar, maka harga p = 0, sedangkan apabila suatu aitem sedemikian mudahnya sehingga seluruh subjek dapat menjawab dengan benar, maka harga p = 1. Aitem yang terlalu mudah atau terlalu sulit biasanya tidak akan banyak berguna dalam membedakan subjek yang menguasai bahan pelajaran dan mereka yang tidak (Azwar, 2007).

Pada umumnya harga p yang berada disekitar 0,50 dianggap yang terbaik. Menurut Azwar (2007), harga p terbaik adalah yang sesuai yang sesuai dengan tujuan tes yang bersangkutan. Misalnya kadang-kadang dikehendaki harga p < 0,50 (aitemnya lebih sulit) apabila aitem aitem itu dimaksudkan sebagai bagian dari suatu tes yang digunakan dalam prosedur seleksi guna memilih sebagian kecil saja dari antara pelamar. Tidak jarang pula sebuah tes prestasi perlu disusun dengan memasukkan banyak aitem yang taraf kesulitannya rendah (p tinggi) dengan tujuan untuk evaluasi formatif.

Jadi bisa dikatakan bahwa harga p yang berada pada titik ekstrem (terlalu sulit atau terlalu mudah) akan mempunyai daya diskriminasi yang kurang baik.


(39)

Oleh karena itu, umumnya pada penyusunan instrumen tes disarankan untuk menggunakan aitem dengan taraf kesulitan sedang (0,50). Namun Lord (dalam Murphy & Davidshofer, 2003) menyatakan bahwa untuk tes seleksi karyawan, p akan dikatakan baik jika nilai p mendekati 0,2.

Allen & Yen (dalam Lababa, 2008) mengkategorikan nilai p sebagai berikut:

Tabel 1 Kategori Tingkat Kesulitan aitem

No P Kategori

1 p<0,3 Sulit

2 0,3≤p≤0,7 Sedang

3 p>0,7 Mudah

Ada beberapa hal yang perlu dipahami mengenai indeks kesulitan aitem ini, diantaranya pertama adalah bahwa harga p dari suatu aitem menunjukkan taraf kesulitan aitem tersebut bagi kelompok yang bersangkutan, yaitu kelompok yang menjadi dasar dalam menghitung p itu sendiri (Azwar, 2005). Artinya harga p suatu aitem akan berbeda apabila dihitung pada kelompok siswa yang berbeda. Kedua bahwa besarnya harga p yang kita hitung merupakan indek kesulitan aitem bagi seluruh kelompok yang bersangkutan, bukan indeks kesulitan bagi masing-masing individu dalam kelompok. Artinya harga p yang dihitung dalam kelompok hanya merupakan rata-rata indeks kesulitan bagi seluruh individu dalam kelompok tersebut.

Berdasarkan penjelasan di atas, maka dalam penelitian ini aitem dikatakan memiliki indeks diskriminasi yang baik jika harga p lebih kecil dari 0,3, dengan alasan bahwa IST dalam hal ini digunakan untuk seleksi karyawan, yaitu memilih sebagian kecil saja dari antara para pelamar.


(40)

2. Indeks Daya Diskriminasi Aitem

a. Pengertian Indeks Diskriminasi Aitem.

Indeks daya diskriminasi aitem atau sering disebut dengan daya beda aitem merupakan parameter yang paling penting dalam tes psikologi yang menunjukkan sejauh mana aitem mampu membedakan antara individu atau kelompok individu yang memiliki dan yang tidak memiliki atribut yang diukur (Azwar, 2005). Artinya bahwa aitem yang memiliki daya beda yang tinggi harus memiliki skor yang tinggi pada individu yang memiliki atribut yang diukur dan skor yang rendah pada individu yang tidak memiliki atribut yang diukur.

Indeks diskriminasi aitem (d) secara sederhana didefinisikan sebagai perbedaan proporsi penjawab aitem dengan benar antara Kelompok Tinggi dengan Kelompok Rendah.

Secara matematis diformulasikan sebagai berikut:

(7)

Keterangan:

d : Indeks diskriminasi Aitem

niT : jumlah subjek penjawab dengan benar dari Kelompok Tinggi nT : Jumlah subjek Kelompok Tinggi

niR : jumlah subjek penjawab dengan benar dari Kelompok Rendah nR : Jumlah subjek Kelompok Rendah

Formulasi di atas sama dengan perbedaan/ selisih indeks kesulitan pada Kelompok Tinggi dan Kelompok Rendah, sehingga lebih sederhana dapat diformulasikan sebagai berikut:


(41)

-

(8)

Keterangan :

= Indeks kesulitan pada Kelompok Tinggi = Indeks kesulitan pada Kelompok Rendah

Dalam skala sikap, sebuah aitem dikatakan memiliki daya beda tinggi jika aitem tersebut mampu membedakan antara subjek yang bersikap positif dan subjek yang bersifat negatif. Sedangkan untuk sebuah tes inteligensi, sebuah aitem dikatakan memiliki daya beda tinggi jika aitem tersebut mampu membedakan subjek yang memiliki kemampuan tinggi (Kelompok Tinggi) dan subjek yang memiliki kemampuan rendah (Kelompok Rendah). Artinya suatu aitem tersebut haruslah dijawab dengan benar oleh semua atau sebagian besar subjek Kelompok Tinggi dan tidak dapat dijawab dengan benar oleh semua atau sebagian besar subjek Kelompok Rendah (Azwar, 2007).

b. Analisis Indeks Diskriminasi Aitem

Menurut Murphy dan Davidshofer (2003), jika suatu tes dan satu aitem mengukur hal yang sama, maka diharapkan bahwa orang yang mengerjakan tes dengan baik akan menjawab aitem tersebut dengan benar, dan orang yang mengerjakan tes dengan buruk menjawab aitem tersebut dengan salah. Dengan kata lain, aitem yang memiliki daya diskriminasi yang baik mampu membedakan antara orang yang mengerjakan tes dengan baik dan orang yang mengerjakan tes dengan buruk.

Nilai Indeks diskriminasi (d) berkisar mulai dari -1 sampai dengan +1, namun hanya harga d yang positif saja yang memiliki arti dalam analisis aitem.


(42)

Daya diskriminasi maksimal tercapai apabila seuruh subjek Kelompok Tinggi dapat menjawab dengan benar ( ), sedangkan seluruh subjek Kelompok Rendah tidak seorang pun yang dapat menjawab dengan benar ( ). Dalam hal ini, harga indeks diskriminasi d = 1-0=1.

Harga d yang berada disekitar 0 menunjukkan bahwa aitem yang bersangkutan memiliki daya diskriminasi yang rendah, sedangkan harga d yang negative menunjukkan bahwa aitem yang bersanngkutan tidak ada gunanya sama sekali, bahkan memberikan informasi yang menyesatkan.

Indeks diskriminasi yang ideal yang ideal adalah yang sebesar mungkin mendekati angka 1. Semakin besar indeks kemsukaran aitem (semakin mendekati angka 1) berarti aitem tersebut semakin mampu membedakan antara subjek yang menguasai bahan yang diujikan dan dan subjek yang tidak menguasai.

Menurut Thorndike (dalam Azwar, 2005) bahwa dalam proses seleksi aitem, aitem-aitem yang memiliki nilai diskriminasi di atas 0,50 akan langsung dianggap baik sedangkan aitem-aitem dengan indeks diskriminasi di bawah 0,20 dapat langsung dibuang dan dianggap jelek. Sementara menurut Ebel (dalam Azwar, 2005) terdapat suatu panduan dalam evaluasi indeks diskriminasi aitem, yaitu:

Tabel 2 Evaluasi Indeks Daya Diskriminasi Aitem

Indeks Daya Beda Evaluasi

≥ 0,40 Sangat bagus

0,30 – 0,39 Lumayan bagus, tidak membutuhkan revisi 0,20 – 0,29 Belum memuaskan, perlu direvisi


(43)

Menurut Murphy dan Davidshofer (2003), ada tiga statistik yang dapat digunakan untuk mengukur daya diskriminasi suatu aitem, yaitu:

1. Method of Extreme Group

Metode ini biasanya dugunakan untuk indeks diskriminasi pada kelompok besar. Diskriminasi aitem dapat dihitung dengan cara membagi kelompok menjadi dua, Upper group (Kelompok Tinggi) yakni kelompok yang memiliki skor yang tinggi (25-35 % nilai tertinggi didalam kelompok) dan lower group (Kelompok Rendah) yakni kelompok yang memiliki nilai yang rendah (25-35 % nilai terendah dalam kelompok). Aitem yang memiliki indeks diskriminasi yang baik akan dijawab benar oleh Kelompok Tinggi dan dijawab salah oleh Kelompok Rendah. 2. Korelasi Aitem-Total

Parameter daya beda aitem yang berupa koefisien korelasi aitem-total memperlihatkan kesesuaian fungsi aitem dengan fungsi skala / tes dalam mengungkap perbedaan individual. Besarnya koefisien korelasi aitem-total bergerak 0 sampai dengan 1,00. Semakin baik daya diskriminasi aitem, maka koefisien korelasi semakin mendekati angka 1,00.

Korelasi aitem total dapat diketahui dengan menghitung korelasi point biserial (rpbis). Korelasi point biserial yang bernilai positif menunjukkan bahwa aitem dan tes mengukur hal yang sama, nilai mendekati nol menunjukkan bahwa bahwa aitem tidak memiliki indeks daya beda yang baik sehingga kelompok tinggi menjawab pertayaan dengan salah dan kelompok rendah menjawab pertanyaan dengan benar. Nilai negatif menunjukkan bahwa aitem tidak mengukur hal yang sama dengan alat tes. Berikut adalah formula point biserial :


(44)

r

pbis

=

[(Mi – Mx)/Sx] / [p/(1-p)] (9)

Keterangan :

rpb : Korelasi point biserial

Mi :Mean skor X dari seluruh subjek yang mendapat angka 1 pada variabel dikotomi i

Mx : Mean skor dari seluruh subjek Sx :Standard deviasi skor X

P :Proporsi subjek yang mendapat angka 1 pada variabel dikotomi

3. Korelasi Inter-Aitem

Pengujian terhadap korelasi inter-aitem dapat membantu kita mengetahui mengapa beberapa aitem gagal membedakan anatara subjek yang bekerja dengan baik (Kelompok Tinggi) dan yang bekerja dengan buruk (Kelompok Rendah) (Murphy dan Davidshofer, 2003)

Korelasi inter-aitem yang bernilai rendah dapat memiliki dua arti, kemungkinan pertama adalah aitem tidak mengukur hal yang sama dengan tes, sehingga aitem harus dibuang atau dibuat ulang, kemungkinan kedua adalah aitem memang mengukur atribut yang berbeda dengan tes dikarenakan tes memang disusun untuk mengukur dua atribut yang berbeda.

Dalam penelitian ini, indeks diskriminasi akan diukur dengan dua cara, yaitu dengan metode extreme group dan metode korelasi aitem-total. Dengan metode extreme group, diharapkan bisa melihat perbedaan antara Kelompok Tinggi dan Kelompok Rendah. Sedangkan dengan metode korelasi aitem-total diharapkan dapat melihat kesesuaian fungsi aitem dengan fungsi tes dalam mengungkap perbedaan individual.


(45)

3. Efektivitas Distraktor

Efektivits distraktor-distraktor pada suatu aitem dianalisis dari distribusi jawaban terhadap aitem yang bersangkutan pada setiap alternatif yang disediakan. Efektivitas distraktor diperiksa untuk melihat apakah semua distraktor atau semua pilihan jawaban yang bukan kunci telah berfungsi sebagaimana mestinya, yaitu apakah distraktor-distraktor tersebut telah dipilih lebih banyak (atau semua) siswa Kelompok Rendah sedangkan siswa dari Kelompok Tinggi hanya sedikit (atau tidak ada) yang memilihnya.

Efektivitas distraktor dilihat dari dua kriteria, yaitu: (a) distraktor dipilih oleh siswa dari Kelompok Rendah, dan (b) pemilih distraktor tersebar relative proporsional pada masing-masing distrakktor yang ada (Azwar, 2005)

4. Reliabilitas

a. Pengertian Reliabilitas

Reliabilitas merupakan penerjemahan dari kata reliability yang berasal dari dua kata yaitu rely dan ability, dimana rely memilliki arti percaya atau mempercayakan sedangkan ability memiliki arti kemampuan. Ada banyak istilah yang digunakan untuk menyatakan reliabilitas, seperti keterpercayaan, keterandalan, keajegan, kestabilan, konsistensi dan sebagainya, namun pada intinya konsep reliabilitas memiliki makna: sejauh mana hasil suatu tes/ pengukuran dapat dipercaya (Azwar, 2007)

Crocker dan Algina (2005) menjelaskan bahwa pada dasarnya reliabilitas menggambarkan derajat konsistensi, yaitu :


(46)

”a reliability term refers to the degree to which individuals deviation scores, or z-scores, remain relatively consistent over repeated

administration of the same test or alternate test forms”.

Reliabilitas suatu tes ditunjukkan oleh taraf konsistensi skor yang diperoleh para subjek yang diukur dengan alat yang sama atau minimal setara, dalam kondisi yang berbeda (Suryabrata, 2005). Konsepsi mengenai reliabilitas berkaitan dengan derajat konsistensi antara dua perangkat skor tes, maka formula reliabilitas selalu dinyatakan dalam bentuk koefisien korelasi (Azwar, 2007). Menurut Gregory (2000), reliabilitas dalam pengukuran psikologis menunjukkan atribut konsistensi dari pengukuran itu sendiri. Hanya sedikit dari pengukuran behavioral yang benar-benar reliabel, dan reliabilitas itu sendiri bersifat kontinum. Berdasarkan beberapa definisi di atas, dapat disimpulkan bahwa reliabilitas pada dasarnya merupakan ketetapan atau derajat konsistensi performansi relative dari individu yang dikenai tes ketika diberikan tes yang sama secara berulang atau tes yang parallel.

Tujuan dari sebuah pengetesan adalah untuk mengetahui true score seseorang yang bersifat latent. Karena bersifat latent, maka skor ini tidak pernah diketahui secara pasti nilainya dan yang paling mungkin dilakukan untuk mengetahui true score ini adalah membuat perkiraan melalui observed score. Observed score adalah skor individu yang diperoleh dari pengetesan. Faktor yang mempengaruhi reliabilitas suatu tes adalah error. Error atau varians kesalahan


(47)

adalah kondisi yang tidak sesuai atau tidak relevan dengan maksud tes (Anastasi & Urbina, 1997). Ada dua jenis error yang sering terjadi, yaitu:

1) Systematic error yaitu kecenderungan individu untuk memperoleh skor yang tinggi semua atau rendah semua. Sifat eror ini selalu konstan. Sumbernya adalah karakteristik fisik individu, proses tes/ tes yang tidak berkaitan dengan konstruk yang ingin diukkur. Misalnya alat ukur rusak, gangguan pendengaran, gangguan penglihatan, dll.

2) Unsystematic error (random error), yaitu kecenderungan individu memperoleh skor yang tidak tetap, terkadang baik, terkadang buruk. Error ini bersifat random. Ada berbagai hal yang dapat menimbulkan random error, antara lain kelelahan memori subjek dan naik turunnya suasana hati, dll.

b. Jenis-jenis Pendekatan Estimasi Reliabilitas

Estimasi terhadap tingginya reliabilitas dapat dilakukan melalui berbagai metode pendekatan, dimana masing-masing metode pendekatan dikembangkan sesuai dengan sifat dan fungsi alat ukur yang bersangkutan dengan mempertimbangkan segi-segi praktisnya (Azwar, 2007)

Menurut Azwar (2007), secara tradisional terdapat tiga macam pendekatan reliabilitas yaitu :

1) Pendekatan Tes Ulang (tes-retest)

Pendekatan ini menunjukkan konsistensi pengukuran dari waktu ke waktu dan menghasilkan koefisien reliabilitas yang dinamakan koefisien stabilitas. Prinsip estimainya adalah menyajikan tes dua kali pada satu kelompok subjek


(48)

dengan tenggang waktu tertentu. Asumsinya adalah bahwa suatu tes yang reliable tentu akan menghasilkan skor tampak yang relative sama apabila dikenakan dua kali pada waktu yang berbeda. Semakin besar variasi perbedaan skor subjek antara kedua pengenaan tes, berarti semakin sulit untuk mempercayai bahwa tes itu memberikan hasil ukur yang konsisten (Azwar, 2007)

Dalam prakteknya, pendekatan ini memiliki keterbatasan yaitu kurang praktis dalam pelaksanaan tes sebanyak dua kali, dan besarnya kemungkinan terjadi efek bawaan (carry-over effects) dari satu pengenaan tes ke pengenaan te syang kedua. Artinya dalam hal ini besar kemungkinan terjadinya proses pembelajaran bagi subjek dan hal ini akan mempengaruhi terhadapa skor hasil tes yang kedua kalinya.

2) Pendekatan Bentuk-Paralel (alternate-forms)

Pendekatan bentuk paralel merupakan pengenaan dua bentuk tes pararel dalam waktu yang bersamaan pada satu kelompok subjek. Jadi pendekatan ini hanya dapat dilakukan apabila tersedia dua bentuk instrumen yang dapat dianggap memenuhi asumsi parallel. Salah satu indicator terpenuhinya asumsi paralel adalah setaranya korelasi antara skor kedua instrument tersebut dengan skor suatu ukuran lain.

Tentu saja untuk dapat paralel kedua bentuk instrumen harus disusun dengan tujuan mengukur objek psikologis yang sama, berdasarkan blue-Print (pola-rancangan) yang sama dan spesifikasi yang sama pula.

Kelemahan utama dari pendekatan ini adalah sulitnya menyusun dua alat ukur yng memenuhi persyaratan parallel atau sejajar. Selain kelemahan di atas,


(49)

pendekatan ini juga memiliki kelebihan, yaitu dapat menghilangkan kemungkinan terjadinya efek bawaan.

3) Pendekatan Konsistensi Internal (Internal-Consistency)

Pendekatan konsistensi internal dilakukan dengan menggunakan satu bentuk tes yang dikenakan hanya sekali saja pada sekelompok subjek (single-trial administration). Pendekatan ini mengatasi kelemahan pada pendekatan tes-retest dan alternate-forms.

Pendekatan reliabilitas konsistensi internal bertujuan untuk melihat konsistensi antar-aitem atau antar bagian dalam tes itu sendiri. Untuk itu, setelah skor setiap aitem diperoleh dari sekelompok subjek, tes dibagi menjadi beberapa belahan, bisa dua belahan, tiga belahan dan bahkan belahan sebanyak aitem. Membelah tes prinsipnya adalah mengusahakan agar antar belahan memiliki jumlah aitem sama banyak, taraf kesulitan seimbang, isi sebanding, dan memenuhi ciri-ciri paralel .

Bentuk dan sifat alat ukur serta banyaknya belahan yang dibuat akan menentukan teknik perhitungan koefisien reliabilitasnya. Ada beberapa teknik komputasi reliabilitas konsistensi internal diantaranya: Formula Spearman-Brown, Formula Rulon, Formula Alpha, Formula-formula Kuder-Richardson, Formula Kristof, Formula Analisis varians dan sebagainya. Berikut ini akan dijelaskan secara singkat mengenai penggunaan berbagai formula tersebut:


(50)

1. Spearman-Brown

Formula komputasi Spearman-Brown merupakan formula koreksi terhadap koefisien korelasi antara dua bagian tes dan dirumuskan sebagai berikut (Azwar, 2005):

S-B

= r

xx’

=

(10)

Keterangan:

rxx’ = Koefisien reliabilitas Spearman-Brown r1.2 = Koefisien korelasu antara dua belahan

Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, pembelahan tes dilakukan dengan cara gasal-genap dan matched-random subtes dan menghasilkan dua bagian yang paralel satu sama lain dan korelasi antara kedua belahan paralel tersebut cukup tinggi.

2. Rulon

Rulon (1939) mempersoalkan reliabilitas tes yang dibelah menjadi dua belahan. Jika sekiranya belahan tersebut setara maka secara teori skor subjek pada perangkat belahan pertama dan skor perangkat belahan kedua akan sama. Jika skor-skor pada kedua perangkat itu tidak sama, maka itu terjadi karena kesalahan/kekeliruan pengukuran. Berdasarkan atas pemikiran ini maka diusulkan rumus reliabilitas tes sebagai berikut (Suryabrata, 2005):

r

xx’

= 1- s

d2

/s

x2 (11)

Keterangan:

sd2 = Varians perbedaan skor kedua belahan 2


(51)

d = Perbedaan skor kedua belahan

Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent.

3. Koefisien alpha belah dua

Formula koefisien alpha untuk estimasi reliabilitas belah dua dirumuskan sebagai berikut:

rxx’ = 2 (12)

Keterangan:

= varians pada belahan 1 = varians pada belahan 2 = varians total skor tes

Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent, aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait.

4. Koefisien alpha belah lebih dari dua

Pembelahan tes tidak hanya terbatas pada membagi tes ke dalam dua belahan saja. Cara-cara pembelahan dapat diperluas pemakainnya untuk membagi tes menjadi beberapa belahan. Bahkan suatu tes yang akan diestimasi reliabilitasnya dapat dibelah menjadi bagian-bagian sebanyak jumlah aitemnya sehingga setiap bagian hanya berisi satu aitem saja.


(52)

Untuk tes yang dibelah menjadi lebih dari dua belahan yang masing-masing berisi aitem yang berjumlah sama banyak kita dapat menggunakan formula alpha dengan rumus:

α = (13)

Keterangan : = banyaknya belahan tes = varians belahan j; j = 1, 2…k = varians skor tes

Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap belahan memiliki aitem yang relatif setara, paralel setidaknya memenuhi asumsi τ-equivalent, aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait.

5. Flanagan

Flanagan menganggap bahwa varians-varians pada perangkat-perangkat belahan tes merupakan varians kekeliruan pengukuran. Maka untuk tes yang dibelah menjadi dua bagian setara reliabilitasnya adalah sebagai berikut:

rxx’ =2 (14)

Keterangan: = varians pada belahan 1 = varians pada belahan 2 = varians total skor tes


(53)

6. Kuder-Richardson 20 (KR-20)

KR 20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua yang mungkin dilakukan. Koefisien ini juga mencerminkan sejauhmana kesetaraan isi aitem-aitem dalam tes. Rumusan formula KR-20 adalah:

KR-20 (15)

Keterangan : = Banyaknya aitem dalam tes = Varians skor tes

p = Proporsi subjek yang mendapat angka 1 pada suatu aitem, yaitu banyaknya subjek yang mendapat angka 1 dibagi oleh banyaknya seluruh subjek yang menjawab aitem tersebut.

Formula ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem, aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait.

7. Kuder-Richardson 21 (KR-21)

Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan aitem. hal inilah yang membedakan antara 20 dengan 21. Rumusan formula KR-21 adalah:

(16)

Keterangan : = banyaknya aitem dalam tes = rata-rata p yaitu,


(54)

= varians skor tes

Untuk mempermudah komputasi, formula KR-21 dapat pula dinyatakan sebagai:

(17)

Keterangan :

Mx = harga rata-rata means skor tes

Penggunaan formula ini hamper sama dengan formula KR-20. Hanya saja yang membedakannya adalah bahwa KR-21 ini digunakan jika tingkat kesulitan aitem-aitem dalam tes relatif setara. Jika digunakan pada alat tes yang tingkat kesulitan yang bervariasi, maka hasilnya akan kurang teliti (Azwar, 2007)

8. Formula untuk Tes Belah Tiga (Formula Kristof)

Komputasi koefisien reliabilitas tes yang telah dibelah menjadi tiga bagian ini didasarkan pada formula estimasi skor murni yang dirumuskan Kristof, yaitu:

(18) Keterangan: S12 = kovarians belahan 1 dan belahan 2

= kovarians belahan 1 dan belahan 3 = kovarians belahan 2 dan belahan 3

Untuk komputasi koefisien reliabilitasnya digunakan rumus dasar reliabilitas, yaitu:


(55)

Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, membelah tes menjadi 3 bagian, belahan tidak harus sama panjang, jumlah aitem tidak harus sama banyak dengan syarat isi tetap homogen, dan lebih baik digunakan pada subjek dalam jumlah besar.

9. Analisis varians Hoyt

Hoyt (1941) mengembangkan pendekatan analisis varian yang disebut dengan analisis varian Hoyt. Konsep dalam teknik analisis varian Hoyt adalah memandang distribusi aitem keseluruhan subjek sebagai data pada suatu desain eksperimen faktorial dua-jalan tanpa replikasi, yang dikenal pula sebagai item by subject design. Setiap aitem dianggap sebagai suatu perlakuan yang berbeda sehingga setiap kali subjek dihadapkan pada suatu aitem seakan-akan berada pada suatu perlakuan yang berbeda, sehingga banyaknya aitem merupakan banyaknya perlakuan.

Dari pola faktorial ini diperoleh harga mean kuadrat antar subjek yang sebenarnya merupakan estimasi terhadap varians skor tes, meankuadrat antar aitem, dan meankuadrat interaksi aitem-subjek yang merupakan estimasi terhadap varians eror, jadi formula reliabilitas Hoyt adalah:

(19)

Keterangan:

= mean kuadrat interaksi aitem x subjek = mean kuadrat antar aitem

Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent,


(56)

aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait.

10.Formula Feldt (Formula untuk Tes belah Dua Panjang Tidak Sama)

Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, membelah tes menjadi 2 bagian yang tidak sama panjang, jumlah aitem tidak harus sama banyak dengan syarat isi tetap homogen, dan lebih baik digunakan pada subjek dalam jumlah besar. Feldt (1975) menggunakan formula estimasi reliabilitas sebagai berikut:

(20)

Keterangan: = varians skor belahan 1 = varians skor belahan 2

= kovarians skor belahan 1 dan 2 = deviasi standar skor tes

Pada penelitian ini, estimasi koefisien reliabilitas dilakukan dengan pendekatan konsistensi internal atau satu kali tes dengan teknik komputasi reliabilitas yang digunakan adalah formula Kuder-Richardson (KR’20). Formula KR’20 dipilih karena tingkat kesulitan aitem subtes WA cenderung bervariasi. Jika KR’21 digunakan pada tes yang kesulitan aitem nya cenderung bervariasi, maka hasilnya akan rendah dan tidak cermat (Azwar, 2007)


(57)

c. Analisis Koefisien Reliabilitas

Tingkat reliabilitas dari suatu penngukuran ditunjukkan dari koefisien reliabilitas. Koefisien reliabilitas memperlihatkan pengaruh dari true score dan error score terhadap observed score. Secara umum, koefisien reliabilitas dapat didefinisikan sebagai rasio dari true score variance terhadap total variance dari skor tes (Gregory, 2000). Rentang nilai koefisien reliabilitas adalah antara 0.0-1.0. Pengukuran yang sangat reliabel akan memiliki koefisien reliabilitas mendekati 1.0, sebaliknya yang sangat tidak reliabel akan memiliki koefisien relabilitas mendekati 0.0.

Menurut Anastasi & Urbina (1997), suatu pengukuran dapat dikatakan reliabel apabila memiliki rentang nilai koefisien reliabilitas antara 0.80-0.90. sedangkan menurut Nunnally (2005), pengukuran dapat dikatakan reliabel jika memiliki koefisien reliabilitas diatas 0.70. Murphy & Davidshofer (2003) mengelompokkan nilai koefisien reliabilitas ke dalam beberapa kelompok nilai, yaitu nilai yang tidak dapat diterima (≤ 0.60), nilai yang rendah (0.61 -0.70), nilai moderat (0.71-0.89) dan nilai yang tinggi (≥ 0.90).

d. Interpretasi Koefisien Reliabilitas

Dalam setiap pengukuran kemungkinan besar akan selalu terjadi error (E) pengukuran yang mengakibatkan skor tampak (X) tidak selalu sama dengan skor murni (T). Jadi untuk mengestimasi nilai skor murni, diperlukan interpretasi dari koefisien reliabilitas. Suatu tes dikatakan memiliki reliabilitas yang tinggi apabila misalnya, skor tampak (X) berkorelasi tinggi dengan skor murni (T) nya sendiri.


(58)

Atau bisa juga ditafsirkan dari tingginya korelasi antara skor-tampak pada dua tes yang pararel.

Allen & Yen (dalam Azwar, 2004) menguraikan enam cara untuk menginterpretasikan koefisien reliabilitas ( ), yaitu:

Interpretasi 1 :

= korelasi skor tampak antara dua tes yang pararel.

Interpretasi ini menyatakan bahwa reliabilitas ini ditentukan oleh sejauh mana skor tampak pada dua tes yang parallel berkorelasi. Interpretasi ini menjadi asumsi dasar dalam pendekatan reliabillitas bentuk parallel (Parallel-forms) dan pendekatan reliabilitas bentuk sejajar (alternate-forms).

Interpretasi 2 :

= besarnya proporsi varians X yang dijelaskan oleh hubungan linearnya dengan .

Interpretasi ini berasal dari penafsiran koefisien determinasi sebagaimana biasanya dilakukan pada penafsiran koefisien korelasi linier Pearson. Interpretasi ini sangat penting artinya dalam menilai apakah suatu koefisien reliabilitas dapat dianggap cukup bermakna atau tidak.

Interpretasi 3

:

=

(21)

Interpretasi ini menyatakan bahwa koefisien reliabilitas merupakan besarnya perbandingan antara varians skor murni dan varians skor tampak pada


(59)

suatu tes atau merupakan proporsi varians skor tampak yang berisi varians skor murni.

Bila semua perbedaan yang terjadi pada skor tampak subjek merefleksikan perbedaan skor murni, yaitu , maka reliabilitas tes tersebut adaal sempurna dengan koefisien reliabilitas =1. Artinya setiap skor tampak yang diperoleh subjek satu dengan yang lainnya memang perbedaan skor murni mereka, bukan perbedaan yang disebabkan oleh faktor-faktor lain sebagai sumber error dalam pengukuran itu. jadi semakin kecil koefisien reliabilitas, yaitu semakin jauh dari angka 1, berarti semakin besar error pengukuran yang terjadi. Interpretasi 4

:

=

(22)

Koefisien reliabilitas dalam interpretasi ini merupakan kuadrat koefisien korelasi antara skor tampak dan skor murni.

Interpretasi 5 :

= (23)

Koefisien reliabilitas adalah sama dengan satu dikurangi kuadrat koefisien korelasi antara skor tampak dengan error pengukuran. Semakin besar korelasi antara skor—tampak dengan error pengukuran, akan semakin kecil koefisien reliabilitasnya.

Interpretasi 6 :


(60)

Interpretasi ini mengaitkan reliabilitas dengan varians error dan varians skor-tampak yang dihubungkan dengan homogenitas subjek. Koefisien reliabilitas pada kelompok homogen akan relative lebih rendah dibandingkan pada kelompok yang heterogen.

Skor murni tidak dapat diperoleh secara langsung dan koefisien reliabilitas merupakan salah satu bentuk pendekatan yang dapat digunakan untuk mengestimasi nilai skor murni. Estimasi atau perkiraan terhadap skor murni kemungkinan besar akan selalu mengandung eror. Sehingga penafsiran terhadap koefisien reliabilitas harus dilakukan melalui penafsiran standard eror pengukuran, dengan rumusan sebagai berikut:

=

(25)

Keterangan :

: Standard error dari pengukuran Sx : standard deviasi skor

: koefisien reliabilitas

Semakin tinggi koefisien reliabilitas suatu tes, maka kemungkinan kesalahan yang terjadi semakin kecil.

e. Faktor-faktor yang Mempengaruhi Reliabilitas

Crocker & Algina (2005) menjelaskan bahwa ada 3 hal utama yang secara tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu instrumen, yaitu:


(61)

1) Homogenitas Kelompok

Secara umum dapat dijelaskan bahwa dalam suatu kondisi tes, semakin besar homogenitas kelompok berkaitan dengan trait-trait tertentu yang diukur maka indeks reliabilitas akan semakin rendah bila dibandingkan dengan kondisi ketika kelompok sampel lebih heterogen.

2) Batasan Waktu dalam Tes

Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang lebih pendek, terutama pada tes dengan komposisi aitem yang sama. Hal ini dikarenakan performansi subjek pada tes yang lebih panjang waktunya akan lebih maksimal. Sementara pada tes yang memiliki waktu lebih pendek, performansi subjek akan sangat ditentukan oleh banyak faktor, termasuk kelelahan dan performansi subjek lain yang mengikuti tes tersebut.

3) Panjang Tes

Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya aitem-aitem yang menyususn tes tersebut. Secara umum, semakin banyak aitem yang memiliki kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas instrumen tersebut.


(62)

5. Validitas

a. Pengertian Validitas

Validitas berasal dari kata validity yang berarti sejauhmana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Suatu tes atau instrument pengukur dapat dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur, yang sesuai dengan maksud dilakukannya pengukuran tersebut (Azwar, 2007)

Sisi lain dari pengertian validitas menurut Azwar (2007) adalah aspek kecermatan pengukuran. Suatu alat ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi juga harus memberikan gambaran yang cermat mengenai data tersebut. Cermat berarti bahwa pengukuran itu dapat memberikan gambaran mengenai perbedaan yang sekecil-kecilnya di antara subjek yang satu dengan yang lain.

Lebih lanjut, Azwar (2007) menambahkan bahwa pengertian validitas juga sangat erat kaitannya dengan tujuan pengukuran. Oleh karena itu, tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Dengan demikian, pernyataan valid terhadap suatu pengukuran harus diikuti oleh keterangan yang menunjuk kepada tujuan awal pengukuran serta kelompok subjek yang mana.

Anastasi & Urbina (2003) menyatakan bahwa validitas suatu tes itu menggambarkan apa yang hendak diukur oleh tes dan seberapa baik tes tersebut mengukurnya. Adapun fungsi validitas dalam pengukuran psikologis adalah:


(1)

Zscore(AN) Zscore(WU) Zscore(AN) Pearson Correlation 1 .434**

Sig. (1-tailed) .000

N 2011 2011

Zscore(WU) Pearson Correlation .434** 1

Sig. (1-tailed) .000

N 2011 2011

**. Correlation is significant at the 0.01 level (1-tailed).

Correlations

Zscore(AN) Zscore(ME) Zscore(AN) Pearson Correlation 1 .597**

Sig. (1-tailed) .000

N 2011 2011

Zscore(ME) Pearson Correlation .597** 1

Sig. (1-tailed) .000

N 2011 2011

**. Correlation is significant at the 0.01 level (1-tailed).

Correlations

Zscore(GEE) Zscore(RA) Zscore(GEE) Pearson Correlation 1 .492**

Sig. (1-tailed) .000

N 2011 2011


(2)

Zscore(GEE) Zscore(ZR) Zscore(GEE) Pearson Correlation 1 .490**

Sig. (1-tailed) .000

N 2011 2011

Zscore(ZR) Pearson Correlation .490** 1

Sig. (1-tailed) .000

N 2011 2011

**. Correlation is significant at the 0.01 level (1-tailed).

Correlations

Zscore(GEE) Zscore(FA) Zscore(GEE) Pearson Correlation 1 .348**

Sig. (1-tailed) .000

N 2011 2011

Zscore(FA) Pearson Correlation .348** 1

Sig. (1-tailed) .000

N 2011 2011

**. Correlation is significant at the 0.01 level (1-tailed).

Correlations

Zscore(GEE) Zscore(WU) Zscore(GEE) Pearson Correlation 1 .274**

Sig. (1-tailed) .000

N 2011 2011


(3)

Zscore(GEE) Zscore(ME) Zscore(GEE) Pearson Correlation 1 .466**

Sig. (1-tailed) .000

N 2011 2011

Zscore(ME) Pearson Correlation .466** 1

Sig. (1-tailed) .000

N 2011 2011

**. Correlation is significant at the 0.01 level (1-tailed).

Correlations

Zscore(RA) Zscore(ZR) Zscore(RA) Pearson Correlation 1 .999**

Sig. (1-tailed) .000

N 2011 2011

Zscore(ZR) Pearson Correlation .999** 1

Sig. (1-tailed) .000

N 2011 2011

**. Correlation is significant at the 0.01 level (1-tailed).

Correlations

Zscore(RA) Zscore(FA) Zscore(RA) Pearson Correlation 1 .437**

Sig. (1-tailed) .000

N 2011 2011


(4)

Zscore(RA) Zscore(WU) Zscore(RA) Pearson Correlation 1 .417**

Sig. (1-tailed) .000

N 2011 2011

Zscore(WU) Pearson Correlation .417** 1

Sig. (1-tailed) .000

N 2011 2011

**. Correlation is significant at the 0.01 level (1-tailed).

Correlations

Zscore(RA) Zscore(ME) Zscore(RA) Pearson Correlation 1 .519**

Sig. (1-tailed) .000

N 2011 2011

Zscore(ME) Pearson Correlation .519** 1

Sig. (1-tailed) .000

N 2011 2011

**. Correlation is significant at the 0.01 level (1-tailed).

Correlations

Zscore(ZR) Zscore(FA) Zscore(ZR) Pearson Correlation 1 .436**

Sig. (1-tailed) .000

N 2011 2011


(5)

Zscore(ZR) Zscore(WU) Zscore(ZR) Pearson Correlation 1 .417**

Sig. (1-tailed) .000

N 2011 2011

Zscore(WU) Pearson Correlation .417** 1

Sig. (1-tailed) .000

N 2011 2011

**. Correlation is significant at the 0.01 level (1-tailed).

Correlations

Zscore(ZR) Zscore(ME) Zscore(ZR) Pearson Correlation 1 .518**

Sig. (1-tailed) .000

N 2011 2011

Zscore(ME) Pearson Correlation .518** 1

Sig. (1-tailed) .000

N 2011 2011

**. Correlation is significant at the 0.01 level (1-tailed).

Correlations

Zscore(FA) Zscore(WU) Zscore(FA) Pearson Correlation 1 .390**

Sig. (1-tailed) .000

N 2011 2011


(6)

Zscore(FA) Zscore(ME) Zscore(FA) Pearson Correlation 1 .335**

Sig. (1-tailed) .000

N 2011 2011

Zscore(ME) Pearson Correlation .335** 1

Sig. (1-tailed) .000

N 2011 2011

**. Correlation is significant at the 0.01 level (1-tailed).

Correlations

Zscore(WU) Zscore(ME) Zscore(WU) Pearson Correlation 1 .456**

Sig. (1-tailed) .000

N 2011 2011

Zscore(ME) Pearson Correlation .456** 1

Sig. (1-tailed) .000

N 2011 2011