Differential Item Functioning (DIF) Administrasi Tes pada Aitem Big Five Inventory (BFI) versi Indonesia

(1)

INDONESIA

SKRIPSI

Diajukan Untuk Memenuhi Persyaratan Ujian Sarjana Psikologi

Oleh:

UTAMI NURHAFSARI PUTRI

091301050

FAKULTAS PSIKOLOGI

UNIVERSITAS SUMATERA UTARA

GANJIL, 2012/2013


(2)

SKRIPSI

DIFFERENTIAL ITEM FUNCTIONING

(DIF) ADMINISTRASI

TES PADA AITEM

BIG FIVE INVENTORY

(BFI) VERSI

INDONESIA

Dipersiapkan dan disusun oleh:

UTAMI NURHAFSARI PUTRI 091301050

Telah dipertahankan di depan Dewan Penguji Pada tanggal 11 Juli 2013

Mengesahkan, Dekan Fakultas Psikologi

Prof. Dr. Irmawati, psikolog NIP. 19530131 198003 2 001

Tim Penguji Departemen Psikologi Umum dan Eksperimen

1. Dina Nazriani, MA Penguji I/ Dosen

NIK: 841005 1104 2001 Pembimbing

2. Etty Rahmawati, M. Si Penguji II NIP : 19810725 200801 2 013

3. Juliana I. Saragih, M. Psi, psikolog Penguji III NIP : 19800722 200502 2 001


(3)

LEMBAR PERNYATAAN

Saya yang bertanda tangan dibawah ini, menyatakan dengan sesungguhnya bahwa skripsi saya yang berjudul:

Differential Item Functioning (DIF) Administrasi Tes pada Aitem Big Five Inventory (BFI) versi Indonesia

adalah karya sendiri dan belum pernah diajukan untuk memperoleh gelar kesarjanaan disuatu perguruan tinggi manapun.

Adapun bagian-bagian tertentu dalam penulisan skripsi ini yang saya kutip dari hasil karya orang lain telah dituliskan sumbernya secara jelas sesuai dengan norma, kaidah dan etika penulisan ilmiah.

Apabila dikemudian hari ditemukan adanya kecurangan dalam skripsi ini, saya bersedia menerima sanksi pencabutan gelar akademis yang saya sandang dan sanksi-sanksi lainnya sesuai dengan peraturan perundangan yang berlaku.

Medan, Oktober 2013

Utami Nurhafsari Putri NIM. 091301050


(4)

Inventory (BFI) versi Indonesia

Utami Nurhafsari Putri1 dan Dina Nazriani2.

ABSTRAK

Perkembangan teknologi dimasa ini memunculkan administrasi tes baru, yaitu administrasi tes online, yang sebelumnya hanya menggunakan metode paper-and-pencil atau bisa disebut dengan administrasi tes manual. Perkembangan metode pelaksanaan tes ini memunculkan tantangan baru berkaitan dengan evaluasi karakteristik psikometris alat tes, salah satunya adalah pengujian DIF. DIF merupakan konsep pengukuran bias yang berpengaruh pada validitas. DIF bertujuan untuk melihat keadilan aitem suatu alat tes pada dua kelompok yang berbeda. Penelitian ini menggunakan Big Five Inventory (BFI) versi Indonesia yang diadaptasi oleh Mariyanti dan Rahmawati (2011). Penelitian ini bertujuan untuk melihat apakah BFI versi Indonesia adil dan bisa digunakan baik saat diadministrasikan secara manual maupun online. Hasil penelitian ini menemukan terdapat DIF administrasi tes pada tiga aitem BFI versi Indonesia yang berasal dari aspek Extraversion dan Openness, dengan effect size yang tidak signifikan (negligible). Hal ini menunjukkan bahwa secara umum, alat tes BFI versi Indonesia dapat dipergunakan dan disajikan baik pada administrasi tes manual maupun online.

Kata Kunci: Differential Item Functioning (DIF),Administrasi Tes, BFI, Big Five 1

Mahasiswa Fakutas Psikologi Universitas Sumatera Utara

2Dosen Departemen Umum dan Eksperimen Fakultas Psikologi Universitas Sumatera Utara


(5)

Utami Nurhafsari Putri and Dina Nazriani .

ABSTRACT

The development of technology in this era emerges the new test administration, namely online test administration, which previously only using paper-and-pencil or can be called with the manual test administration. The development of this method emerges new challenges relating to the evaluation of psychometrics characteristic of the test, one of which is testing DIF. DIF is a concept of bias measurement that can be affecting validity. The purpose of DIF is checking the item fairness of the test for two different groups. This research is using Big Five Inventory (BFI) Indonesian version which is already adapted by Mariyanti and Rahmawati (2011). The purpose of this research is checking whether BFI Indonesian version is fair and can be used for both online and manual test administration. The result of this research found that there was DIF test administration on three items of BFI Indonesian version that belongs to Extraversion and Openness’ aspect, with negligible effect size. This fact shows that in common, this BFI Indonesian version test can be used and administered both online and manual test administration.

Keywords: Differential Item Functioning (DIF), Test Administration, BFI, Big Five

1

The Student of Psychology Faculty, University of Sumatera Utara

2The Lecturer of General and Experiment Department of Psychology Faculty, University of Sumatera Utara


(6)

Puji dan syukur penulis panjatkan ke hadirat Allah SWT beserta junjungan nabi besar Muhammad SAW karena berkat karunia-Nya membuat

Penulis dapat menyelesaikan skripsi yang berjudul “Differential Item Functioning (DIF) Administrasi Tes pada Aitem Big Five Inventory (BFI) versi Indonesia”.

Penulisan skripsi ini dilaksanakan untuk memenuhi persyaratan sarjana. Selain itu, Penulis juga berharap skripsi ini dapat memperluas wawasan dan menambah pengetahuan para pembaca sebagai mahasiswa, praktisi psikologi eksperimen dan para praktisi psikometri, dan bagi setiap orang yang meminati dunia Psikologi Umum dan Eksperimen, khususnya yang berkaitan dengan karakteristik psikometri suatu alat ukur.

Penulis mengucapkan terima kasih kepada :

1. Seluruh keluarga, bapak, mama, dan adik yang selalu memberi dukungan dalam kehidupan saya.

2. Ibu Prof. Dr. Irmawati, psikolog., selaku Dekan Fakultas Psikologi USU

3. Kak Dina Nazriani, MA, selaku dosen pembimbing dan mentor penulis, beserta Ibu Etty Rahmawati, M.Si., Kak Juliana Saragih, M.Psi, psikolog., sebagai dosen penguji penulis yang telah banyak membantu dalam menyelesaikan skripsi ini.

4. Pak Ferry Novliadi, M. Si., Kak Arliza Lubis, M.Psi, psikolog., Bang Tarmidi, M.Psi, psikolog., Pak Ari Widiyanta, M.Si, psikolog., Kak


(7)

Masitah, M.Si., dan semua dosen terutama dosen Departemen UMEKS yang secara langsung ataupun tidak langsung memberikan bantuan dalam proses penyelesaian skripsi ini.

5. Teman-teman saudara seminar saya di Dept. UMEKS, wulan, rahmi, bang Hitler, bang Armen, dan juga bang Agus yang telah banyak membantu memberikan waktu, masukan, inspirasi, semangat, dan juga meminjamkan buku kepada penulis.

6. Kakak, Adik, Teman-teman di Psikologi dan di luar Psikologi, terutama wina, dian wulan, dicky, dkk., yang selalu ada dan selalu memberikan bantuan serta semangat buat penulis. Para partisipan penelitian, serta semua pihak yang telah memberikan dukungan kepada penulis sehingga skripsi ini dapat terselesaikan.

Penulis menyadari bahwa penelitian ini masih jauh dari kesempurnaan, untuk itu penulis sangat mengharapkan kritik dan saran yang membangun demi perbaikan di masa yang akan datang. Penulis juga meminta maaf jika terdapat kesalahan dalam proses penyelesaian penelitian ini. Akhir kata penulis berharap kiranya hasil dari penelitan ini nantinya dapat bermanfaat bagi kita semua.

Medan, Oktober 2013 Penulis


(8)

LEMBAR PENGESAHAN... i

LEMBAR PERNYATAAN... ii

ABSTRAK... iii

KATA PENGANTAR... v

DAFTAR ISI... vii

DAFTAR TABEL... x

DAFTAR LAMPIRAN... xi

BAB I PENDAHULUAN A. Latar Belakang... 1

B. Rumusan Masalah... 9

C. Tujuan Penelitian... 9

D. Manfaat Penelitian... 9

E. Sistematika Penulisan... 10

BAB II LANDASAN TEORI A. Big Five... 12

1. Sejarah Big Five... 12

2. Tipe Kepribadian Big Five... 14

3. Big Five Inventory... 17

B. Differential Item Functioning (DIF)…... 21


(9)

2. Sumber Differential Item Functioning (DIF)... 24

3. Jenis Differential Item Functioning (DIF)... 26

4. Metode Analisis DIF... 27

C. Administrasi Tes………....…... 29

1. Definisi Administrasi Tes…... 29

2. Hal-hal yang Berkaitan dengan Administrasi Tes... 30

a. Persiapan Tester... 30

b. Kondisi Tes... 31

c. Perkenalan Tes: Rapport dan Orientasi tes... 33

D.Differential Item Functioning Administrasi Tes pada Aitem Big Five Inventory versi Indonesia... 35

BAB III METODE PENELITIAN A. Data yang Digunakan ... 44

B. Subjek Penelitian... 44

C. Instrumen Penelitian... 45

D. Prosedur Pelaksanaan Penelitian... 46

1. Persiapan Penelitian... 46

2. Pelaksanaan Penelitian... 47

3. Pengolahan Data Penelitian... 49


(10)

5. Kesimpulan dan Saran... 50

E. Metode Analisis Data... 50

1. Reliabilitas ... 51

2. Regresi Logistik (Ordinal) ... 52

F. Program Komputer yang Digunakan... 54

BAB IV HASIL DAN PEMBAHASAN A. Analisa Data Penelitian... 56

1. Gambaran Subjek Penelitian... 56

2. Hasil Analisis... 58

a. Reliabilitas Komposit... 58

b. Differential Item Functioning (DIF) ... 59

B. Pembahasan... 63

BAB V KESIMPULAN DAN SARAN A. Kesimpulan... 70

B. Saran... 70

DAFTAR PUSTAKA... 73


(11)

DAFTAR TABEL

Tabel 1. Sub Faktor pada trait dalam model Big Five..... 17

Tabel 2. Pengelompokan Aitem-Aitem pada BFI versi Indonesia... 21

Tabel 3. Blueprint berdasarkan definisi BFI versi Indonesia... 46

Tabel 4. Gambaran Subjek penelitian Kelompok Manual dan Online Berdasarkan Jenis Kelamin dan Usia... 56

Tabel 5. Reliabilitas Skor Komposit Manual dan Online... 58

Tabel 6. Hasil Analisis Regresi Logistik Ordinal per Aitem BFI versi Indonesia... 59


(12)

DAFTAR LAMPIRAN

Lampiran 1. BFI versi Indonesia... 76

Lampiran 2. Output SPSS Uji Normalitas... 79

Lampiran 3. Output SPSS (Pearson-Product Moment) Korelasi Antar Aspek BFI... 80

Lampiran 4. Output SPSS Reliabilitas (alpha cronbach) setiap Aspek BFI dan Koefisien Standar Deviasi setiap Aspek BFI... 82

Lampiran 5. SPSS SYNTAX Regresi Logistik Ordinal... 85


(13)

Utami Nurhafsari Putri dan Dina Nazriani .

ABSTRAK

Perkembangan teknologi dimasa ini memunculkan administrasi tes baru, yaitu administrasi tes online, yang sebelumnya hanya menggunakan metode paper-and-pencil atau bisa disebut dengan administrasi tes manual. Perkembangan metode pelaksanaan tes ini memunculkan tantangan baru berkaitan dengan evaluasi karakteristik psikometris alat tes, salah satunya adalah pengujian DIF. DIF merupakan konsep pengukuran bias yang berpengaruh pada validitas. DIF bertujuan untuk melihat keadilan aitem suatu alat tes pada dua kelompok yang berbeda. Penelitian ini menggunakan Big Five Inventory (BFI) versi Indonesia yang diadaptasi oleh Mariyanti dan Rahmawati (2011). Penelitian ini bertujuan untuk melihat apakah BFI versi Indonesia adil dan bisa digunakan baik saat diadministrasikan secara manual maupun online. Hasil penelitian ini menemukan terdapat DIF administrasi tes pada tiga aitem BFI versi Indonesia yang berasal dari aspek Extraversion dan Openness, dengan effect size yang tidak signifikan (negligible). Hal ini menunjukkan bahwa secara umum, alat tes BFI versi Indonesia dapat dipergunakan dan disajikan baik pada administrasi tes manual maupun online.

Kata Kunci: Differential Item Functioning (DIF),Administrasi Tes, BFI, Big Five 1

Mahasiswa Fakutas Psikologi Universitas Sumatera Utara

2Dosen Departemen Umum dan Eksperimen Fakultas Psikologi Universitas Sumatera Utara


(14)

Inventory (BFI) Indonesian Version

Utami Nurhafsari Putri1 and Dina Nazriani2.

ABSTRACT

The development of technology in this era emerges the new test administration, namely online test administration, which previously only using paper-and-pencil or can be called with the manual test administration. The development of this method emerges new challenges relating to the evaluation of psychometrics characteristic of the test, one of which is testing DIF. DIF is a concept of bias measurement that can be affecting validity. The purpose of DIF is checking the item fairness of the test for two different groups. This research is using Big Five Inventory (BFI) Indonesian version which is already adapted by Mariyanti and Rahmawati (2011). The purpose of this research is checking whether BFI Indonesian version is fair and can be used for both online and manual test administration. The result of this research found that there was DIF test administration on three items of BFI Indonesian version that belongs to Extraversion and Openness’ aspect, with negligible effect size. This fact shows that in common, this BFI Indonesian version test can be used and administered both online and manual test administration.

Keywords: Differential Item Functioning (DIF), Test Administration, BFI, Big Five

1

The Student of Psychology Faculty, University of Sumatera Utara

2The Lecturer of General and Experiment Department of Psychology Faculty, University of Sumatera Utara


(15)

Psikologi adalah cabang ilmu yang mempelajari tentang perilaku manusia. Terdapat banyak cara untuk mempelajari perilaku manusia, salah satunya adalah dengan menggunakan alat tes psikologi. Tujuan penggunaan alat tes psikologi bergantung pada apa yang ingin dilihat, baik itu intelegensi, struktur kepribadian, maupun minat dan bakat individu.

Tes psikologi adalah alat ukur yang berisikan sekumpulan aitem berstandar objektif yang dapat digunakan secara luas, yang dapat membedakan ataupun memprediksi karakteristik individu baik secara psikologis ataupun perilakunya (Anastasi & Urbina, 1997; Kaplan & Sacuzzo, 2005). Tes psikologi akan menghasilkan skor berdasarkan respon yang diberikan dari individu, yang kemudian memberikan informasi mengenai seberapa baik individu dalam bidang tertentu, bisa dalam pekerjaan ataupun mengetahui karakter seseorang, tergantung dari tujuan tes psikologi dan tiga fungsi utamanya, yaitu pada konteks pendidikan, pekerjaan, dan klinis (Anastasi dan Urbina, 1997; Aslam, 2011).

Menurut Kaplan dan Saccuzo (2005), terdapat dua jenis tes psikologi, yaitu tes kepribadian (personality test) dan tes kemampuan (ablility test), termasuk tes intelegensi. Tes kepribadian digunakan untuk melihat struktur kepribadian individu, seperti BFI, 16PF, MMPI, dan sebagainya. Sedangkan tes kemampuan digunakan untuk melihat keterampilan individu terhadap suatu hal, termasuk diantaranya tes inteligensi dan tes minat bakat.


(16)

Alat tes kemampuan umumnya hanya menggunakan satu jenis alat tes dalam serangkaian tes psikotest (misalnya IST saja, CFIT, atau APM saja), sedangkan alat tes kepribadian memiliki beragam alat tes. Beberapa alat tes yang sering digunakan adalah EPPS, Papikostick, Kraepelin, dan PAULI (Juliana, komunikasi personal tanggal 19 Oktober 2012 pukul 12.30 WIB). Selain keempat tes kepribadian diatas, terdapat pula DISC, dan juga tes Grafis yang umumnya juga digunakan di biro psikologi (Tarmidi, komunikasi personal tanggal 24 April 2013 pukul 09.00 WIB).

Biasanya tes kepribadian yang dipergunakan tidak terlalu berbeda dan bervariasi antara biro yang satu dengan yang lain (Ari, komunikasi personal tanggal 24 April 2013 pukul 09.30 WIB). Hal ini tergantung dari permintaan user mengenai hal apa saja yang perlu untuk diungkap. Untuk menambah informasi, dapat dilakukan pula self-report yang dibuat langsung oleh psikolog dan juga adanya wawancara untuk melihat aspek non-verbal peserta tes (Ferry, komunikasi personal tanggal 24 April 2013 pukul 11.00 WIB).

Berdasarkan hasil wawancara dan fenomena yang ditemukan oleh peneliti, didapatkan informasi bahwa penggunaan alat tes kepribadian lebih banyak variasinya dibandingkan untuk tes kemampuan, yang sudah pasti memiliki usaha lebih banyak baik dari segi waktu maupun jumlah aitem. Sedangkan secara praktis, alat tes tidak dibenarkan memakan banyak waktu karena dapat menimbulkan kelelahan dan kebosanan (Burisch, dalam John, O. P., Naumann, L. P., & Soto, C. J., 2008; John & Srivastava, 1999). Salah satu alat tes dengan aitem sedikit sehingga memiliki efisiensi waktu dan tenaga adalah alat tes kepribadian


(17)

Big Five Inventory (BFI) yang disusun oleh John, Donahue dan Kentle pada tahun 1991 dengan menggunakan teori kepribadian Big Five.

Saat ini banyak ahli psikologi berkeyakinan bahwa gambaran yang paling baik mengenai struktur trait dimiliki oleh Big Five yang juga dikenal dengan istilah Five Factor Model (Mastuti, 2005), karena luasnya level abstraksi yang dimiliki. Luasnya level abstraksi yang dimaksudkan adalah meski sudah banyak ahli teori yang membentuk berbagai macam trait, pada dasarnya adalah kelima hal tersebut. Adanya kesamaan antara sebagian besar sistem yang ada pada ciri-ciri kepribadian memberikan model deskriptif integratif untuk penelitian. Dengan demikian, struktur Big Five tidak berarti bahwa trait kepribadian dapat dikurangi menjadi hanya lima dimensi. Sebaliknya, lima dimensi ini mewakili kepribadian pada tingkat abstraksi luas, dan masing-masing dimensi merangkum sejumlah hal berbeda, dengan karakteristik kepribadian yang lebih spesifik (John & Srivastava, 1999; McCrae & Costa, 2003; dalam Pervin, 2005). Selain itu, teori big five juga terbukti memiliki konsistensi meski diterapkan di tempat berbeda, termasuk Indonesia (Widhiarso, 2004).

Banyaknya penelitian dan hasil riset yang dilakukan oleh para ahli kepribadian, termasuk diantaranya Eysenck, Cattell, dan Costa dan McCrae, dimana kemudian munculnya kesepakatan bahwa kepribadian individu terdiri dari Big Five, menjadikan konsep ini stabil (Coaley, 2010; Pervin, 2005). Sejalan dengan pernyataan dari seorang psikolog bahwa konsep Big Five menjadi stabil karena banyaknya penelitian yang berkaitan dengan Big Five itu sendiri, sehingga konsep Big Five termasuk teori yang terbentuk berdasarkan riset (Arliza,


(18)

komunikasi personal tanggal 16 Mei 2013). Bahkan terlihat peningkatan publikasi penelitian-penelitian yang berkaitan dengan Big Five sejak terbentuknya konsep tersebut. Tercatat pada tahun 2005-2009 jumlah penelitian yang dipublikasikan mencapai lebih dari 1500an jika dibandingkan pada tahun awal terbentuknya konsep Big Five, yaitu awal tahun 1990an yang hanya berkisar 250an (John, O. P., Naumann, L. P., & Soto, C. J., 2008).

Penelitian yang dilakukan oleh Schmitt, dkk (2007) menghasilkan bahwa BFI sepenuhnya dapat digeneralisasikan dalam budaya yang beragam, dimensi kepribadian big five dapat diukur dengan reliabel pada manusia dengan budaya yang berbeda. Tak heran jika Big Five Inventory (BFI) sudah banyak mengalami adaptasi ke dalam berbagai bahasa, seperti bahasa Italia, Jerman, Cina, Spanyol,

Portugis, Swedia, Belanda, Ibrani, dan Lithuania

(http://www.ocf.berkeley.edu/~johnlab/bfi.htm). Pengadaptasian bahasa ini tidak terkecuali kedalam bahasa Indonesia yang dilakukan oleh Mariyanti dan Rahmawati yang merupakan peneliti yang berasal dari Universitas Sumatera Utara, pada tahun 2011.

BFI yang sudah diadaptasi tersebut berisi empat puluh empat aitem sehingga tidak menimbulkan kelelahan, waktunya lebih singkat, serta dapat diberikan secara berkelompok. Selain itu, reliabilitas dan validitas konstraknya juga sudah diuji oleh Mariyanti dan Rahmawati (2011) dalam proses pengadaptasiannya ke dalam bahasa Indonesia, sehingga layak untuk dipergunakan demi alasan pengembangan alat ukur BFI.


(19)

Pada dasarnya semua pelaksanaan tes (baik tes kepribadian maupun tes kemampuan) berawal dari tes paper-and-pencil atau bisa disebut administrasi tes secara manual, namun administrasi tes menggunakan komputer semakin dirasa lumrah saat ini. Fenomena ini muncul seiring dengan berkembangnya zaman dimana perkembangan teknologi baik itu sistem komputerisasi ataupun dunia internet, semakin tidak bisa dipisahkan dari kehidupan manusia. Kemajuan teknologi ini memudahkan individu untuk mengakses berbagai informasi dan memberikan revolusi baru pada dunia alat tes, termasuk pada variasi alat tes kepribadian yang dapat diakses melalui internet (Kaplan & Sacuzzo, 2005), sehingga memunculkan administrasi baru yaitu administrasi tes secara online.

Fenomena alat tes dengan sistem komputerisasi mulai menjamur dan sudah banyak pula alat tes yang bisa diakses secara online. Seperti halnya pada alat tes BFI, individu tidak perlu datang ke suatu biro psikologi untuk mengerjakan tes tersebut karena sudah bisa dikerjakan secara online. Meskipun terkadang menghasilkan kecemasan tersendiri dan tidak ada interaksi langsung (Kaplan & Sacuzzo, 2005), terdapat beberapa keunggulan yang diberikan ketika menggunakan komputer yaitu efisiensi waktu, memudahkan dalam proses pengadministrasian baik dari pihak peserta maupun administrator tes ( Anastasi & Urbina, 1997).

Perbedaan administrasi tes ini memunculkan tantangan baru berkaitan dengan karakteristik psikometris alat tes. Salah satu karakteristik psikometris yang berkaitan dengan hal ini adalah differential item functioning (DIF) yang mengacu pada derajat keadilan tes ketika dikenakan pada dua kelompok yang berbeda


(20)

(administrasi tes secara manual ataupun online), dimana setiap individu pada kedua kelompok memiliki latent trait yang sama, yaitu memiliki OCEAN. DIF merupakan hal penting yang berkaitan dengan validitas, yang menjadi hal fundamental bagi alat tes (American Educational Research Association, dkk., dalam Osterlind, 2010).

Konsep DIF berkaitan dengan apakah kelompok yang satu dengan yang lain, yang memiliki latent trait yang sama, memberikan respon yang sama ketika diberikan aitem yang sama (keadilan antara kelompok yang satu dengan yang lain). DIF menjadi penting untuk diuji jika terdapat keraguan dua kelompok tidak akan mendapatkan perlakuan yang adil meski mendapat stimulus yaitu berupa aitem yang sama. Sama halnya dalam konteks perbedaan administrasi tes yaitu manual dan online, perlu diperhatikan keadilan aitem pada alat tes yang diberikan pada kedua kelompok.

Pengadministrasian tes sejak awal dibuat untuk diadministrasikan secara manual, yang kemudian ditransformasi dan dibentuk dalam form digital yang dapat diakses melalui komputer dan jaringan internet yang kemudian dikenal dengan adminitrasi tes online. Administrasi tes online mungkin memberikan keunggulan tersendiri, namun terlepas dari itu, pada awalnya setiap tes diadministrasikan secara manual, termasuk BFI. BFI dikonstruk awalnya untuk diberikan secara manual kepada peserta tes, meskipun sekarang sudah bisa ditemui pengerjaannya secara online. Pada dasarnya alat tes harus bisa berfungsi sebaik pengadministrasian dasarnya, yaitu administrasi manual. Namun adanya fenomena administrasi tes online, memunculkan pertanyaan sejauh mana kedua


(21)

administrasi ini dapat berfungsi sama, yaitu mampu memberikan respons yang sama dari kedua kelompok yang mendapat pengadministrasian yang berbeda, terhadap aitem yang sama dari alat tes BFI.

Penelitian oleh Aslam (2011) yang berkaitan dengan standarisasi instruksi pada pengadministrasian tes juga menghasilkan kesimpulan secara umum bahwa terdapat pengaruh instruksi yang terstandar dan yang tidak terstandar dalam pengadministrasian Big Five Inventory terhadap hasil Big Five Inventory. Hasil penelitian ini cukup memberikan bukti bahwa metode pengadministrasian yang sama (administrasi manual), namun dengan instruksi yang berbeda (tidak standar) saja bisa memberikan pengaruh pada hasil tes, terlebih lagi jika metode pengadministrasiannya secara keseluruhan sudah jelas berbeda seperti halnya pada administrasi tes manual dan online.

Penggunaan komputer sebagai alat bantu dalam mendapatkan informasi selain dari EPPS, Papikostik, dan tes grafis sudah diaplikasikan. Namun, penggunaan komputer dianggap masih terbatas dan tidak dijadikan pedoman utama dalam mendiagnosa individu. Hal ini dikarenakan, keterbatasan informasi yang bisa didapat dari tes dengan program komputer, terlebih lagi ketika tes tersebut digunakan oleh yang bukan berlatar belakang psikologi. Penggunaan sistem komputer dirasa unggul dalam efisiensi waktu, namun dianggap tidak memberikan esensi dari psikologis itu sendiri karena hanya sedikit informasi yang bisa didapat atau digali. Berbeda dengan manual dimana skill psikolog akan berperan didalamnya. Tidak menutup mata bahwa perkembangan zaman harus bisa diadaptasikan, sehingga penggunaan tes baik secara manual dan dengan


(22)

sistem komputerisasi kemudian diaplikasikan. Namun, tetap ada yang harus dipertimbangkan dimana penggunaannya harus disesuaikan dengan situasi yang ada (Ari, komunikasi personal 24 April 2013).

Kemajuan teknologi mungkin mempermudah dan meringankan kinerja individu, namun tetap tidak bisa menggantikan secara penuh keutamaan yang bisa dilakukan individu itu sendiri. Sama halnya dengan administrasi tes online yang

merupakan “anak baru” yang masih perlu diajarkan banyak hal (pengujian) jika dibandingkan dengan administrasi tes manual. Hal ini karena administrasi tes manual merupakan setting-an asli yang menjadi awal mula, dasar, dan acuan dalam hal pengadministrasian tes. Inilah alasan mengapa administrasi tes manual dianggap menjadi kelompok referensi (reference group) sedangkan administrasi tes online dianggap sebagai kelompok yang menjadi kelompok fokal (focal group), sesuai dengan istilah penamaan dua kelompok yang dibandingkan pada konsep DIF. Perlu adanya pengujian untuk melihat apakah ada perbedaan respon antara kedua kelompok yang memiliki latent trait yang sama sudah jelas mendapat cara pengadministrasian tes berbeda, sehingga uji DIF menjadi hal yang penting dalam penelitian ini.

Konsep DIF pada kedua kelompok tersebut kemudian diterapkan pada penggunaan alat tes BFI versi Indonesia yang telah diadaptasi oleh Mariyanti dan Rahmawati pada tahun 2011. Dengan pengujian DIF administrasi tes, akan teruji pula keadilan aitem pada alat tes BFI versi Indonesia baik saat diadministrasikan secara manual maupun online. Dengan adanya pengujian DIF, dapat dilihat apakah BFI dengan administrasi tes online sama baiknya dengan penyajian BFI


(23)

pada administrasi tes secara manual. Dengan demikian, BFI versi Indonesia akan teruji DIF administrasi tesnya sebagai alat tes yang adil atau tidak, pada kelompok manual dan online. Penelitian ini juga diharapkan dapat melengkapi karakteristik psikometri pada BFI versi Indonesia dari segi DIF administrasi tes, sehingga BFI versi Indonesia ini dapat digunakan dikemudian hari sebagai variasi baru dalam alat tes kepribadian di Indonesia.

B. Rumusan Masalah

Masalah dalam penelitian ini dirumuskan dalam bentuk pertanyaan penelitian yaitu, apakah terdapat DIF administrasi tespada aitem-aitem BFI versi Indonesia?

C. Tujuan Penelitian

Penelitian ini bertujuan untuk menguji apakah terdapat DIF administrasi tes pada aitem-aitem dalam alat tes BFI versi Indonesia, sehingga akan teruji apakah penggunaan BFI versi Indonesia adil ketika diadministrasikan secara manual maupun online.

D. Manfaat Penelitian

Penelitian ini diharapkan dapat memberikan manfaaat teoritis maupun praktis, sebagai berikut:

1. Manfaat Teoritis

Penelitian ini diharapkan dapat menambah manfaat keilmuan dalam bidang psikologi mengenai karakteristik psikometri alat ukur kepribadian Big Five


(24)

Inventory versi Indonesia ditinjau dari differential item functioning administrasi tes.

2. Manfaat Praktis

Penelitian ini diharapkan dapat memberikan masukan bagi pengguna Big Five Inventory agar memperhatikan pengaruh perbedaan administrasi tes, terutama secara manual dan online. Penelitian ini juga diharapkan dapat melengkapi karakteristik psikometri pada BFI yang telah diadaptasi oleh Mariyanti dan Rahmawati (2011) ke dalam bahasa Indonesia dari segi DIF administrasi tesnya, sehingga BFI ini dapat digunakan dikemudian hari sebagai variasi baru dalam alat tes kepribadian agar bisa dipergunakan di Indonesia.

E. Sistematika Penulisan

Sistematika penulisan dalam penelitian ini adalah sebagai berikut: BAB I: PENDAHULUAN

Bab ini menjelaskan tentang latar belakang masalah, rumusan masalah, tujuan penelitian, manfaat penelitian dan sistematika penulisan.

BAB II: TINJAUAN PUSTAKA

Bab ini berisi tentang tinjauan teoritis yang menjadi acuan dalam pembahasan penelitian ini. Teori yang digunakan adalah teori Big Five Personality, Big Five Inventory, Administrasi Tes, Karakteristik Psikometri, dan teori Differential Item Functioning (DIF).


(25)

BAB III: METODE PENELITIAN

Bab ini menjelaskan tentang jenis penelitian, data yang digunakan, subjek penelitian, instrument penelitian, prosedur penelitian dan metode analisis data.

BAB IV : HASIL DAN PEMBAHASAN

Bab ini menjelaskan tentang hasil yang didapatkan dari penelitian, disertai dengan pembahasan mengenai hasil penelitian.

BAB V : KESIMPULAN DAN SARAN

Bab ini menjelaskan tentang kesimpulan dari hasil penelitian disertai dengan saran berkaitan dengan penelitian ini dan untuk penelitian lanjutan.


(26)

TINJAUAN PUSTAKA A. Big Five

1. Sejarah Big Five

Kepribadian menurut Allport (dalam Schultz, 2005) didefinisikan sebagai suatu organisasi dinamik dalam diri individu yang merupakan sistem psychophysical yang menentukan karakteristik perilaku dan pikiran individu. Dalam usaha mempelajari kepribadian manusia muncul pertanyaan mengenai perbandingan antara individu yang satu dan lainnya. Misalnya: seseorang mungkin saja mengalami depresi, namun sejauh mana tingkat depresi yang dialaminya? Para ahli sepakat bahwa cara untuk menjawab pertanyaan itu adalah dengan mengkategorisasikan individu kedalam kelompok tinggi, sedang atau rendah. Untuk melakukan hal itu maka kepribadian harus diuraikan menjadi beberapa tipe. Hal ini mengundang perdebatan mengenai jumlah dimensi dasar dari kepribadian. Berkaitan dengan hal ini, Allport pada tahun 1937 dan para ahli kepribadian lain, seperti Eysenck, Cattell, dan Costa dan McCrae melakukan pembahasan. Mereka kemudian membuat kesepakatan bahwa kepribadian terdiri dari trait (Coaley, 2010; John & Srivastava, 1999; McCrae & Costa, 2003; dalam Pervin, 2005).

Sejak kemunculan metode yang bernama analisis faktor, untuk mengidentifikasi dimensi atau faktor dari sekian banyaknya trait ditahun 1980an, maka mulailah banyak konsep mengenai trait yang bermunculan, termasuk konsep dimensi yang dibuat oleh Eysenck (3 dimensi utama) dan Cattell (16


(27)

dimensi utama) terhadap kepribadian. Tupes, Chrystal, dan Goldberg pada tahun 1981 (dalam Coaley, 2010), adalah peneliti pertama yang menemukan bahwa kepribadian bisa dikecilkan menjadi hanya 5 (lima) komponen. Kelima faktor yang ditemukan tersebut dibentuk dengan metode yang sederhana, yaitu mencoba menemukan unit dasar dari kepribadian dengan menganalisis kata-kata yang orang-orang biasa (tidak hanya psikolog) gunakan sehari-hari, untuk mendeskripsikan kepribadian seseorang. Hasilnya kemudian diurutkan menggunakan analisis faktor untuk melihat trait yang mana yang bisa berjalan secara bersamaan (Goldberg, dalam John, O. P., Naumann, L. P., & Soto, C. J., 2008; Pervin, 2005; Coaley, 2010).

Costa dan McCrae pada tahun 1985, 1992, adalah para peneliti yang paling terkenal dalam menemukan kelima faktor tersebut melalui analisis faktor (Coaley, 2010). McCrae & Costa.Jr (dalam Pervin, 2005) menyatakan bahwa pada trait kepribadian digambarkan dalam bentuk lima dimensi dasar. Lima faktor tersebut terdiri dari Opennes, Conscientiousness, Extraversion, Agreeableness, dan Neuroticism, yang biasa disebut OCEAN untuk mempermudah penghafalannya (John dalam Pervin, 2005).

Penamaan trait mungkin berbeda pada setiap teoris dan dari alat ukur yang ada, namun ide dan kontennya tetap sama. Hal ini kemudian mengundang persetujuan bahwa data yang ada mengarah pada kesimpulan bahwa yang terbentuk adalah kelima faktor tersebut. Dengan kata lain, deskripsi kepribadian individu dapat secara baik dibentuk dalam lima hal yang luas dan level abstraksi


(28)

yang luar biasa, yang dikenal sebagai Big Five (John & Srivastava, 1999; McCrae & Costa, 2003; dalam Pervin, 2005; Coaley 2010).

Konsep Big Five banyak dilibatkan dalam berbagai penelitian oleh ahli kepribadian di berbagai negara, dan tetap menghasilkan gambaran 5 dimensi dasar kepribadian. Fakta ini mendukung munculnya kesepakatan yang menyatakan bahwa konsep Big Five stabil. (Coaley, 2010; Pervin, 2005). Bahkan terlihat peningkatan publikasi penelitian-penelitian yang berkaitan dengan Big Five atau istilah lainnya adalah Five Factor Model (FFM) sejak terbentuknya konsep tersebut. Tercatat pada tahun 2005-2009 jumlah publikasi mencapai lebih dari 1500an jika dibandingkan pada tahun awal terbentuknya konsep Big Five, yaitu awal tahun 1990an yang hanya berkisar 250an publikasi (John, O. P., Naumann, L. P., & Soto, C. J., 2008).

2. Tipe Kepribadian Big Five

Berdasarkan penjelasan mengenai sejarah Big Five, maka dapat disimpulkan bahwa Big Five Personality adalah suatu pendekatan dalam dunia psikologi untuk melihat kepribadian manusia dengan menggunakan konsep FFM, yaitu trait yang tersusun dalam lima buah domain kepribadian yang telah dibentuk dengan menggunakan analisis faktor. Berikut ini adalah trait-trait dalam domain-domain dari Big Five Personality Costa & McCrae (dalam Pervin, 2005), yaitu: a. Openness (O)

Openness yang dimaksudkan adalah openness to experience, dimana trait ini mengidentifikasikan kepribadian individu dari sudut pandang keaktifan dalam mencari dan mengapresiasi pengalaman hidup, toleransinya terhadap hal-hal yang


(29)

baru dan tidak biasa. Orang dengan skor tinggi merupakan orang yang memiliki rasa ingin tahu, ketertarikan yang luas, kreatif, original, imajinatif, dan menyukai hal yang bervariasi (tidak tradisional). Sedangkan orang dengan skor rendah memiliki pemikiran yang konvensional, down-to-earth, ketertarikannya hanya pada hal tertentu, tidak artistik, dan tidak analitis.

b. Conscientiousness (C)

Trait ini mengidentifikasikan kepribadian individu dari sudut pandang derajat kemampuan individu terhadap pengorganisasian, daya tahan dan motivasi berperilaku dalam meraih tujuan, tidak bergantung, tidak tahan dengan orang yang ceroboh dan tidak bersemangat. Orang dengan skor tinggi dapat dipercaya, terorganisir dan teratur, pekerja keras, disiplin dan tepat waktu, teliti, rapi, ambisius, dan gigih. Sedangkan orang dengan skor rendah terlihat tanpa tujuan dan terlihat tidak perduli akan sesuatu, malas, sulit diandalkan, sembrono dan tidak teratur, mudah menyerah, dan suka bersenang-senang (hedonis).

c. Extraversion (E)

Trait ini mengidentifikasikan kepribadian individu dari segi kuantitas dan intensitas interaksi interpersonal, level aktivitas, kebutuhan untuk menstimulasi, kapasitas untuk memberi kesenangan. Orang dengan skor tinggi merupakan orang yang bersosial, aktif, talkative, people-oriented, optimis, fun-loving, dan penuh kasih. Sedangkan orang dengan skor rendah cenderung pendiam, task-oriented, penyendiri, pasif, dan kurang mengekspresikan perasaannya.


(30)

d. Agreeableness (A)

Trait ini mengidentifikasikan kepribadian individu dari segi kualitas pikiran, perasaan, dan tindakan, terhadap orientasi interpersonal dalam kontinum (rentang) compassion hingga antagonism. Orang dengan skor tinggi berhati lembut, good-nature, percaya pada orang lain, pemaaf, penolong, polos dan terang-terangan/blak-blakan. Sedangkan orang dengan skor rendah lebih kasar, curiga, sinis, kurang kooperatif, memiliki lebih mungkin dalam menyimpan dendam, menyebalkan dan terkesan kejam, mementingkan kepentingan sendiri, serta manipulatif.

e. Neuroticism (N)

Trait ini mengidentifikasi kepribadian individu pada sudut pandang kestabilan emosi, yang berkaitan dengan distress psikologis, ide yang tidak realistis, harapan atau dorongan yang berlebihan, dan coping respon yang maladaptif. Orang dengan skor tinggi akan memiliki rasa khawatir, cemas, emosional, merasa tidak aman, merasa ada yang kurang, dan perasaan sedih atas dirinya. Sedangkan orang dengan skor rendah mempunyai bawaan santai, tenang, tidak emosional, lebih stabil, merasa lebih aman dan merasa puas akan dirinya.

Kelima domain trait pada model Big Five tersebut dibagi kedalam enam subfaktor oleh Costa & McCrae (dalam Pervin, 2005; John & Srivastava, 1999), yaitu:


(31)

Tabel 1. Sub Faktor pada trait dalam model Big Five

Dimensi Subfaktor

Openness to Experience Fantasy (khayalan) Aesthetics (keindahan) Feelings (perasaan) Actions (tindakan) Ideas (ide) Values (nilai-nilai) Conscientiousness Self-discipline (disiplin) Dutifulness (patuh) Competence (kompetensi) Order (teratur) Deliberation (pertimbangan)

Achievement striving(pencapaian prestasi)

Extraversion

Gregariousness (suka berkumpul) Activity level (level aktivitas) Assertiveness (asertif)

Excitement Seeking (mencari kesenangan) Positive Emotions (emosi yang positif) Warmth (kehangatan)

Agreeableness

Straightforwardness (berterusterang) Trust (kepercayaan)

Altruism (mendahulukan kepentingan orang lain) Modesty (rendah hati)

Tendermindedness (berhati lembut) Compliance (kerelaan)

Neuroticism

Anxiety (kecemasan)

Self-consciousness (kesadaran diri) Depression (depresi)

Vulnerability (mudah tersinggung) Impulsiveness (menuruti kata hati) Angry hostility (amarah)

3. Big five Inventory (BFI)

Ada beberapa alat tes yang dibentuk dengan menggunakan konsep Big Five, antara lain yaitu Big Five Inventory (BFI), NEO PI-R, International Item Pool (IPIP), PCI, dan HPI. Mastuti (2005) menyatakan bahwa di Indonesia penggunaan alat ukur kepribadian Big Five maupun pengembangan alatnya masih belum begitu populer. Padahal banyak hal yang mampu diprediksi dengan kepribadian big five. Selain itu, teori big five juga terbukti memiliki konsistensi (laten kepribadian) meski diterapkan di Indonesia (Widhiarso, 2004).


(32)

John, Donahue, dan Kentle menyadari akan kebutuhan suatu instrumen yang efisien, fleksibel, dan berlaku universal, dalam kepentingannya untuk mengukur kepribadian individu dengan menggunakan konsep big five. Kemudian, pada tahun 1991, John, Donahue, dan Kentle menyusun suatu alat ukur yang kemudian dinamakan Big Five Inventory. Big Five Inventory (BFI) ini terdiri atas 44 (empat puluh empat) aitem, yang dapat direspon dalam waktu 5 (lima) menit, dan dapat menghasilkan kelima dimensi Big Five yang dibentuk oleh Costa dan McCrae (John, O. P., Naumann, L. P., & Soto, C. J., 2008; Rammstedt & John, 2006).

Burisch (dalam John, O. P., Naumann, L. P., & Soto, C. J., 2008; John & Srivastava, 1999) mengatakan, skala pendek tidak hanya menghemat waktu pengujian, tetapi juga menghindari kebosanan dan kelelahan subjek, karena akan ada subyek yang tidak memberi respon sesuai harapan jika tes terlihat terlalu lama. Big Five Inventory (BFI) menggunakan frase pendek berdasarkan kata sifat yang dikenal sebagai inti dari Big Five. Selanjutnya ditambahkan kata-kata yang berfungsi sebagai tambahan informasi atau untuk memperjelas kata inti. Big Five Inventory (BFI) dengan frase kata sifatnya juga memiliki keuntungan dalam mencegah ambiguitas atau multiple meanings (John, O. P., Naumann, L. P., & Soto, C. J., 2008).

Banyak penelitian yang bertujuan untuk mengembangkan Big Five Inventory (BFI) ini, termasuk di Indonesia, di mana salah satunya adalah penelitian yang dilakukan oleh Mariyanti dan Rahmawati pada tahun 2011. Mariyanti dan Rahmawati (2011) melakukan penelitian yang bertujuan untuk


(33)

melihat kualitas BFI versi adaptasi Bahasa Indonesia dengan melihat karakteristik psikometrisnya.

BFI versi Indonesia ini terdiri dari 44 aitem favourable dan unfavourable yang terdiri dari kalimat pernyataan. Kalimat pernyataan tersebut direspon dengan memilih angka 1 hingga 5 dan menuliskannya ditempat yang telah disediakan pada setiap pernyataan. Makna angka “1” adalah “sangat tidak setuju”, “2” adalah

“tidak setuju”, “3” adalah “netral”, “4” adalah “setuju”, dan “5” bermakna “sangat setuju”. Aitem favourable akan diberi nilai dari angka 1 sampai 5 pada jawaban STS sampai SS, sedangkan aitem unfavourable akan diberi nilai sebaliknya. BFI yang sudah diadaptasi oleh Mariyanti dan Rahmawati (2011) ke dalam bahasa Indonesia ini memiliki reliabilitas yang baik yaitu 0.70 dan juga memiliki validitas konstruk yang memuaskan dengan nilai loading rata-rata diatas 0.30 dan varian yang dapat dijelaskan sebesar 41.45%.

Berdasarkan hasil dari penelitian Mariyanti dan Rahmawati pada tahun 2011, terjadi pergeseran definisi dari kelima faktor dalam teori Big Five pada BFI versi adaptasi Bahasa Indonesia, yaitu :

a. Openness (O) adalah faktor yang melihat keterbukaan individu untuk mencari tantangan dan hal-hal baru. Seseorang dikatakan open to experience ketika individu tersebut cerdas dan suka berpikir, memiliki ide-ide inovatif, percaya diri, mampu mempertimbangkan dan membuat suatu rencana dan menjalankannya serta memiliki rasa ingin tahu yang besar.

b. Neuroticism (N) adalah faktor yang mengidentifikasi individu yang rentan terhadap distress psikologis yaitu yang mudah mengalami rasa sedih, takut


(34)

dan cemas berlebihan, memiliki dorongan berlebihan, memiliki coping respon maladptif. Selain itu juga terlihat dalam bentuk perilaku mudah tersinggung (irritability) dan pemarah (hostile). Seseorang dikatakan neurotis ketika individu tersebut mudah merasa tertekan dan sedih, tidak mampu menghadapi situasi stress dengan baik, pencemas, suasana hati mudah berubah, labil, pemalu dan perhatiannya mudah terganggu.

c. Conscientiousness (C) adalah faktor yang melihat kesadaran diri, motivasi dan kemampuan mengorganisasikan sesuatu dalam mencapai suatu tujuan. Seseorang dikategorikan dalam faktor Conscientiousness ketika individu tersebut teliti, terorganisir, tidak pemalas, menyukai suatu pekerjaan yang rutin serta mampu bertahan dan mengerjakan suatu tugas hingga selesai.

d. Extraversion (E) adalah faktor yang melihat level aktivitas dan kemampuan melakukan hubungan interpersonal individu. Seseorang dikatakan extrovert apabila individu tersebut suka mengobrol, tidak pendiam, santai, mudah bergaul dan senang bekerjasama dengan orang lain.

e. Agreeableness (A) adalah faktor yang melihat kualitas trust dan seni individu. Seseorang dikategorikan dalam faktor Agreeableness ketika individu tersebut senang membantu dan tidak egois, mudah memaafkan dan mempercayai orang lain, dan memiliki apresiasi terhadap seni, musik atau sastra.


(35)

Tabel 2. Pengelompokan Aitem-Aitem pada BFI versi Indonesia

No. Faktor Nomor Butir Aitem Jumlah

Aitem Persentasi

1 Faktor 1

(Opennes)

5, 10, 11, 12, 13, 15, 16, 20, 25, 26,

33, 38, 40 13 29,55%

2 Faktor 2

(Neuroticism) 4, 9, 14, 19, 24, 29, 31, 34, 37, 39, 43 11 25%

3 Faktor 3

(Conscientiousness) 2, 3, 8, 18, 23, 28, 35 7

15.91%

4 Faktor 4

(Extraversion) 1, 6, 21, 27, 36, 42 6

13.63%

5 Faktor 5

(Agreeableness) 7, 17, 22, 30, 32, 41, 44 7

15.91%

TOTAL 44 100%

B. Differential Item Functioning (DIF)

Analisis aitem merupakan langkah awal yang krusial dalam pengembangan alat tes, yang meliputi berbagai jenis prosedur evaluasi. Ketika dilakukan pengembangan, perlu dilakukan pengamatan berkaitan dengan karakteristik yang diukur. Untuk mengetahui kualitas alat tes, dapat dilihat karakteristik psikometrisnya, yaitu validitas dan reliabilitas. Kedua hal ini berjalan beriringan, yaitu tes tidak akan valid jika tidak teruji bahwa tes tersebut reliabel, akan tetapi hal ini tidak berlaku sebaliknya. Meski demikian, para ilmuan psikologi menyadari bahwa validitas lebih penting dibandingkan reliabilitas. Hal ini karena, reliabilitas berfokus pada akurasi hasil tes, sedangkan validitas berfokus pada nature dari konstruk yang diukur (Coaley, 2010).

Reliabilitas merupakan konsep yang digunakan untuk menyatakan sejauhmana hasil suatu pengukuran dapat dipercaya. Sedangkan validitas


(36)

mengacu pada sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya atau memberikan hasil ukur yang sesuai dengan maksud dan tujuan dilakukannya pengukuran tersebut, sehingga berguna untuk melakukan pengambilan keputusan yang bertujuan untuk pengukuran aspek mental (Azwar, 2012; American Educational Research Association, dalam Osterlind, 2010; Coaley, 2010).

Analisis aitem memiliki beberapa istilah, yaitu item impact, DIF, dan juga bias aitem (Zumbo, 1999). Pada sudut pandang psikometri, perbedaan konsistensi intrapersonal maupun interpersonal merupakan hal yang krusial terhadap karakteristik psikometrisnya, yaitu validitas dan reliabilitas (Anastasi & Urbina, 1997). Untuk mendapatkan reliabilitas yang baik, maka eror harus diminimalisir. Reliabilitas dipengaruhi secara langsung pada random error (kesalahan yang berasal dari individu peserta tes), sedangkan kesalahan sistematik (systematic error) merupakan kesalahan yg berasal atas keanggotaan suatu kelompok (Osterlind, 2010), sehingga berkaitan dengan bias yang terjadi pada tes, yang juga dapat merusak validitasnya (Coaley, 2010; Osterlind, 2010).

DIF merupakan salah satu konsep dalam pengukuran bias (Sheppard, dkk., 2006) yang termasuk kesalahan sistematik (systematic error) dan dapat berpengaruh pada validitas. Meskipun DIF merupakan kesalahan sistematik yang berpengaruh terhadap validitas, namun didalam kelompok juga terdiri dari individu yang dapat memberikan kontribusi kesalahan, sehingga akan dapat berpengaruh pada reliabilitas dimana individu dalam kelompok merespons pada aitem yang terjangkit DIF tersebut. Selain itu, dalam pemahaman berdasarkan


(37)

Osterlind (2010), DIF termasuk dalam sumber bukti validitas berdasarkan struktur internal.

1. Definisi Differential Item Functioning (DIF)

DIF berbeda dengan bias aitem. Bias aitem terjadi ketika individu dari satu kelompok cenderung untuk menyetujui pernyataan pada aitem tertentu dibandingkan peserta individu dari kelompok lainnya, karena beberapa karakteristik dari aitem yang dipakai dalam mengukur atau situasi pengukuran yang tidak relevan dengan tujuan tes. Sedangkan DIF adalah sebuah kondisi dimana individu dari kelompok yang berbeda, memiliki kemungkinan/probabilitas berbeda dalam merespon setuju pada suatu pernyataan dalam sebuah aitem, setelah level atribut/latent trait yang diukur dikondisikan setara (Zumbo, 1999; Widhiarso, 2004; Osterlind, 2010). Kamata dan Vaughn pada tahun 2004 mengatakan bahwa DIFterjadi jika suatu kelompok yang berbeda dengan kemampuan/latent trait yang sama mendapat skor harapan yang berbeda pada aitem yang sama. Millsap dan Everson mengungkapkan bahwa DIF adalah karakteristik tes yang berbeda secara statistik pada kelompok yang berbeda yang memiliki kemampuan/latent trait yang sama pada variabel yang ingin diukur (dalam Rahmawati, 2010).

2. Sumber Differential Item Functioning (DIF)

DIF berhubungan dengan suatu keanggotaan tertentu, seperti perbedaan antar kelompok, etnis, jenis kelamin, dan juga perbedaan kelas sosial, umur, daerah tempat tinggal, lingkungan rural, dan urban. DIF mengacu pada


(38)

membandingkan dua kelompok yang ada, yang disebut dengan kelompok referensi (reference group) dan kelompok fokal (focal group) (Hortensius, L., 2012). Kelompok referensi juga memiliki istilah lain yaitu kelompok mayoritas atau dapat juga dikenal sebagai kelompok pembanding yang juga disebut dengan kelompok yang diuntungkan jika berkaitan dengan tes kognitif, sedangkan kelompok fokal memiliki istilah lain yaitu kelompok minoritas ataupun kelompok yang menjadi fokus, yang juga dikenal sebagai kelompok yang tidak diuntungkan jika berkaitan dengan tes kognitif. Terdapat banyak kelompok referensi demikian halnya pada kelompok fokal, di mana individu mungkin terlibat pada satu atau lebih. Misalnya saja pada wanita kulit putih, yang memiliki kemungkinan lebih untuk masuk dalam kelompok referensi pada konteks tertentu, dan masuk kedalam kelompok fokal pada konteks lainnya atau dengan kata lain dapat ditukar (Camilli dan Shepard dalam Rahmawati, 2010; Jodoin, M.G. & Gierl, J., 1999).

Penelitian Sacco, dkk. (2010) menemukan bukti bahwa DIF berkaitan dengan gender, ras/etnis, termasuk usia. Pada penelitian Sacco, dkk., pada kelompok wanita dewasa dan wanita muda, salah satu kelompok mendapat nilai tinggi sedangkan kelompok lain mendapat nilai yang rendah. Adapun penelitian dari Greer pada tahun 2004 menemukan bahwa DIF berkaitan dengan spesifikasi demografi, seperti pria-wanita dengan kemampuan yang sama, orang asia dan orang Eropa, dan seterusnya (dalam Acar, 2012).

Perbedaan metode pengadministrasian tes juga dapat mempengaruhi hasil tes (Lang, dkk). Beberapa bukti menunjukkan bahwa peserta tes lebih nyaman dan menyukai interaksi dengan komputer dibandingkan dengan tes paper-and-pencil


(39)

yang juga bisa disebut dengan administrasi tes manual, termasuk diantaranya tes manual yang kemudian dirancang menjadi versi administrasi tes online (Rosenfeld, Doherty, Vicino, Kantor, dkk., 1989; Buchanan & Smith, 1999; Cronk & West, 2002; dalam Kaplan & Sacuzzon, 2005). Individu menjadi lebih nyaman dan terbuka (disclose) dalam merespons aitem ketika berinteraksi dengan komputer (Davis, 1999; dalam Kaplan & Sacuzzo, 2005), lebih jujur, dan tidak memunculkan efek social desirability ketika dihadapkan pada situasi pelaksanaan tes tanpa prosedur yang mengharuskan face-to-face (Kaplan & Sacuzzo, 2005). Penelitian oleh Locke & Gilbert pada tahun 1995 (dalam Kaplan & Sacuzzo, 2005) menyatakan bahwa peserta tes memberikan pengalaman positif dengan komputer. Terdapat beberapa keunggulan yang diberikan ketika menggunakan komputer baik administrasi, skoring, dan interpretasi (Britton & Tidwell, 1995; dalam Kaplan & Sacuzzo, 2005; Anastasi & Urbina,1997), serta eror dalam pendataan (Pettit, 2002; Miller, dkk., 2002; dalam Kaplan & Sacuzzo, 2005).

Kemajuan teknologi mungkin mempermudah dan meringankan kinerja individu, namun tetap tidak bisa menggantikan secara penuh keutamaan yang bisa dilakukan individu itu sendiri. Administrasi tes online memiliki keuntungan-keuntungan tersendiri, namun masih perlu banyaknya pengujian agar memiliki cukup bukti untuk dikatakan sama baiknya dengan administrasi tes secara manual yang merupakan merupakan setting-an asli yang menjadi awal mula, dasar, dan acuan dalam hal pengadministrasian tes. Inilah alasan mengapa administrasi tes manual dianggap menjadi kelompok referensi (menjadi acuan) sedangkan


(40)

administrasi tes online dianggap sebagai kelompok yang menjadi kelompok fokal (menjadi fokus).

Guler dan Penfield pada tahun 2009 (dalam Hortensius, L., 2012), mengatakan bahwa salah satu isu dalam deteksi DIF adalah adanya dampak (impact). Ketika kelompok fokal dan kelompok referensiberbeda dalam distribusi kemampuan/latent trait yang mendasarinya, yaitu ketika satu kelompok memiliki kemampuan yang rata-rata lebih tinggi daripada kelompok lain, hal ini disebut dengan impact. Kehadiran impact akan mempersulit pendeteksian DIF karena dapat memunculkan kesalahan tipe I (type I error atau false positive) yaitu kesalahan dalam mengidentifikasi DIF pada aitem, padahal kenyataannya aitem tersebut tidak mengandung DIF (Guler dan Penfield , 2009; dalam Hortensius, L., 2012; Jodoin, M.G. & Gierl, J., 1999).

3. Jenis Differential Item Functioning (DIF)

Terdapat dua kategori DIF, yaitu DIF seragam (uniform DIF) dan DIF tidak seragam (nonuniform DIF) (Mellenbergh, 1982; dalam Hortensius, L., 2012; Rahmawati, 2010). DIF seragam (Uniform DIF atau consistent DIF)terjadi ketika item characteristic curves atau ICC (persinggungan performansi setiap individu dalam merespons aitem yang sama pada dua kelompok yang berbeda), berbeda namun tidak berpotongan atau bersinggungan. Dalam hal ini aitem cenderung direspons setuju atau tidak setuju pada suatu kelompok tertentu dibanding kelompok lain setelah seluruh kemampuan disetarakan/latent trait sama, sehingga terdapat perbedaan respons dari kelompok yang berbeda dengan latent trait yang sama. Sedangkan DIF tidak seragam (Nonuniform DIF atau inconsistent DIF)


(41)

terjadi jika ICCs kedua kelompok berbeda, namun ada persinggungan atau adanya garis yang memotong pada beberapa poin skala θ (Camilli & Shepard, 1994; Kristjanson, dkk., 2005; dalam Rahmawati, 2010; Zumbo, 1999; Widhiarso, 2012; Jodoin, M.G. & Gierl, J., 1999).

DIF dapat memberi keseimbangan atau justru malah tidak, pada masing-masing kelompok pada tingkat tertentu. Singkatnya, hal ini terjadi jika terdapat interaksi antara tingkat kemampuan dengan identitas kelompok (keanggotaannya), sehingga aitem akan menjadi sulit pada satu kelompok dengan tingkat kemampuan yang lebih rendah dan menjadi lebih sulit pada kelompok lain dengan tingkat kemampuan yang lebih tinggi, atau aitem menjadi cenderung direspons setuju atau tidak setuju pada kelompok tertentu (Camilli & Shepard, 1994; Kristjanson, dkk., 2005; dalam Rahmawati, 2010; Hortensius, L., 2012).

4. Metode Analisis DIF

Gierl, Khaliq, dan Boughton pada tahun 1999 (dalam Acar, 2012) mengatakan bahwa terdapat beberapa metode untuk mengidentifikasi DIF. Beberapa Metode berkaitan dengan Classical Test Theory (CTT), yaitu Mantel-Haenszel Procedure, Regresi Logistik, dan Simultaneous Bias Test (SIBTEST), dan metode Item Respons Theory yang biasa disebut dengan IRT (Camili & Shepard, 1994; Ogretmen, 1995; dalam Acar, 2012; Osterlind, 2010).

Regresi logistik adalah analisis yang didasarkan pada model statistik terhadap kemungkinan untuk merespon benar/merespon setuju ataupun tidak setuju terhadap suatu aitem, dilihat dari keanggotaannya dan kriteria atau variabel yang dikondisikan (prediksi). Regresi logistik diusulkan sebagai alternatif uji


(42)

statistik Mantel-Haenszel untuk mengidentifikasi DIF pada tahun 1990 oleh Swaminathan dan Rogers (Hortensius, L., 2012; Jodoin, M.G. & Gierl, J., 1999). Analisis regresi logistik merupakan analisis yang menggunakan jenis data ordinal dan binary (Field, 2009).

Jika data utama yang dipergunakan untuk menganalisis DIF adalah data ordinal, maka analisis yang digunakan akan lebih dikhususkan lagi, yaitu dengan menggunakan analisis regresi logistik ordinal (ordinal logistic regression). Analisis regresi logistik ordinal merupakan perluasan dari analisis regresi yang mampu memprediksi hasil data yang berbentuk ordinal, berdasarkan variabel prediktor (Field, 2009). Regresi logistik ordinal merupakan salah satu metode terkini yang tersedia untuk menginvestigasi DIF aitem-aitem yang biasanya ditemukan dalam pengukuran kepribadian dan psikologi sosial dengan data ordinal (Zumbo, 1999).

Analisis ini akan dibantu dengan aplikasi tambahan bernama ologit2.inc dan syntax program SPSS untuk analisis regresi logistik ordinal yang ditulis oleh Bruno D. Zumbo, PhD. Aitem BFI versi Indonesia dikatakan mengandung DIF administrasi tes jika nilai p ≤ 0,01 (Zumbo, 1999). Analisis regresi logistik juga dapat melihat effect-size sehingga dapat mengidentifikasi apakah DIF yang terkandung termasuk dalam jenis DIF seragam atau DIF tidak seragam (Zumbo, 1999). Berdasarkan Cohen pada tahun 1992, kategori Zumbo-Thomas effect size adalah negligible dengan R2<0,13, moderate dengan 0,13< R2<0,26, dan large dengan R2>0,26 (Jodoin, M.G. & Gierl, J., 1999). Dengan kata lain, nilai R2 Zumbo-Thomas effect size pada aitem paling tidak senilai 0,130 atau R-squared


(43)

0,130 untuk kemudian dikatakan memiliki kriteria effect-size (Widhiarso, 2012; Zumbo, 1999).

C. Administrasi Tes

1. Definisi Administrasi Tes

Anastasi & Urbina (1997) menyatakan bahwa pemikiran dasar dari suatu tes meliputi generalisasi dari perilaku yang muncul di dalam situasi tes sampai pada perilaku yang muncul pada situasi yang lain, yaitu situasi yang sebenarnya. Administrasi tes psikologi adalah segala sesuatu proses yang berkenaan dengan penyelenggaraan tes Psikologi. Skor dari suatu tes seharusnya dapat membantu dalam memahami apa yang dirasakan oleh seseorang dan memprediksi bagaimana perilaku orang tersebut. Kondisi-kondisi pada situasi saat itu kemudian dapat mempengaruhi keadaan tes yang kemudian dapat menyebabkan kesalahan dan mengurangi validitas tes tersebut. Dengan demikian, penting bagi kita untuk mengidentifikasi hal-hal yang dapat mempengaruhi apapun yang berkaitan dengan tes, termasuk diantaranya validitas tes tersebut, sehingga nantinya dapat membatasi dan meminimalkan kerusakan yang terjadi pada tes tersebut. Hal penting yang dapat berpengaruh secara langsung terhadap validitas tes adalah administrasi tes (Anastasi & Urbina, 1997).

2. Hal-hal yang berkaitan dengan Administrasi Tes

Ada beberapa hal yang berkaitan yang harus diperhatikan berkaitan dengan administrasi tes (Anastasi & Urbina, 1997), yaitu :


(44)

Hal terpenting yang menjadi persyaratan dalam suatu administrasi tes yang baik adalah persiapan yang baik. Pada administrasi tes, tidak boleh ada keadaan darurat, atau dengan kata lain, tanpa adanya persiapan. Usaha yang spesifik harus dilakukan dalam mencegah terjadinya kondisi yang tiba-tiba atau darurat. Instruksi lisan adalah hal yang sangat penting pada tes individual, meski tidak jarang pula ada tes di mana instruksi tes dapat langsung dibaca oleh peserta. Bukan berarti tester tidak berperan dalam situasi seperti. Tester harus dapat memahami dan familiar dengan instruksi yang akan diberikan kepada para peserta. Hal ini perlu dilakukan untuk mencegah kesalahan dalam memahami tes ataupun kesalahan baca terhadap instruksi tes. Hal lain yang juga penting untuk diperhatikan adalah ketersediaan material pendukung tes. Material pendukung tes haruslah dekat dengan tester dan mudah untuk dijangkau tetapi jangan sampai menganggu peserta tes. Pada tes yang diberikan secara manual, seluruh material tes yang dibutuhkan seperti lembar soal, lembar jawaban, pensil khusus, dan material lain yang dibutuhkan haruslah dihitung, diperiksa kembali, dan disusun dengan teliti.

Terkhusus untuk tes individual, pelatihan administrasi tes adalah hal yang sangat penting. Pelatihan yang dilakukan haruslah meliputi demonstrasi dan pelatihan pemberian instruksi dan dilakukan lebih dari satu tahun. Untuk tes yang sifatnya kelompok, perlu diadakan briefing terlebih dahulu antara tester dan penyelenggara tes, sehingga masing-masing pihak mengetahui dengan baik tugas dan fungsi yang akan dilakukan.


(45)

Prosedur tes yang standar tidak hanya mengenai instruksi secara lisan, waktu, bahan-bahan, dan aspek lainnya, namun juga mengenai kondisi tes. Kita harus memperhatikan pemilihan tempat administrasi tes yang sesuai. Tempat administrasi tes harus bebas dari keributan dan mampu menyediakan pencahayaan yang baik, ventilasi, tempat duduk, dan ruang yang cukup bagi peserta tes untuk bekerja. Langkah khusus harus dilakukan untuk mencegah adanya interupsi di tengah administrasi tes. Membuat tanda di pintu yang memberikan tanda tes sedang berlangsung adalah hal yang cukup efektif. Pada administrasi tes yang melibatkan banyak peserta, mengunci pintu dan menyiapkan seseorang untuk menjaga pintu dapat dilakukan untuk mencegah gangguan yang mungkin timbul, termasuk dari peserta yang datang terlambat.

Penting untuk disadari bahwasannya kondisi tes dapat berpengaruh terhadap skor tes. Bahkan aspek yang sangat kecil pun dapat berpengaruh, seperti perbedaan penggunaan kursi, di mana kelompok yang menggunakan kursi bermeja mendapatkan skor yang lebih tinggi dibandingkan dengan kelompok yang menggunakan kursi tanpa meja (T.L. Kelley, 1943; Traxler dan Hilkert, 1942; dalam Anastasi & Urbina, 1997). F.O. Bell, Hoff and Hoyt pada tahun 1964 mengatakan bahwa penggunaan lembar jawaban yang tidak memenuhi standar juga dapat mempengaruhi skor tes (dalam Anastasi & Urbina, 1997). Administrasi tes yang menggunakan lembar jawaban terpisah pada anak dibawah kelas lima sekolah dasar dapat menyebabkan skor tes anak menjadi rendah. Oleh karena itu pada administrasi tes yang dikenakan kepada anak di bawah kelas lima sekolah


(46)

dasar, lembar jawaban lebih baik tidak dipisah dari soal melainkan disatukan dalam bentuk booklet.

Banyak hal lain yang dapat berpengaruh terhadap performansi seseorang saat mengerjakan suatu tes, khususnya pada tes bakat dan tes kepribadian. Ketika tester yang memberikan tes adalah seorang yang familiar dengan peserta tes maka hal ini akan sangat berpengaruh secara signifikan terhadap skor tes. (Sacks, 1952; Tsudzuki, Hata, & Kuze, 1957; dalam Anastasi & Urbina, 1997). Dalam telaah lain, Wickes dan Bernstein pada tahun 1956 mengatakan bahwa perilaku tester

seperti tersenyum dan memberikan komentar seperti “bagus” atau “baik”

menunjukkan adanya pengaruh terhadap hasil tes, terlebih pada tes proyektif dimana kehadiran tester cenderung menghambat reaksi dan respon emosional dari peserta tes untuk menuliskan cerita sesuai gambar yang diberikan. Kirchner pada tahun 1966 mengatakan bahwa pada administrasi tes atau pengujian kecepatan mengetik, pelamar kerja yang melaksanakan tes sendirian mengetik lebih cepat secara signifikan dibandingkan ketika administrasi tes dilakukan secara berkelompok yang terdiri dari dua orang atau lebih (dalam Anastasi & Urbina, 1997)

Terdapat tiga hal lain yang harus diperhatikan dalam pelaksanaan administrasi tes. Pertama, ikuti prosedur standar secara mendalam dan mendetail. Psikolog dan tester harus menjelaskan prosedur secara lengkap dan jelas pada setiap administrasi tes. Kedua, catatlah setiap kondisi yang tidak biasa atau kondisi yang dapat berpengaruh terhadap peserta tes sekecil apapun. Ketiga,


(47)

jadikan catatan mengenai kondisi tes tersebut sebagai bahan pertimbangan pada saat menginterpretasi hasil tes.

c. Memperkenalkan Tes : Rapport dan Orientasi Peserta Tes

Istilah “rapport” pada administrasi tes adalah upaya tester untuk meningkatkan ketertarikan peserta tes terhadap tes, meningkatkan kerja sama, dan mendorong mereka untuk dapat merespon tes sesuai dengan tujuan dari tes tersebut. Teknik yang digunakan dalam membangun rapport pada administrasi tes sangat berhubungan dengan administrasi tes. Pada saat membangun rapport, keseragaman kondisi tes terhadap semua peserta tes sangat penting agar hasil tes dapat dibandingkan. Seorang anak yang diberikan hadiah setelah mengerjakan tes tidak bisa secara langsung dibandingkan dengan anak lain yang hanya diberikan pujian saat selesai mengerjakan tes. Kondisi ini harus menjadi catatan dan menjadi bahan pertimbangan dalam melakukan interpretasi hasil tes.

Meskipun rapport dapat lebih maksimal dilakukan pada tes individual, rapport juga dapat dilakukan pada tes berkelompok untuk memotivasi peserta tes sehingga dapat mengurangi kecemasan pada peserta tes. Teknik yang spesifik dalam membangun rapport juga harus disesuaikan dengan tes, usia dari peserta, dan karakteristik lain dari peserta tes. Administrasi tes pada anak pra sekolah misalnya, harus mempertimbangkan faktor-faktor seperti rasa malu anak dan sikap negatif yang dapat timbul pada orang asing. Sikap bersahabat, ceria, dan santai oleh tester dapat membantu mengurangi kecemasan anak pada saat melaksanakan tes.


(48)

Pelaksanaan tes baik pada anak usia sekolah ataupun pada orang dewasa, harus menyadari bahwa tes yang dilakukan akan berefek pada harga diri setiap individu. Oleh karena itu akan sangat bermanfaat apabila peserta tes diberikan penjelasan bahwa peserta tes tidak harus mengerjakan tes hingga akhir ataupun harus memastikan seluruh jawaban dijawab dengan benar. Hal ini dilakukan untuk mencegah timbulnya perasaan gagal yang mungkin timbul pada saat peserta tes tidak mampu menyelesaikan tes hingga akhir sesuai dengan waktu yang ditentukan, ataupun kesulitan dalam menjawab soal.

Administrasi tes yang dilakukan pada orang dewasa memunculkan masalah yang sering kali timbul. Tester harus lebih ekstra dalam meyakinkan peserta bahwa hasil tes yang akan mereka peroleh nantinya bergantung kepada ketertarikan dan usaha mereka dalam mengerjakan tes tersebut, sehingga nantinya skor yang didapat dapat mengindikasikan kemampuan mereka yang sesungguhnya. Mengatakan bahwa hasil skor secara valid menggambarkan minat mereka akan mengurangi faking pada peserta tes, karena peserta tes dapat menyadari bahwa jika tidak mengerjakan tes dengan baik dan maksimal, maka mereka hanya akan mendapat kerugian atas perlakuan mereka sendiri.

Hal kecil dan mendetail perlu diperhatikan demi keberlangsungan tes. Penting untuk memastikan seluruh bahan kebutuhan tes telah tersedia, dan bahkan lebih baik ketika ada materi pendukung yang dapat berupa buku penjelasan yang tersedia untuk para peserta tes. Buku penjelasan tersebut dapat berisikan mengenai tujuan dari administrasi tes, petunjuk dan saran mengenai bagaimana


(49)

seharusnya tes dikerjakan, dan berisi beberapa contoh dalam mengerjakan tes tersebut.

D. Differential Item Functioning Administrasi tes pada Big Five Inventory versi Indonesia

Prosedur tes yang standar tidak hanya mengenai instuksi secara lisan, waktu, bahan-bahan, dan aspek lainnya, namun juga mengenai kondisi tes. Hal ini dapat berpengaruh terhadap skor tes, bahkan pada aspek yang sangat kecil sekalipun. Perlu adanya persiapan tester yang matang, penyesuaian kondisi tes, membangun rapport dan mengenalkan tes kepada para peserta tes (Anastasi & Urbina, 1997).

Perkembangan zaman dalam penggunaan komputer mempengaruhi setiap fase pada pemberian tes, termasuk administrasi, skoring, pemberian laporan, dan interpretasi (F.B. Baker, 1989; Butcher, 1987; Gutkin & Wise, 1991; Roid, 1986; dalam Anastasi & Urbina, 1997). Penggunaan komputer dan internet memberikan revolusi baru pada dunia alat tes, termasuk pada variasi alat tes kepribadian yang dapat diakses melalui internet (Kaplan & Sacuzzo, 2005), sehingga memunculkan metode pelaksanaan baru yaitu administrasi tes secara online.

Penggunaan komputer yang bahkan merambah ke dunia psikologi ini juga memiliki alasan yaitu pengguna komputer yang nantinya akan melaksanakan tes secara online adalah seorang manusia. Dalam hal ini, perlu dipertimbangkan bagaimana individu tersebut bekerja, bagaimana mereka memproses informasi dan bagaimana mereka mampu bereaksi pada situasi yang berbeda, termasuk pada


(50)

perbedaan metode yang diberikan sewaktu administrasi tes (Bushnell & Mullin, 1987).

Administrasi tes online adalah metode penggunaan komputer, dimana tes paper-and-pencil yang juga dapat disebut dengan administrasi tes manual, didesain dalam versi elektronik dan di-posting ke Web site (Osterlind, 2010). Adanya administrasi tes secara online yang didasarkan pada penggunaan komputer memunculkan perbedaan baru dalam pengadministrasian tes. Pada administrasi tes secara online, peserta langsung membaca instruksi yang sudah ada pada layar komputer, tempat administrasi tes lebih fleksibel bahkan bisa dilakukan oleh orang-orang yang berbeda negara, tidak menggunakan paper and pencil melainkan menggunakan media elektronik seperti komputer, laptop, atau smartphone (Kaplan & Sacuzzo, 2005; Osterlind, 2010). Usaha membangun rapport dan mengenalkan alat tes juga hampir tidak ada karena minimnya interaksi peserta tes kepada tester (Kaplan & Sacuzzo, 2005).

Lang, dkk. (2011) menemukan bahwa metode yang diberikan memberikan hasil mean yang berbeda pada tipe kepribadian Big Five Inventory. Pada kelompok yang diberikan metode telephone interview, ditemukan bahwa openness seorang individu meningkat dibandingkan ketika diberikan dengan metode self-administered questioner. Penelitian oleh Aslam (2011) yang berkaitan dengan standarisasi instruksi pada pengadministrasian tes juga menghasilkan kesimpulan secara umum bahwa terdapat pengaruh instruksi yang terstandar dan yang tidak terstandar dalam pengadministrasian Big Five Inventory terhadap hasil Big Five Inventory. Hasil penelitian ini cukup memberikan bukti bahwa metode


(51)

pengadministrasian yang sama (administrasi manual), namun dengan instruksi yang berbeda (tidak standar) saja bisa memberikan pengaruh pada hasil tes, terlebih lagi jika metode pengadministrasiannya secara keseluruhan sudah jelas berbeda seperti halnya pada administrasi tes manual dan online.

Adanya perbedaan metode administrasi tes akan berpengaruh pada hasil skor alat tes, memunculkan tantangan baru berkaitan dengan karakteristik psikometris alat tes. Karakteristik psikometris berkaitan dengan pengembangan dasar evaluasi terhadap suatu alat tes psikologis, termasuk diantaranya pengukuran (Azwar, 2007). Pada proses pengembangan alat tes, analisis aitem merupakan langkah awal yang krusial, yang meliputi berbagai jenis prosedur evaluasi termasuk karakteristik yang diukur (Coaley, 2010).

Analisis aitem memiliki beberapa istilah, yaitu item impact, DIF, dan juga bias aitem (Zumbo, 1999). Pada sudut pandang psikometri, perbedaan konsistensi intrapersonal maupun interpersonal merupakan hal yang krusial terhadap karakteristik psikometrisnya, yaitu validitas dan reliabilitas (Anastasi & Urbina, 1997). Untuk mendapatkan reliabilitas yang baik, maka eror harus diminimalisir, termasuk diantaranya kesalahan sistematik (systematic error) yang berkaitan dengan bias pada tes, yang juga dapat merusak validitasnya (Coaley, 2010; Osterlind, 2010; Reeve, tanpa tahun). Reliabilitas dipengaruhi oleh random error (kesalahan yang berasal dari individu peserta tes), sedangkan kesalahan sistematik merupakan kesalahan yg berasal atas keanggotaan suatu kelompok (Osterlind, 2010), sehingga berkaitan dengan bias yang terjadi pada tes, yang juga dapat merusak validitasnya (Coaley, 2010; Osterlind, 2010). DIF merupakan salah satu


(52)

konsep dalam pengukuran bias (Sheppard, dkk., 2006) yang berpengaruh pada validitas (Coaley, 2010).

DIF berbeda dengan bias aitem, namun merupakan titik awal dari penelitian tentang bias aitem. DIF muncul ketika peserta memiliki kemampuan/latent trait yang sama dari kelompok yang berbeda, namun memiliki kesempatan yang tidak sama dalam merespons aitem (cenderung setuju pada pernyataan aitem tertentu). Bias aitem muncul ketika aitem tidak bisa mengukur apa yang ingin diukur, atau hanya bisa mengukur sedikit dari apa yang ingin diukur tersebut. Bias aitem dapat mempengaruhi validitas suatu tes karena dapat menyebabkan kesimpulan yang salah mengenai kemampuan tes untuk mengukur apa yang seharusnya diukur (Rahmawati, 2010). Singkatnya, DIF adalah sebuah kondisi dimana individu dari kelompok yang berbeda, memiliki kemungkinan/probabilitas berbeda dalam menyetujui suatu pernyataan sebuah aitem, setelah level atribut/latent trait yang diukur dikondisikan setara. Sedangkan bias aitem terjadi ketika individu dari satu kelompok cenderung untuk menyetuji pernyataan dalam aitem dibandingkan peserta individu dari kelompok lainnya, karena beberapa karakteristik dari aitem yang dipakai dalam mengukur atau situasi pengukuran yang tidak relevan dengan tujuan tes (Zumbo, 1999; Widhiarso, 2004).

Lain halnya dengan validitas berdasarkan bukti proses respons yang mungkin merupakan hasil dari bias aitem, berdasarkan pemahaman dari Osterlind (2010), DIF lebih mengarah pada validitas berdasarkan bukti struktur internal. Bias aitem dapat muncul dari eksternal struktur tes atau bukan merupakan bawaan


(53)

dari aitem yang tersedia. Proses respons yang berbeda tersebut dapat dipengaruhi oleh extraneous variable, bukanlah dari internal atau aitemnya. Sedangkan pada konsep DIF, berkaitan dengan aitem (struktur) yang disediakan untuk dikerjakan oleh kelompok tertentu, dimana aitem tersebut yang membuat individu dari kelompok tertentu memberi respons yang berbeda. Dapat dikatakan bahwa aitem-lah yang disaaitem-lahkan, bukan individu atau latar belakang individu yang disaaitem-lahkan.

Terdapat dua kelompok yang akan dibandingkan pada konsep DIF, yaitu kelompok fokal (minoritas/yang tidak diuntungkan) dan kelompok referensi (mayoritas/diuntungkan) sebagai pembanding (Rahmawati, 2010). Seperti halnya penjabaran mengenai DIF diatas, DIF berkaitan dengan kedua hal tersebut yaitu adanya perbedaan respon antara kelompok referensi dan kelompok fokal dalam merespon suatu aitem.

Administrasi tes secara online memiliki interaksi dan observasi secara langsung kepada para peserta tes yang sudah pasti tidak bisa ditangkap oleh komputer. Hal ini sejalan dengan pernyataan Kaplan & Sacuzzo (2005) bahwa penggunaan komputer juga memiliki kekurangan pada interpretasi yang berkaitan dengan clinical judgement. Meskipun terkadang menghasilkan kecemasan tersendiri dan tidak ada interaksi langsung, serta terkadang mampu memunculkan keyboard phobia pada sebagian orang, penggunaan komputer dapat menghemat banyak waktu, berpotensi meningkatkan test-retest reliability, mengurangi bias, tidak perlu sulit untuk scan hasil karena data langsung masuk ke dalam sistem komputer (meningkatkan akurasi skoring), dan juga mengurangi biaya sehingga


(54)

meningkatkan efisiensi (Butcher, Perry, & Atlis, 2000; Groth-Marnat, 1999; Osterlind, 2010).

Cronbach di awal tahun 1970 (dalam Kaplan & Sacuzzo, 2005) menyampaikan beberapa keuntungan sistem komputer, yaitu standarisasi yang sangat baik, tahapan administrasi dirancang sedemikian rupa agar dapat dilakukan sendiri oleh peserta tes, lebih ada kesabaran (peserta tes tidak terburu-buru dalam mengerjakan tes), hasil respons tepat waktu karena langsung ter-input oleh komputer, mempermudah tugas tester (tester bisa melaksanakan tugas lain), dan lebih mengontrol bias. Hal ini dapat meminimalisir kesalahan yang terjadi pada tes paper-and pencil atau administrasi tes secara manual pada hal standarisasi, kontrol, dan eror saat skoring.

Beberapa bukti menunjukkan bahwa peserta tes lebih nyaman dan menyukai interaksi dengan komputer dibandingkan dengan administrasi tes paper-and-pencil atau manual, termasuk diantaranya tes manual yang kemudian dirancang menjadi versi administrasi tes online (Rosenfeld, Doherty, Vicino, Kantor, dkk., 1989; Buchanan & Smith, 1999; Cronk & West, 2002; dalam Kaplan & Sacuzzon, 2005). Individu menjadi lebih nyaman dan terbuka (disclose) dalam merespons aitem ketika berinteraksi dengan komputer (Davis, 1999; dalam Kaplan & Sacuzzo, 2005), lebih jujur, dan tidak memunculkan efek social desirability ketika dihadapkan pada situasi pelaksanaan tes tanpa prosedur yang mengharuskan face-to-face (Kaplan & Sacuzzo, 2005). Penelitian Locke & Gilbert pada tahun 1995 (dalam Kaplan & Sacuzzo, 2005) menunjukkan bahwa peserta tes memberikan pengalaman positif dengan komputer. Kebanyakan


(55)

penelitian menunjukkan bahwa administrasi tes menggunakan komputer sama reliabelnya dengan administrasi tes secara manual (Handel, Ben-Porath, & Matt, 1999; Schulenberg & Yutrzenka, 1999; dalam Kaplan & Sacuzzo, 2005; Groth-Marnat, 1999).

Pengadministrasian tes sejak awal dibuat untuk diadministrasikan secara manual, yang kemudian ditransformasi dan dibentuk dalam form digital yang dapat diakses melalui komputer dan jaringan internet yang kemudian dikenal dengan adminitrasi tes online. Administrasi tes online mungkin memberikan keunggulan tersendiri, namun terlepas dari itu, pada awalnya setiap tes diadministrasikan secara manual. Kemajuan teknologi mungkin mempermudah dan meringankan kinerja individu, namun tetap tidak bisa menggantikan secara penuh keutamaan yang bisa dilakukan individu itu sendiri. Administrasi tes online memiliki keuntungan-keuntungan tersendiri, namun masih perlu banyaknya pengujian agar memiliki cukup bukti untuk dikatakan sama baiknya dengan administrasi tes secara manual yang merupakan merupakan setting-an asli yang menjadi awal mula, dasar, dan acuan dalam hal pengadministrasian tes. Inilah alasan mengapa administrasi tes manual dianggap menjadi kelompok acuan (kelompok referensi) sedangkan administrasi tes online dianggap sebagai kelompok yang menjadi fokus (kelompok fokal).

Seorang individu akan berbeda perilakunya ketika bertemu dengan tuntutan setiap situasi (Anastasi & Urbina, 1997). Situasi yang berbeda dalam pelaksanaan tes dengan perbedaan pengadministrasian akan berpengaruh pada skor subjek. Perbedaan metode dalam memberikan tes (administrasi tes)


(1)

... Optimal solution found.

******************** OUTPUT SECTION ********************

LR-test that all predictor weights are zero --- -2 Log-Likelihood of Model with Constants only: 1760,493

-2 Log-Likelihood of full Model: 1439,227

LR-statistic

Chisqu. DF Prob. %-Reduct 321,266 1,000 ,000 ,182

Estimations, standard errors, and effects ---

Coeff.=B Std.Err. B/Std.E. Prob. exp(B) exp(B*S)

TOT_A ,478775 ,029754 16,091222 ,000000 1,614096 4,886550

Const.1 -8,461691 ,701278 -12,066102 ,000000 ,000211 1,000000

Const.2 -10,523448 ,727350 -14,468194 ,000000 ,000027 1,000000

Const.3 -12,987327 ,793075 -16,375903 ,000000 ,000002 1,000000

Const.4 -15,150601 ,846331 -17,901509 ,000000 ,000000 1,000000

Results assuming a latent continuous variable --- R-Square (%):

43,34

Standardized regression weights of the latent variable: TOT_A ,6584

--- END MATRIX ---

Matrix

Run MATRIX procedure:


(2)

(by Steffen M. KUEHNEL)

******************** Information Section ********************

Dependent variable is: item

Marginal distribution of dependent variable Value Frequ. Percent %>Value 1,00 33,00 5,35 94,65 2,00 100,00 16,21 78,44 3,00 238,00 38,57 39,87 4,00 174,00 28,20 11,67 5,00 72,00 11,67 ,00 Effective sample size:

617

Means and standard deviations of independent variables: Mean Std.Dev.

TOT_A 25,8379 3,3136 grup 1,5105 ,5003

******************** Estimation Section ******************** Running Iteration No.:

1

Running Iteration No.: 2

Running Iteration No.: 3

Running Iteration No.: 4

Running Iteration No.: 5

... Optimal solution found.

******************** OUTPUT SECTION ********************

LR-test that all predictor weights are zero --- -2 Log-Likelihood of Model with Constants only: 1760,493

-2 Log-Likelihood of full Model: 1438,990


(3)

LR-statistic

Chisqu. DF Prob. %-Reduct 321,503 2,000 ,000 ,183

Estimations, standard errors, and effects ---

Coeff.=B Std.Err. B/Std.E. Prob. exp(B) exp(B*S)

TOT_A ,478497 ,029751 16,083122 ,000000 1,613647 4,882044

grup -,074053 ,152136 -,486755 ,626432 ,928623 ,963630

Const.1 -8,339430 ,743909 -11,210280 ,000000 ,000239 1,000000

Const.2 -10,403261 ,767079 -13,562184 ,000000 ,000030 1,000000

Const.3 -12,869959 ,827908 -15,545163 ,000000 ,000003 1,000000

Const.4 -15,031287 ,879854 -17,083841 ,000000 ,000000 1,000000

Results assuming a latent continuous variable --- R-Square (%):

43,38

Standardized regression weights of the latent variable: TOT_A ,6578

grup -,0154

--- END MATRIX ---

Matrix

Run MATRIX procedure:

LOGISTIC REGRESSION with an ORDINAL DEPENDENT VARIBLE (by Steffen M. KUEHNEL)

Interaction term TOT_A*grup int1.1 TOT_A grup

******************** Information Section ********************

Dependent variable is: item


(4)

Value Frequ. Percent %>Value 1,00 33,00 5,35 94,65 2,00 100,00 16,21 78,44 3,00 238,00 38,57 39,87 4,00 174,00 28,20 11,67 5,00 72,00 11,67 ,00 Effective sample size:

617

Means and standard deviations of independent variables: Mean Std.Dev.

TOT_A 25,8379 3,3136 grup 1,5105 ,5003 int1.1 38,9562 13,8543

******************** Estimation Section ******************** Running Iteration No.:

1

Running Iteration No.: 2

Running Iteration No.: 3

Running Iteration No.: 4

Running Iteration No.: 5

... Optimal solution found.

******************** OUTPUT SECTION ********************

LR-test that all predictor weights are zero --- -2 Log-Likelihood of Model with Constants only: 1760,493

-2 Log-Likelihood of full Model: 1438,835

LR-statistic

Chisqu. DF Prob. %-Reduct 321,658 3,000 ,000 ,183

Estimations, standard errors, and effects ---


(5)

Coeff.=B Std.Err. B/Std.E. Prob. exp(B) exp(B*S)

TOT_A ,449095 ,080276 5,594358 ,000000 1,566893 4,428833

grup -,555533 1,232451 -,450755 ,652166 ,573766 ,757350

int1.1 ,018647 ,047366 ,393674 ,693822 1,018822 1,294779

Const.1 -7,577656 2,070807 -3,659278 ,000253 ,000512 1,000000

Const.2 -9,643040 2,074998 -4,647253 ,000003 ,000065 1,000000

Const.3 -12,109440 2,098644 -5,770126 ,000000 ,000006 1,000000

Const.4 -14,270898 2,119104 -6,734402 ,000000 ,000001 1,000000

Results assuming a latent continuous variable --- R-Square (%):

43,42

Standardized regression weights of the latent variable: TOT_A ,6172

grup -,1153 int1.1 ,1071


(6)