2.2 Konstruksi Tes
Terdapat dua istilah yang paling sering diterapkan pada pengembangan dan pengujian tes psikologi adalah validitas validity dan reliabilitas reliability.
2.2.1 Validitas
Validitas menguji apakah suatu alat tes sungguh-sungguh mengukur hal yang memang ingin diukur. Suatu tes atau skala dapat valid atau tidak valid untuk
maksud ilmiah atau praktis yang hendak dicapai oleh si pengguna tes Kerlinger, 2006. Validitas suatu tes menerangkan apa yang diukur oleh tes dan sejauh mana
tes tersebut mengukurnya. Cara-cara yang dapat digunakan untuk menghitung koefisien validitas adalah validitas isi, kriterion, dan konstruk Anastasi, 1997.
2.2.1.1 Validitas Isi Content-Related Validation
Validitas isi berkaitan dengan penelitian yang sistematis pada isi tes untuk menentukan apakah isi tes mencakup sampel representatif dari domain tingkah
laku yang diukur.
2.2.1.2 Validitas Kriterion Criterion-Related Validation
Prosedur validitas kriterion menguji efektivitas tes meramalkan kinerja seseorang pada aktivitas tertentu. Kinerja seseorang diuji dengan kriterion, yaitu pengukuran
langsung dan independen dari mana tes dirancang.
Kriteria pengukuran untuk validitas skor tes dapat diperoleh dalam waktu yang bersamaan dengan skor tes atau dalam interval waktu tertentu. Berdasarkan
interval waktu dapat dibedakan validitas prediktif dan validitas konkuren. Validitas prediktif mengacu pada ketepatan fungsi sebuah tes berkenaan dengan
peramalan tingkah laku seseorang di masa yang akan datang. Sedangkan validitas konkuren relevan untuk tes-tes yang digunakan untuk diagnosa seseorang pada
saat ini, dan bukan meramalkan hasil di masa yang akan datang. Perbedaan antara validitas prediktif dan validtas konkuren bukan berdasarkan waktu, tetapi pada
tujuan tes.
2.2.1.3 Validitas Konstruk Construct-Corelated Validation
Validitas konstruksi teoritis mempersoalkan sejauh mana skor-skor hasil pengukuran dengan instrumen yang dipersoalkan merefleksikan konstruk reoritis
yang mendasari alat ukur tersebut.
2.2.1.3.1 Analisis Faktor
Dasar pemikiran penerapan analisis faktor untuk validasi adalah bahwa walaupun perilaku manusia itu sangat banyak ragamnya, namun perilaku yang sangat
beragam itu didasari oleh sejumlah faktor yang terbatas Suryabrata, 2005. Dengan analisis faktor dapat ditemukan faktor-faktor yang mendasari perilaku
yang beragam tersebut. Tinggi-rendahnya validitas konstruk suatu alat tes tercermin pada sejauh mana muatan faktor yang diperoleh dari analisis faktor ini
berkontribusi pada teori yang mendasarinya.
2.2.1.3.2 Korelasi dengan Tes Lain
Pada metode ini suatu alat tes yang diteorikan mengukur suatu konstruk tertentu dibandingkan dengan alat tes lainya. Suatu alat tes harus memiliki korelasi yang
tinggi dengan alat tes lain yang secara konstruk mengukur hal yang sama. Jadi dua alat tes biarpun memiliki bentuk yang berbeda namun diteorikan mengukur suatu
konstruk sama harus harus saling berkorelasi tinggi. Cara pembandingan seperti ini disebut validitas konvergen. Sebaliknya bila dua alat tes secara konstruk
memang mengukur hal yang berbeda, semirip apapun bentuk soal antara keduanya, harus tidak saling berkorelasi. Cara pembandingan seperti ini disebut
validitas diskriminan.
2.2.1.3.3 Item Responses Theory
Teori tes modern mendasarkan diri pada sifat atau kemampuan laten yang mendasari kinerja atau respon terhadap butir soal tertentu. Karena itu teori ini
disebut menggunakan model sifat laten latent traits model. Nama yang lebih popular adalah teori respons butir soal atau Item Reponse Theory IRT. Menurut
Suryabrata 2005 teori IRT berlandaskan pada dua postulat, yaitu:
1. Kinerja seorang testi pada suatu butir soal dapat diprediksikan atau dijelaskan dari satu perangkat faktor-faktor yang disebut sifat-sifat,
atau sifat-sifat laten, atau kemampuan. 2. Hubungan antara kinerja testi pada suatu butir soal dan perangkat sifat-
sifat yang mendasari kinerja itu dapat dideskripsikan dengan fungsi
meningkat secara monotonik yang disebut fungsi karakteristik butir soal item characteristic function atau Kurve Karakteristik butir Soal
atau KKS Item Characteristic Curve - ICC. Fungsi ini menyatakan bahwa apabila taraf sifat kemampuan meningkat, maka probabilitas
suatu respons yang benar terhadap suatu butir soal juga naik.
Model matematis yang digunakan IRT menyatakan bahwa probabilitas testi menjawab benar terhadap butir soal tertentu tergantung pada kemampuan
testi dan karakteristik butir soal yang bersangkutan. Model-model IRT meliputi seperangkat asumsi-asumsi mengenai data yang diterdigunakan. Walaupun
keberlakuan asumsi-asumsi itu tidak dapat ditentukan secara langsung, namun untuk sementara bukti tak langsung dapat dikumpulkan dan dinilai. Demikian
pula dengan kesesuaian model terhadap data, juga dapat dinilai. Suatu asumsi yang umum digunakan secara luas oleh model-model IRT ialah bahwa hanya satu
kemampuan yang diukur oleh butir-butir soal yang merupakan seperangkat tes. Hal ini disebut asumsi unidimensionalitas unidimensionality. Konsep lain yang
berkaitan langsung dengan unidimensionalitas ialah ketidaktergantungan lokal local independence. Asumsi lain dalam IRT adalah bahwa fungsi karakteristik
butir soal tertentu merefleksikan hubungan yang sebenarnya true relationship antara variabel-variabel yang tak dapat diobservasi kemampuan dengan
variabel-variabel yang dapat diobservasi, yaitu respons terhadap butir soal. Asumsi juga dibuat mengenai karakteristik butir soal yang relevan bagi kinerja
testi pada sesuatu butir soal.
2.2.2 Reliabilitas
Menurut Azwar 2004, reliabilitas berasal dari kata rely dan ability. Pengukuran yang memiliki reliabilitas tinggi disebut sebagai pengukuran yang reliabel
reliable. Reliabilitas merujuk pada konsistensi skor yang dicapai oleh orang yang sama ketika diuji-ulang dengan tes yang sama pada kesempatan berbeda atau
dengan seperangkat butir-butir ekuivalen equivalent items yang berbeda atau dalam kondisi pengujian yang berbeda Anastasi, 1997.
Pendekatan yang dipergunakan untuk menghitung reliabilitas ada
bermacam-macam. Diantaranya menurut Azwar 2004 adalah: pendekatan tes-
ulangTest-Retest , pendekatan benruk parallel, dan konsistensi internal.
2.2.2.1 Pendekatan Tes-ulang Test-Retest
Pengukuran terhadap sekelompok subyek dilakukan dua kali dengan satu alat pengukur. Reliabilitas dihitung dengan cara korelasi hasil pengukuran pertama
dengan kedua. Metode ini mengandung time sampling error, yaitu kesalahan yang timbul karena pengukuran pada waktu yang berbeda.
Kelamahan dari metode ini adalah rentan akan efek belajar. Hasil tes kedua biasanya lebih baik dari tes pertama karena testi sudah pernah mengerjakan
tes yang sama pada waktu pengetesan pertama.
2.2.2.2 Pendekatan Bentuk Parallel
Dalam pendekatan ini, tes yang akan diestimasi reliabilitasnya dicarikan padananya paralelnya. Yang dimaksud paralelnya adalah tes lain yang mengukur
hal yang sama dan setara isi itemnya, baik secara kualitas maupun kuantitas. Dua tes yang paralel yang menghasilkan skor berkorelasi tinggi satu sama lain disebut
tes yang reliabel.
Kelemahan utama dari metode ini adalah sulitnya menyusun atau menemukan dua tes yang benar-benar paralel. Menyusun satu tes yang memenuhi
sayarat kualitas yang baik saja tidak mudah palagi untuk menyusun dua tes yang setara.
2.2.2.3 Metode Konsistensi Internal
Pendekatan konsistensi internal bertujuan untuk melihat konsistensi antar item atau antar bagian dalam tes itu sendiri. Untuk itu, setelah skor setiap item
diperoleh dari sekelompok subjek, tes dibagi menjadi beberapa belahan. Tes yang akan diestimasi reliabilitasnya dapat dibelah menjadi dua bagian, tiga, empat,
bahkan dapat dibelah sebanyak jumlah item sehingga setiap belahan berisi satu item saja.
2.3 Gambaran Umum TIM