Konstruksi Tes KAJIAN PUSTAKA

2.2 Konstruksi Tes

Terdapat dua istilah yang paling sering diterapkan pada pengembangan dan pengujian tes psikologi adalah validitas validity dan reliabilitas reliability.

2.2.1 Validitas

Validitas menguji apakah suatu alat tes sungguh-sungguh mengukur hal yang memang ingin diukur. Suatu tes atau skala dapat valid atau tidak valid untuk maksud ilmiah atau praktis yang hendak dicapai oleh si pengguna tes Kerlinger, 2006. Validitas suatu tes menerangkan apa yang diukur oleh tes dan sejauh mana tes tersebut mengukurnya. Cara-cara yang dapat digunakan untuk menghitung koefisien validitas adalah validitas isi, kriterion, dan konstruk Anastasi, 1997.

2.2.1.1 Validitas Isi Content-Related Validation

Validitas isi berkaitan dengan penelitian yang sistematis pada isi tes untuk menentukan apakah isi tes mencakup sampel representatif dari domain tingkah laku yang diukur.

2.2.1.2 Validitas Kriterion Criterion-Related Validation

Prosedur validitas kriterion menguji efektivitas tes meramalkan kinerja seseorang pada aktivitas tertentu. Kinerja seseorang diuji dengan kriterion, yaitu pengukuran langsung dan independen dari mana tes dirancang. Kriteria pengukuran untuk validitas skor tes dapat diperoleh dalam waktu yang bersamaan dengan skor tes atau dalam interval waktu tertentu. Berdasarkan interval waktu dapat dibedakan validitas prediktif dan validitas konkuren. Validitas prediktif mengacu pada ketepatan fungsi sebuah tes berkenaan dengan peramalan tingkah laku seseorang di masa yang akan datang. Sedangkan validitas konkuren relevan untuk tes-tes yang digunakan untuk diagnosa seseorang pada saat ini, dan bukan meramalkan hasil di masa yang akan datang. Perbedaan antara validitas prediktif dan validtas konkuren bukan berdasarkan waktu, tetapi pada tujuan tes.

2.2.1.3 Validitas Konstruk Construct-Corelated Validation

Validitas konstruksi teoritis mempersoalkan sejauh mana skor-skor hasil pengukuran dengan instrumen yang dipersoalkan merefleksikan konstruk reoritis yang mendasari alat ukur tersebut.

2.2.1.3.1 Analisis Faktor

Dasar pemikiran penerapan analisis faktor untuk validasi adalah bahwa walaupun perilaku manusia itu sangat banyak ragamnya, namun perilaku yang sangat beragam itu didasari oleh sejumlah faktor yang terbatas Suryabrata, 2005. Dengan analisis faktor dapat ditemukan faktor-faktor yang mendasari perilaku yang beragam tersebut. Tinggi-rendahnya validitas konstruk suatu alat tes tercermin pada sejauh mana muatan faktor yang diperoleh dari analisis faktor ini berkontribusi pada teori yang mendasarinya.

2.2.1.3.2 Korelasi dengan Tes Lain

Pada metode ini suatu alat tes yang diteorikan mengukur suatu konstruk tertentu dibandingkan dengan alat tes lainya. Suatu alat tes harus memiliki korelasi yang tinggi dengan alat tes lain yang secara konstruk mengukur hal yang sama. Jadi dua alat tes biarpun memiliki bentuk yang berbeda namun diteorikan mengukur suatu konstruk sama harus harus saling berkorelasi tinggi. Cara pembandingan seperti ini disebut validitas konvergen. Sebaliknya bila dua alat tes secara konstruk memang mengukur hal yang berbeda, semirip apapun bentuk soal antara keduanya, harus tidak saling berkorelasi. Cara pembandingan seperti ini disebut validitas diskriminan.

2.2.1.3.3 Item Responses Theory

Teori tes modern mendasarkan diri pada sifat atau kemampuan laten yang mendasari kinerja atau respon terhadap butir soal tertentu. Karena itu teori ini disebut menggunakan model sifat laten latent traits model. Nama yang lebih popular adalah teori respons butir soal atau Item Reponse Theory IRT. Menurut Suryabrata 2005 teori IRT berlandaskan pada dua postulat, yaitu: 1. Kinerja seorang testi pada suatu butir soal dapat diprediksikan atau dijelaskan dari satu perangkat faktor-faktor yang disebut sifat-sifat, atau sifat-sifat laten, atau kemampuan. 2. Hubungan antara kinerja testi pada suatu butir soal dan perangkat sifat- sifat yang mendasari kinerja itu dapat dideskripsikan dengan fungsi meningkat secara monotonik yang disebut fungsi karakteristik butir soal item characteristic function atau Kurve Karakteristik butir Soal atau KKS Item Characteristic Curve - ICC. Fungsi ini menyatakan bahwa apabila taraf sifat kemampuan meningkat, maka probabilitas suatu respons yang benar terhadap suatu butir soal juga naik. Model matematis yang digunakan IRT menyatakan bahwa probabilitas testi menjawab benar terhadap butir soal tertentu tergantung pada kemampuan testi dan karakteristik butir soal yang bersangkutan. Model-model IRT meliputi seperangkat asumsi-asumsi mengenai data yang diterdigunakan. Walaupun keberlakuan asumsi-asumsi itu tidak dapat ditentukan secara langsung, namun untuk sementara bukti tak langsung dapat dikumpulkan dan dinilai. Demikian pula dengan kesesuaian model terhadap data, juga dapat dinilai. Suatu asumsi yang umum digunakan secara luas oleh model-model IRT ialah bahwa hanya satu kemampuan yang diukur oleh butir-butir soal yang merupakan seperangkat tes. Hal ini disebut asumsi unidimensionalitas unidimensionality. Konsep lain yang berkaitan langsung dengan unidimensionalitas ialah ketidaktergantungan lokal local independence. Asumsi lain dalam IRT adalah bahwa fungsi karakteristik butir soal tertentu merefleksikan hubungan yang sebenarnya true relationship antara variabel-variabel yang tak dapat diobservasi kemampuan dengan variabel-variabel yang dapat diobservasi, yaitu respons terhadap butir soal. Asumsi juga dibuat mengenai karakteristik butir soal yang relevan bagi kinerja testi pada sesuatu butir soal.

2.2.2 Reliabilitas

Menurut Azwar 2004, reliabilitas berasal dari kata rely dan ability. Pengukuran yang memiliki reliabilitas tinggi disebut sebagai pengukuran yang reliabel reliable. Reliabilitas merujuk pada konsistensi skor yang dicapai oleh orang yang sama ketika diuji-ulang dengan tes yang sama pada kesempatan berbeda atau dengan seperangkat butir-butir ekuivalen equivalent items yang berbeda atau dalam kondisi pengujian yang berbeda Anastasi, 1997. Pendekatan yang dipergunakan untuk menghitung reliabilitas ada bermacam-macam. Diantaranya menurut Azwar 2004 adalah: pendekatan tes- ulangTest-Retest , pendekatan benruk parallel, dan konsistensi internal.

2.2.2.1 Pendekatan Tes-ulang Test-Retest

Pengukuran terhadap sekelompok subyek dilakukan dua kali dengan satu alat pengukur. Reliabilitas dihitung dengan cara korelasi hasil pengukuran pertama dengan kedua. Metode ini mengandung time sampling error, yaitu kesalahan yang timbul karena pengukuran pada waktu yang berbeda. Kelamahan dari metode ini adalah rentan akan efek belajar. Hasil tes kedua biasanya lebih baik dari tes pertama karena testi sudah pernah mengerjakan tes yang sama pada waktu pengetesan pertama.

2.2.2.2 Pendekatan Bentuk Parallel

Dalam pendekatan ini, tes yang akan diestimasi reliabilitasnya dicarikan padananya paralelnya. Yang dimaksud paralelnya adalah tes lain yang mengukur hal yang sama dan setara isi itemnya, baik secara kualitas maupun kuantitas. Dua tes yang paralel yang menghasilkan skor berkorelasi tinggi satu sama lain disebut tes yang reliabel. Kelemahan utama dari metode ini adalah sulitnya menyusun atau menemukan dua tes yang benar-benar paralel. Menyusun satu tes yang memenuhi sayarat kualitas yang baik saja tidak mudah palagi untuk menyusun dua tes yang setara.

2.2.2.3 Metode Konsistensi Internal

Pendekatan konsistensi internal bertujuan untuk melihat konsistensi antar item atau antar bagian dalam tes itu sendiri. Untuk itu, setelah skor setiap item diperoleh dari sekelompok subjek, tes dibagi menjadi beberapa belahan. Tes yang akan diestimasi reliabilitasnya dapat dibelah menjadi dua bagian, tiga, empat, bahkan dapat dibelah sebanyak jumlah item sehingga setiap belahan berisi satu item saja.

2.3 Gambaran Umum TIM