Analisis Karakteristik Psikometri Karakteristik Psikometri Subtes Wortauswahl (WA) Pada Intelligenz Struktur Test (IST)

Asumsi 7 Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama membunyai skot tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan jika untuk setiap populasi subjek T1 = T2 + C. Dengan C sebagai suatu bilangan konstan, maka kedua tes tersebut dapat disebut sebagai tes yang setara equivalent test.

B. Analisis Karakteristik Psikometri

Sebuah instrument tes merupakan sekumpulan aitem yang disusun sedemikian rupa, baik berupa pertanyaan maupun pernyataan mengenai suatu hal yang hendak diukur Azwar, 2007. Proses analisis terhadap karakteristik psikometri dari suatu instrument tes ditujukan untuk memilih aitem-aitem yang layak dan mengetahui kelayakan instrument tersebut. Jadi proses analisis dapat dilakukan untuk merancang sebuah instrumen tes yang baru atau menguji instrument yang sudah ada. Proses analisis tersebut secara sederhana meliputi dua cara, yaitu: Tahap Pertama adalah analisis dan seleksi aitem berdasarkan evaluasi secara kualitatif. Evaluasi ini bertujuan untuk melihat apakah aitem yang ditulis sudah sesuai dengan blue-print dan indikator perilaku yang hendak diungkap, melihat apakah aitem telah ditulis sesuai dengan kaidah penulisan yang benar, dan melihat apakah aitem-aitem yang ditulis masih mengandung social desirability yang tinggi. Evaluasi secara kualitatif ini dikerjakan oleh suatu panel ahli. Universitas Sumatera Utara Tahap kedua adalah prosedur seleksi aitem berdasarkan data empiris dengan melakukan analisis kuantitatif terhadap parameter-parameter aitem. Parameter-parameter yang dimaksud meliputi indeks diskriminasi aitem dan indeks kesulitan aitem, analisis efektivitas distraktor, analisis reliabilitas, serta analisis validitas dari instrumen tersebut Crocker Algina, 2005. 1. Indeks Kesulitan Aitem a. Pengertian Indeks Kesulitan Aitem Indeks kesulitan aitem yang biasanya disimbolkan dengan huruf p merupakan rasio antara penjawab aitem dengan benar dan banyaknya penjawab aitem. Secara teoritik dikatakan bahwa p sebenarnya merupakan probabilitas empirik untuk lulus aitem tertentu bagi kelompok subjek tertentu. Secara matematis diformulaikan sebagai berikut: p = ni N 6 Keterangan: p = indeks kesulitan aitem ni = banyaknya subjek yang menjawab aitem dengan benar N = banyaknya subjek yang menjawab aitem Selain untuk membedakan subjek yang menguasai suatu pelajaran dengan baik dengan yang tidak menguasai dengan baik, indeks kesulitan aitem juga berfungsi dalam hal penyusunan aitem-aitem saat penyusunan alat tes. Hal ini sesuai dengan apa yang diungkapkan oleh Kumar 2009, yang menyatakan bahwa penyusunan aitem dilakukan berdasarkan nilai indeks kesulitan aitem. Lebih lanjut Murphy Davidshofer 2003 menyarankan untuk menyusun aitem- Universitas Sumatera Utara aitem dalam tes secara sistematis, dengan menempatkan aitem-aitem berdasarkan tingkat kesukarannya, mulai dari aitem yang paling mudah hingga yang paling sulit. Sehingga pola penyusunan aitem-aitem dalam tes dimulai dari aitem dengan harga p yang paling tinggi hingga aitem dengan harga p yang paling rendah. b. Analisis Indeks Kesulitan Aitem Nilai p yang semakin tinggi menunjukkan bahwa aitem yang bersangkutan semakin mudah. Nilai p berkisar dari 0 sampai dengan angka 1. Apabila sebuah aitem sedemikian sukarnya, sehingga tidak seorang subjek pun dapat menjawab dengan benar, maka harga p = 0, sedangkan apabila suatu aitem sedemikian mudahnya sehingga seluruh subjek dapat menjawab dengan benar, maka harga p = 1. Aitem yang terlalu mudah atau terlalu sulit biasanya tidak akan banyak berguna dalam membedakan subjek yang menguasai bahan pelajaran dan mereka yang tidak Azwar, 2007. Pada umumnya harga p yang berada disekitar 0,50 dianggap yang terbaik. Menurut Azwar 2007, harga p terbaik adalah yang sesuai yang sesuai dengan tujuan tes yang bersangkutan. Misalnya kadang-kadang dikehendaki harga p 0,50 aitemnya lebih sulit apabila aitem aitem itu dimaksudkan sebagai bagian dari suatu tes yang digunakan dalam prosedur seleksi guna memilih sebagian kecil saja dari antara pelamar. Tidak jarang pula sebuah tes prestasi perlu disusun dengan memasukkan banyak aitem yang taraf kesulitannya rendah p tinggi dengan tujuan untuk evaluasi formatif. Jadi bisa dikatakan bahwa harga p yang berada pada titik ekstrem terlalu sulit atau terlalu mudah akan mempunyai daya diskriminasi yang kurang baik. Universitas Sumatera Utara Oleh karena itu, umumnya pada penyusunan instrumen tes disarankan untuk menggunakan aitem dengan taraf kesulitan sedang 0,50. Namun Lord dalam Murphy Davidshofer, 2003 menyatakan bahwa untuk tes seleksi karyawan, p akan dikatakan baik jika nilai p mendekati 0,2. Allen Yen dalam Lababa, 2008 mengkategorikan nilai p sebagai berikut: Tabel 1 Kategori Tingkat Kesulitan aitem No P Kategori 1 p0,3 Sulit 2 0,3 p 0,7 Sedang 3 p0,7 Mudah Ada beberapa hal yang perlu dipahami mengenai indeks kesulitan aitem ini, diantaranya pertama adalah bahwa harga p dari suatu aitem menunjukkan taraf kesulitan aitem tersebut bagi kelompok yang bersangkutan, yaitu kelompok yang menjadi dasar dalam menghitung p itu sendiri Azwar, 2005. Artinya harga p suatu aitem akan berbeda apabila dihitung pada kelompok siswa yang berbeda. Kedua bahwa besarnya harga p yang kita hitung merupakan indek kesulitan aitem bagi seluruh kelompok yang bersangkutan, bukan indeks kesulitan bagi masing- masing individu dalam kelompok. Artinya harga p yang dihitung dalam kelompok hanya merupakan rata-rata indeks kesulitan bagi seluruh individu dalam kelompok tersebut. Berdasarkan penjelasan di atas, maka dalam penelitian ini aitem dikatakan memiliki indeks diskriminasi yang baik jika harga p lebih kecil dari 0,3, dengan alasan bahwa IST dalam hal ini digunakan untuk seleksi karyawan, yaitu memilih sebagian kecil saja dari antara para pelamar. Universitas Sumatera Utara

2. Indeks Daya Diskriminasi Aitem

a. Pengertian Indeks Diskriminasi Aitem. Indeks daya diskriminasi aitem atau sering disebut dengan daya beda aitem merupakan parameter yang paling penting dalam tes psikologi yang menunjukkan sejauh mana aitem mampu membedakan antara individu atau kelompok individu yang memiliki dan yang tidak memiliki atribut yang diukur Azwar, 2005. Artinya bahwa aitem yang memiliki daya beda yang tinggi harus memiliki skor yang tinggi pada individu yang memiliki atribut yang diukur dan skor yang rendah pada individu yang tidak memiliki atribut yang diukur. Indeks diskriminasi aitem d secara sederhana didefinisikan sebagai perbedaan proporsi penjawab aitem dengan benar antara Kelompok Tinggi dengan Kelompok Rendah. Secara matematis diformulasikan sebagai berikut: 7 Keterangan: d : Indeks diskriminasi Aitem niT : jumlah subjek penjawab dengan benar dari Kelompok Tinggi nT : Jumlah subjek Kelompok Tinggi niR : jumlah subjek penjawab dengan benar dari Kelompok Rendah nR : Jumlah subjek Kelompok Rendah Formulasi di atas sama dengan perbedaan selisih indeks kesulitan pada Kelompok Tinggi dan Kelompok Rendah, sehingga lebih sederhana dapat diformulasikan sebagai berikut: Universitas Sumatera Utara - 8 Keterangan : = Indeks kesulitan pada Kelompok Tinggi = Indeks kesulitan pada Kelompok Rendah Dalam skala sikap, sebuah aitem dikatakan memiliki daya beda tinggi jika aitem tersebut mampu membedakan antara subjek yang bersikap positif dan subjek yang bersifat negatif. Sedangkan untuk sebuah tes inteligensi, sebuah aitem dikatakan memiliki daya beda tinggi jika aitem tersebut mampu membedakan subjek yang memiliki kemampuan tinggi Kelompok Tinggi dan subjek yang memiliki kemampuan rendah Kelompok Rendah. Artinya suatu aitem tersebut haruslah dijawab dengan benar oleh semua atau sebagian besar subjek Kelompok Tinggi dan tidak dapat dijawab dengan benar oleh semua atau sebagian besar subjek Kelompok Rendah Azwar, 2007. b. Analisis Indeks Diskriminasi Aitem Menurut Murphy dan Davidshofer 2003, jika suatu tes dan satu aitem mengukur hal yang sama, maka diharapkan bahwa orang yang mengerjakan tes dengan baik akan menjawab aitem tersebut dengan benar, dan orang yang mengerjakan tes dengan buruk menjawab aitem tersebut dengan salah. Dengan kata lain, aitem yang memiliki daya diskriminasi yang baik mampu membedakan antara orang yang mengerjakan tes dengan baik dan orang yang mengerjakan tes dengan buruk. Nilai Indeks diskriminasi d berkisar mulai dari -1 sampai dengan +1, namun hanya harga d yang positif saja yang memiliki arti dalam analisis aitem. Universitas Sumatera Utara Daya diskriminasi maksimal tercapai apabila seuruh subjek Kelompok Tinggi dapat menjawab dengan benar , sedangkan seluruh subjek Kelompok Rendah tidak seorang pun yang dapat menjawab dengan benar . Dalam hal ini, harga indeks diskriminasi d = 1-0=1. Harga d yang berada disekitar 0 menunjukkan bahwa aitem yang bersangkutan memiliki daya diskriminasi yang rendah, sedangkan harga d yang negative menunjukkan bahwa aitem yang bersanngkutan tidak ada gunanya sama sekali, bahkan memberikan informasi yang menyesatkan. Indeks diskriminasi yang ideal yang ideal adalah yang sebesar mungkin mendekati angka 1. Semakin besar indeks kemsukaran aitem semakin mendekati angka 1 berarti aitem tersebut semakin mampu membedakan antara subjek yang menguasai bahan yang diujikan dan dan subjek yang tidak menguasai. Menurut Thorndike dalam Azwar, 2005 bahwa dalam proses seleksi aitem, aitem-aitem yang memiliki nilai diskriminasi di atas 0,50 akan langsung dianggap baik sedangkan aitem-aitem dengan indeks diskriminasi di bawah 0,20 dapat langsung dibuang dan dianggap jelek. Sementara menurut Ebel dalam Azwar, 2005 terdapat suatu panduan dalam evaluasi indeks diskriminasi aitem, yaitu: Tabel 2 Evaluasi Indeks Daya Diskriminasi Aitem Indeks Daya Beda Evaluasi 0,40 Sangat bagus 0,30 – 0,39 Lumayan bagus, tidak membutuhkan revisi 0,20 – 0,29 Belum memuaskan, perlu direvisi 0,20 Buruk dan harus dibuang Universitas Sumatera Utara Menurut Murphy dan Davidshofer 2003, ada tiga statistik yang dapat digunakan untuk mengukur daya diskriminasi suatu aitem, yaitu: 1. Method of Extreme Group Metode ini biasanya dugunakan untuk indeks diskriminasi pada kelompok besar. Diskriminasi aitem dapat dihitung dengan cara membagi kelompok menjadi dua, Upper group Kelompok Tinggi yakni kelompok yang memiliki skor yang tinggi 25-35 nilai tertinggi didalam kelompok dan lower group Kelompok Rendah yakni kelompok yang memiliki nilai yang rendah 25-35 nilai terendah dalam kelompok. Aitem yang memiliki indeks diskriminasi yang baik akan dijawab benar oleh Kelompok Tinggi dan dijawab salah oleh Kelompok Rendah. 2. Korelasi Aitem-Total Parameter daya beda aitem yang berupa koefisien korelasi aitem-total memperlihatkan kesesuaian fungsi aitem dengan fungsi skala tes dalam mengungkap perbedaan individual. Besarnya koefisien korelasi aitem-total bergerak 0 sampai dengan 1,00. Semakin baik daya diskriminasi aitem, maka koefisien korelasi semakin mendekati angka 1,00. Korelasi aitem total dapat diketahui dengan menghitung korelasi point biserial rpbis. Korelasi point biserial yang bernilai positif menunjukkan bahwa aitem dan tes mengukur hal yang sama, nilai mendekati nol menunjukkan bahwa bahwa aitem tidak memiliki indeks daya beda yang baik sehingga kelompok tinggi menjawab pertayaan dengan salah dan kelompok rendah menjawab pertanyaan dengan benar. Nilai negatif menunjukkan bahwa aitem tidak mengukur hal yang sama dengan alat tes. Berikut adalah formula point biserial : Universitas Sumatera Utara r pbis = [M i – M x S x ] √[p1-p] 9 Keterangan : r pb : Korelasi point biserial M i :Mean skor X dari seluruh subjek yang mendapat angka 1 pada variabel dikotomi i M x : Mean skor dari seluruh subjek S x :Standard deviasi skor X P :Proporsi subjek yang mendapat angka 1 pada variabel dikotomi 3. Korelasi Inter-Aitem Pengujian terhadap korelasi inter-aitem dapat membantu kita mengetahui mengapa beberapa aitem gagal membedakan anatara subjek yang bekerja dengan baik Kelompok Tinggi dan yang bekerja dengan buruk Kelompok Rendah Murphy dan Davidshofer, 2003 Korelasi inter-aitem yang bernilai rendah dapat memiliki dua arti, kemungkinan pertama adalah aitem tidak mengukur hal yang sama dengan tes, sehingga aitem harus dibuang atau dibuat ulang, kemungkinan kedua adalah aitem memang mengukur atribut yang berbeda dengan tes dikarenakan tes memang disusun untuk mengukur dua atribut yang berbeda. Dalam penelitian ini, indeks diskriminasi akan diukur dengan dua cara, yaitu dengan metode extreme group dan metode korelasi aitem-total. Dengan metode extreme group, diharapkan bisa melihat perbedaan antara Kelompok Tinggi dan Kelompok Rendah. Sedangkan dengan metode korelasi aitem-total diharapkan dapat melihat kesesuaian fungsi aitem dengan fungsi tes dalam mengungkap perbedaan individual. Universitas Sumatera Utara

3. Efektivitas Distraktor

Efektivits distraktor-distraktor pada suatu aitem dianalisis dari distribusi jawaban terhadap aitem yang bersangkutan pada setiap alternatif yang disediakan. Efektivitas distraktor diperiksa untuk melihat apakah semua distraktor atau semua pilihan jawaban yang bukan kunci telah berfungsi sebagaimana mestinya, yaitu apakah distraktor-distraktor tersebut telah dipilih lebih banyak atau semua siswa Kelompok Rendah sedangkan siswa dari Kelompok Tinggi hanya sedikit atau tidak ada yang memilihnya. Efektivitas distraktor dilihat dari dua kriteria, yaitu: a distraktor dipilih oleh siswa dari Kelompok Rendah, dan b pemilih distraktor tersebar relative proporsional pada masing-masing distrakktor yang ada Azwar, 2005

4. Reliabilitas

a. Pengertian Reliabilitas Reliabilitas merupakan penerjemahan dari kata reliability yang berasal dari dua kata yaitu rely dan ability, dimana rely memilliki arti percaya atau mempercayakan sedangkan ability memiliki arti kemampuan. Ada banyak istilah yang digunakan untuk menyatakan reliabilitas, seperti keterpercayaan, keterandalan, keajegan, kestabilan, konsistensi dan sebagainya, namun pada intinya konsep reliabilitas memiliki makna: sejauh mana hasil suatu tes pengukuran dapat dipercaya Azwar, 2007 Crocker dan Algina 2005 menjelaskan bahwa pada dasarnya reliabilitas menggambarkan derajat konsistensi, yaitu : Universitas Sumatera Utara ”a reliability term refers to the degree to which individuals deviation scores, or z-scores, remain relatively consistent over repeated administration of the same test or alternate test forms”. Reliabilitas suatu tes ditunjukkan oleh taraf konsistensi skor yang diperoleh para subjek yang diukur dengan alat yang sama atau minimal setara, dalam kondisi yang berbeda Suryabrata, 2005. Konsepsi mengenai reliabilitas berkaitan dengan derajat konsistensi antara dua perangkat skor tes, maka formula reliabilitas selalu dinyatakan dalam bentuk koefisien korelasi Azwar, 2007. Menurut Gregory 2000, reliabilitas dalam pengukuran psikologis menunjukkan atribut konsistensi dari pengukuran itu sendiri. Hanya sedikit dari pengukuran behavioral yang benar-benar reliabel, dan reliabilitas itu sendiri bersifat kontinum. Berdasarkan beberapa definisi di atas, dapat disimpulkan bahwa reliabilitas pada dasarnya merupakan ketetapan atau derajat konsistensi performansi relative dari individu yang dikenai tes ketika diberikan tes yang sama secara berulang atau tes yang parallel. Tujuan dari sebuah pengetesan adalah untuk mengetahui true score seseorang yang bersifat latent. Karena bersifat latent, maka skor ini tidak pernah diketahui secara pasti nilainya dan yang paling mungkin dilakukan untuk mengetahui true score ini adalah membuat perkiraan melalui observed score. Observed score adalah skor individu yang diperoleh dari pengetesan. Faktor yang mempengaruhi reliabilitas suatu tes adalah error. Error atau varians kesalahan Universitas Sumatera Utara adalah kondisi yang tidak sesuai atau tidak relevan dengan maksud tes Anastasi Urbina, 1997. Ada dua jenis error yang sering terjadi, yaitu: 1 Systematic error yaitu kecenderungan individu untuk memperoleh skor yang tinggi semua atau rendah semua. Sifat eror ini selalu konstan. Sumbernya adalah karakteristik fisik individu, proses tes tes yang tidak berkaitan dengan konstruk yang ingin diukkur. Misalnya alat ukur rusak, gangguan pendengaran, gangguan penglihatan, dll. 2 Unsystematic error random error, yaitu kecenderungan individu memperoleh skor yang tidak tetap, terkadang baik, terkadang buruk. Error ini bersifat random. Ada berbagai hal yang dapat menimbulkan random error, antara lain kelelahan memori subjek dan naik turunnya suasana hati, dll. b. Jenis-jenis Pendekatan Estimasi Reliabilitas Estimasi terhadap tingginya reliabilitas dapat dilakukan melalui berbagai metode pendekatan, dimana masing-masing metode pendekatan dikembangkan sesuai dengan sifat dan fungsi alat ukur yang bersangkutan dengan mempertimbangkan segi-segi praktisnya Azwar, 2007 Menurut Azwar 2007, secara tradisional terdapat tiga macam pendekatan reliabilitas yaitu : 1 Pendekatan Tes Ulang tes-retest Pendekatan ini menunjukkan konsistensi pengukuran dari waktu ke waktu dan menghasilkan koefisien reliabilitas yang dinamakan koefisien stabilitas. Prinsip estimainya adalah menyajikan tes dua kali pada satu kelompok subjek Universitas Sumatera Utara dengan tenggang waktu tertentu. Asumsinya adalah bahwa suatu tes yang reliable tentu akan menghasilkan skor tampak yang relative sama apabila dikenakan dua kali pada waktu yang berbeda. Semakin besar variasi perbedaan skor subjek antara kedua pengenaan tes, berarti semakin sulit untuk mempercayai bahwa tes itu memberikan hasil ukur yang konsisten Azwar, 2007 Dalam prakteknya, pendekatan ini memiliki keterbatasan yaitu kurang praktis dalam pelaksanaan tes sebanyak dua kali, dan besarnya kemungkinan terjadi efek bawaan carry-over effects dari satu pengenaan tes ke pengenaan te syang kedua. Artinya dalam hal ini besar kemungkinan terjadinya proses pembelajaran bagi subjek dan hal ini akan mempengaruhi terhadapa skor hasil tes yang kedua kalinya. 2 Pendekatan Bentuk-Paralel alternate-forms Pendekatan bentuk paralel merupakan pengenaan dua bentuk tes pararel dalam waktu yang bersamaan pada satu kelompok subjek. Jadi pendekatan ini hanya dapat dilakukan apabila tersedia dua bentuk instrumen yang dapat dianggap memenuhi asumsi parallel. Salah satu indicator terpenuhinya asumsi paralel adalah setaranya korelasi antara skor kedua instrument tersebut dengan skor suatu ukuran lain. Tentu saja untuk dapat paralel kedua bentuk instrumen harus disusun dengan tujuan mengukur objek psikologis yang sama, berdasarkan blue-Print pola-rancangan yang sama dan spesifikasi yang sama pula. Kelemahan utama dari pendekatan ini adalah sulitnya menyusun dua alat ukur yng memenuhi persyaratan parallel atau sejajar. Selain kelemahan di atas, Universitas Sumatera Utara pendekatan ini juga memiliki kelebihan, yaitu dapat menghilangkan kemungkinan terjadinya efek bawaan. 3 Pendekatan Konsistensi Internal Internal-Consistency Pendekatan konsistensi internal dilakukan dengan menggunakan satu bentuk tes yang dikenakan hanya sekali saja pada sekelompok subjek single-trial administration. Pendekatan ini mengatasi kelemahan pada pendekatan tes-retest dan alternate-forms. Pendekatan reliabilitas konsistensi internal bertujuan untuk melihat konsistensi antar-aitem atau antar bagian dalam tes itu sendiri. Untuk itu, setelah skor setiap aitem diperoleh dari sekelompok subjek, tes dibagi menjadi beberapa belahan, bisa dua belahan, tiga belahan dan bahkan belahan sebanyak aitem. Membelah tes prinsipnya adalah mengusahakan agar antar belahan memiliki jumlah aitem sama banyak, taraf kesulitan seimbang, isi sebanding, dan memenuhi ciri-ciri paralel . Bentuk dan sifat alat ukur serta banyaknya belahan yang dibuat akan menentukan teknik perhitungan koefisien reliabilitasnya. Ada beberapa teknik komputasi reliabilitas konsistensi internal diantaranya: Formula Spearman-Brown, Formula Rulon, Formula Alpha, Formula-formula Kuder-Richardson, Formula Kristof, Formula Analisis varians dan sebagainya. Berikut ini akan dijelaskan secara singkat mengenai penggunaan berbagai formula tersebut: Universitas Sumatera Utara 1. Spearman-Brown Formula komputasi Spearman-Brown merupakan formula koreksi terhadap koefisien korelasi antara dua bagian tes dan dirumuskan sebagai berikut Azwar, 2005: S-B = r xx’ = 10 Keterangan: r xx’ = Koefisien reliabilitas Spearman-Brown r1.2 = Koefisien korelasu antara dua belahan Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, pembelahan tes dilakukan dengan cara gasal-genap dan matched-random subtes dan menghasilkan dua bagian yang paralel satu sama lain dan korelasi antara kedua belahan paralel tersebut cukup tinggi. 2. Rulon Rulon 1939 mempersoalkan reliabilitas tes yang dibelah menjadi dua belahan. Jika sekiranya belahan tersebut setara maka secara teori skor subjek pada perangkat belahan pertama dan skor perangkat belahan kedua akan sama. Jika skor-skor pada kedua perangkat itu tidak sama, maka itu terjadi karena kesalahankekeliruan pengukuran. Berdasarkan atas pemikiran ini maka diusulkan rumus reliabilitas tes sebagai berikut Suryabrata, 2005: r xx’ = 1- s d 2 s x 2 11 Keterangan: s d 2 = Varians perbedaan skor kedua belahan s x 2 = Varians skor tes Universitas Sumatera Utara d = Perbedaan skor kedua belahan Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent. 3. Koefisien alpha belah dua Formula koefisien alpha untuk estimasi reliabilitas belah dua dirumuskan sebagai berikut: r xx’ = 2 12 Keterangan: = varians pada belahan 1 = varians pada belahan 2 = varians total skor tes Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent, aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait. 4. Koefisien alpha belah lebih dari dua Pembelahan tes tidak hanya terbatas pada membagi tes ke dalam dua belahan saja. Cara-cara pembelahan dapat diperluas pemakainnya untuk membagi tes menjadi beberapa belahan. Bahkan suatu tes yang akan diestimasi reliabilitasnya dapat dibelah menjadi bagian-bagian sebanyak jumlah aitemnya sehingga setiap bagian hanya berisi satu aitem saja. Universitas Sumatera Utara Untuk tes yang dibelah menjadi lebih dari dua belahan yang masing- masing berisi aitem yang berjumlah sama banyak kita dapat menggunakan formula alpha dengan rumus: α = 13 Keterangan : = banyaknya belahan tes = varians belahan j; j = 1, 2…k = varians skor tes Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap belahan memiliki aitem yang relatif setara, paralel setidaknya memenuhi asumsi τ-equivalent, aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait. 5. Flanagan Flanagan menganggap bahwa varians-varians pada perangkat-perangkat belahan tes merupakan varians kekeliruan pengukuran. Maka untuk tes yang dibelah menjadi dua bagian setara reliabilitasnya adalah sebagai berikut: r xx’ =2 14 Keterangan: = varians pada belahan 1 = varians pada belahan 2 = varians total skor tes Universitas Sumatera Utara 6. Kuder-Richardson 20 KR-20 KR 20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua yang mungkin dilakukan. Koefisien ini juga mencerminkan sejauhmana kesetaraan isi aitem-aitem dalam tes. Rumusan formula KR-20 adalah: KR-20 15 Keterangan : = Banyaknya aitem dalam tes = Varians skor tes p = Proporsi subjek yang mendapat angka 1 pada suatu aitem, yaitu banyaknya subjek yang mendapat angka 1 dibagi oleh banyaknya seluruh subjek yang menjawab aitem tersebut. Formula ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem, aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait. 7. Kuder-Richardson 21 KR-21 Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan aitem. hal inilah yang membedakan antara KR-20 dengan KR-21. Rumusan formula KR- 21 adalah: 16 Keterangan : = banyaknya aitem dalam tes = rata-rata p yaitu, Universitas Sumatera Utara = varians skor tes Untuk mempermudah komputasi, formula KR-21 dapat pula dinyatakan sebagai: 17 Keterangan : M x = harga rata-rata means skor tes Penggunaan formula ini hamper sama dengan formula KR-20. Hanya saja yang membedakannya adalah bahwa KR-21 ini digunakan jika tingkat kesulitan aitem-aitem dalam tes relatif setara. Jika digunakan pada alat tes yang tingkat kesulitan yang bervariasi, maka hasilnya akan kurang teliti Azwar, 2007 8. Formula untuk Tes Belah Tiga Formula Kristof Komputasi koefisien reliabilitas tes yang telah dibelah menjadi tiga bagian ini didasarkan pada formula estimasi skor murni yang dirumuskan Kristof, yaitu: 18 Keterangan: S 12 = kovarians belahan 1 dan belahan 2 = kovarians belahan 1 dan belahan 3 = kovarians belahan 2 dan belahan 3 Untuk komputasi koefisien reliabilitasnya digunakan rumus dasar reliabilitas, yaitu: r xx’ = Universitas Sumatera Utara Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, membelah tes menjadi 3 bagian, belahan tidak harus sama panjang, jumlah aitem tidak harus sama banyak dengan syarat isi tetap homogen, dan lebih baik digunakan pada subjek dalam jumlah besar. 9. Analisis varians Hoyt Hoyt 1941 mengembangkan pendekatan analisis varian yang disebut dengan analisis varian Hoyt. Konsep dalam teknik analisis varian Hoyt adalah memandang distribusi aitem keseluruhan subjek sebagai data pada suatu desain eksperimen faktorial dua-jalan tanpa replikasi, yang dikenal pula sebagai item by subject design. Setiap aitem dianggap sebagai suatu perlakuan yang berbeda sehingga setiap kali subjek dihadapkan pada suatu aitem seakan-akan berada pada suatu perlakuan yang berbeda, sehingga banyaknya aitem merupakan banyaknya perlakuan. Dari pola faktorial ini diperoleh harga mean kuadrat antar subjek yang sebenarnya merupakan estimasi terhadap varians skor tes, meankuadrat antar aitem, dan meankuadrat interaksi aitem-subjek yang merupakan estimasi terhadap varians eror, jadi formula reliabilitas Hoyt adalah: 19 Keterangan: = mean kuadrat interaksi aitem x subjek = mean kuadrat antar aitem Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent, Universitas Sumatera Utara aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait. 10. Formula Feldt Formula untuk Tes belah Dua Panjang Tidak Sama Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, membelah tes menjadi 2 bagian yang tidak sama panjang, jumlah aitem tidak harus sama banyak dengan syarat isi tetap homogen, dan lebih baik digunakan pada subjek dalam jumlah besar. Feldt 1975 menggunakan formula estimasi reliabilitas sebagai berikut: 20 Keterangan: = varians skor belahan 1 = varians skor belahan 2 = kovarians skor belahan 1 dan 2 = deviasi standar skor tes Pada penelitian ini, estimasi koefisien reliabilitas dilakukan dengan pendekatan konsistensi internal atau satu kali tes dengan teknik komputasi reliabilitas yang digunakan adalah formula Kuder- Richardson KR’20. Formula KR’20 dipilih karena tingkat kesulitan aitem subtes WA cenderung bervariasi. Jika KR’21 digunakan pada tes yang kesulitan aitem nya cenderung bervariasi, maka hasilnya akan rendah dan tidak cermat Azwar, 2007 Universitas Sumatera Utara c. Analisis Koefisien Reliabilitas Tingkat reliabilitas dari suatu penngukuran ditunjukkan dari koefisien reliabilitas. Koefisien reliabilitas memperlihatkan pengaruh dari true score dan error score terhadap observed score. Secara umum, koefisien reliabilitas dapat didefinisikan sebagai rasio dari true score variance terhadap total variance dari skor tes Gregory, 2000. Rentang nilai koefisien reliabilitas adalah antara 0.0-1.0. Pengukuran yang sangat reliabel akan memiliki koefisien reliabilitas mendekati 1.0, sebaliknya yang sangat tidak reliabel akan memiliki koefisien relabilitas mendekati 0.0. Menurut Anastasi Urbina 1997, suatu pengukuran dapat dikatakan reliabel apabila memiliki rentang nilai koefisien reliabilitas antara 0.80-0.90. sedangkan menurut Nunnally 2005, pengukuran dapat dikatakan reliabel jika memiliki koefisien reliabilitas diatas 0.70. Murphy Davidshofer 2003 mengelompokkan nilai koefisien reliabilitas ke dalam beberapa kelompok nilai, yaitu nilai yang tidak dapat diterima ≤ 0.60, nilai yang rendah 0.61-0.70, nilai moderat 0.71- 0.89 dan nilai yang tinggi ≥ 0.90. d. Interpretasi Koefisien Reliabilitas Dalam setiap pengukuran kemungkinan besar akan selalu terjadi error E pengukuran yang mengakibatkan skor tampak X tidak selalu sama dengan skor murni T. Jadi untuk mengestimasi nilai skor murni, diperlukan interpretasi dari koefisien reliabilitas. Suatu tes dikatakan memiliki reliabilitas yang tinggi apabila misalnya, skor tampak X berkorelasi tinggi dengan skor murni T nya sendiri. Universitas Sumatera Utara Atau bisa juga ditafsirkan dari tingginya korelasi antara skor-tampak pada dua tes yang pararel. Allen Yen dalam Azwar, 2004 menguraikan enam cara untuk menginterpretasikan koefisien reliabilitas , yaitu: Interpretasi 1 : = korelasi skor tampak antara dua tes yang pararel. Interpretasi ini menyatakan bahwa reliabilitas ini ditentukan oleh sejauh mana skor tampak pada dua tes yang parallel berkorelasi. Interpretasi ini menjadi asumsi dasar dalam pendekatan reliabillitas bentuk parallel Parallel-forms dan pendekatan reliabilitas bentuk sejajar alternate-forms. Interpretasi 2 : = besarnya proporsi varians X yang dijelaskan oleh hubungan linearnya dengan . Interpretasi ini berasal dari penafsiran koefisien determinasi sebagaimana biasanya dilakukan pada penafsiran koefisien korelasi linier Pearson. Interpretasi ini sangat penting artinya dalam menilai apakah suatu koefisien reliabilitas dapat dianggap cukup bermakna atau tidak. Interpretasi 3 : = 21 Interpretasi ini menyatakan bahwa koefisien reliabilitas merupakan besarnya perbandingan antara varians skor murni dan varians skor tampak pada Universitas Sumatera Utara suatu tes atau merupakan proporsi varians skor tampak yang berisi varians skor murni. Bila semua perbedaan yang terjadi pada skor tampak subjek merefleksikan perbedaan skor murni, yaitu , maka reliabilitas tes tersebut adaal sempurna dengan koefisien reliabilitas =1. Artinya setiap skor tampak yang diperoleh subjek satu dengan yang lainnya memang perbedaan skor murni mereka, bukan perbedaan yang disebabkan oleh faktor-faktor lain sebagai sumber error dalam pengukuran itu. jadi semakin kecil koefisien reliabilitas, yaitu semakin jauh dari angka 1, berarti semakin besar error pengukuran yang terjadi. Interpretasi 4 : = 22 Koefisien reliabilitas dalam interpretasi ini merupakan kuadrat koefisien korelasi antara skor tampak dan skor murni. Interpretasi 5 : = 23 Koefisien reliabilitas adalah sama dengan satu dikurangi kuadrat koefisien korelasi antara skor tampak dengan error pengukuran. Semakin besar korelasi antara skor —tampak dengan error pengukuran, akan semakin kecil koefisien reliabilitasnya. Interpretasi 6 : = 1- 24 Universitas Sumatera Utara Interpretasi ini mengaitkan reliabilitas dengan varians error dan varians skor-tampak yang dihubungkan dengan homogenitas subjek. Koefisien reliabilitas pada kelompok homogen akan relative lebih rendah dibandingkan pada kelompok yang heterogen. Skor murni tidak dapat diperoleh secara langsung dan koefisien reliabilitas merupakan salah satu bentuk pendekatan yang dapat digunakan untuk mengestimasi nilai skor murni. Estimasi atau perkiraan terhadap skor murni kemungkinan besar akan selalu mengandung eror. Sehingga penafsiran terhadap koefisien reliabilitas harus dilakukan melalui penafsiran standard eror pengukuran, dengan rumusan sebagai berikut: = 25 Keterangan : : Standard error dari pengukuran Sx : standard deviasi skor : koefisien reliabilitas Semakin tinggi koefisien reliabilitas suatu tes, maka kemungkinan kesalahan yang terjadi semakin kecil. e. Faktor-faktor yang Mempengaruhi Reliabilitas Crocker Algina 2005 menjelaskan bahwa ada 3 hal utama yang secara tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu instrumen, yaitu: Universitas Sumatera Utara 1 Homogenitas Kelompok Secara umum dapat dijelaskan bahwa dalam suatu kondisi tes, semakin besar homogenitas kelompok berkaitan dengan trait-trait tertentu yang diukur maka indeks reliabilitas akan semakin rendah bila dibandingkan dengan kondisi ketika kelompok sampel lebih heterogen. 2 Batasan Waktu dalam Tes Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang lebih pendek, terutama pada tes dengan komposisi aitem yang sama. Hal ini dikarenakan performansi subjek pada tes yang lebih panjang waktunya akan lebih maksimal. Sementara pada tes yang memiliki waktu lebih pendek, performansi subjek akan sangat ditentukan oleh banyak faktor, termasuk kelelahan dan performansi subjek lain yang mengikuti tes tersebut. 3 Panjang Tes Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya aitem-aitem yang menyususn tes tersebut. Secara umum, semakin banyak aitem yang memiliki kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas instrumen tersebut. Universitas Sumatera Utara

5. Validitas

a. Pengertian Validitas Validitas berasal dari kata validity yang berarti sejauhmana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Suatu tes atau instrument pengukur dapat dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur, yang sesuai dengan maksud dilakukannya pengukuran tersebut Azwar, 2007 Sisi lain dari pengertian validitas menurut Azwar 2007 adalah aspek kecermatan pengukuran. Suatu alat ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi juga harus memberikan gambaran yang cermat mengenai data tersebut. Cermat berarti bahwa pengukuran itu dapat memberikan gambaran mengenai perbedaan yang sekecil-kecilnya di antara subjek yang satu dengan yang lain. Lebih lanjut, Azwar 2007 menambahkan bahwa pengertian validitas juga sangat erat kaitannya dengan tujuan pengukuran. Oleh karena itu, tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Dengan demikian, pernyataan valid terhadap suatu pengukuran harus diikuti oleh keterangan yang menunjuk kepada tujuan awal pengukuran serta kelompok subjek yang mana. Anastasi Urbina 2003 menyatakan bahwa validitas suatu tes itu menggambarkan apa yang hendak diukur oleh tes dan seberapa baik tes tersebut mengukurnya. Adapun fungsi validitas dalam pengukuran psikologis adalah: Universitas Sumatera Utara 1 Mengukur Psychological traits : hal yang ingin diteliti adalah apakah alat ukur sudah tepat mengukur konstruk yang ingin diukur. 2 Menunjukkan hubungan statistical dengan variabel tertentu : hal yang ingin diiteliti disini adalah fungsi alat ukur dalm memprediksi dan mendiagnosa perilaku. 3 Representasi materi : hal ynag ingin ditelliti disini adalah apakah alat ukur sudah memuat materi-materi yang telah diberikan. b. Jenis-jenis Validitas Tipe validitas terbagi atas Validitas Isi content, Validitas Konstruk construct, Validitas Berdasar Kriteria criterion-related. Validitas Konstruk terbagi atas dua, yaitu validitas convergen dan validitas diskriminan, sedangkan Validitas Berdasar Kriteria terbagi menjadi dua, yaitu validitas konkuren dan validitas prediktif. 1. Validitas Isi Content related validation Validitas isi menunjukkan sejauh mana aitem-aitem dalam tes mencakup keseluruhan kawasan isi yang hendak diukur oleh tes tersebut. Dalam hal ini, tes tidak hanya komprehensif akan tetapi juga isinya harus relevan dan tidak keluar dari batasan tujuan pengukuran. Pengujian validitas isi tidak melalui analisis statistika tetapi menggunakan analisis rasional. Salah satu cara nya adalah dengan melihat apakah aitem-aitem dalam tes telah ditulis sesuai dengan blue-Print nya yaitu telah sesuai dengan batasan domain ukur yang telah ditetapkan semula dan memeriksa apakah Universitas Sumatera Utara masing-masing aitem telah sesuai dengan indicator perilaku yang hendak diungkap. 2. Validitas Konstrak Construct related validation Validitas konstrak adalah validitas yang menunjukkan sejauhmana suatu tes mengukur trait atau konstrak teoretik yang hendak diukurnya Azwar, 2007. Untuk pengujian validitas konstrak, diperlukan analisis statistika yang kompleks. Prosedur pengujian validitas konstrak berangkat dari hasil komputasi interkorelasi diantara berbagai hasil tes dan kemudian diikuti oleh analisis lebih lanjut terhadap matriks korelasi yang diperoleh, melalui berbagai metode. Menurut Anastasi Urbina 1997, terdapat beberapa metode untuk melakukan construct validity, diantaranya adalah develoPmental changes, Correlation with other test, Analisa factor, Iinternal Consistency, Convergent Discriminant Validation, dan Experimental Intervention. Dalam penelitian ini metode yang digunakan untuk mengukur valliditas konstruk adalah Convergent Discriminant Validation Berhubungan dengan Convergent Discriminant Validation, Campbell dan Fiske dalam Azwar 2007 telah mengembangkan pendekatan terhadap validitas konstrak yang mereka namakan pendekatan multitrait-multimethod. Pendekatan ini dapat digunakan bilamana terdapat dua trait atau lebih yang diukur oleh dua macam metode atau lebih. Dasar pemikiran dalam validitas konstrak adalah bahwa ada validitas yang baik diperlihatkan oleh korelasi yang tinggi antara dua pengukuran terhadap terhadap dua trait yang sama oleh dua metode yang berbeda, atau korelasi yang rendah antara dua pengukuran terhadap trait yang berbeda walaupun menggunakan metode yang serupa. Universitas Sumatera Utara Pada intinya ada dua fokus pengujian validitas konstrak, yaitu: a Apakah data yang dikumpulkan dari alat ukur yang disusun telah mendukung konstruksi teorinya. b Apakah bukti-bukti empiris yang dikumpulkan dari berbagai pengujian relasi telah mendukung hipotesis dalam bagan teorinya. Dalam hal ini, ada dua jenis validitas konstrak, yaitu validitas konvergen convergent validity dan validitas diskriminan discriminant validity. Validitas konvergen harus ditunjukkan oleh tingginya korelasi antara skor skala-skala yang mengukur trait yang sama sedangkan validitas diskriminan harus diperlihatkan oleh rendahnya korelasi antara skor skala-skala yang mengukur trait yang berbeda. 3. Validitas Berdasar Kriteria Criterion related validation Validitas berdasar kriteria merupakan validitas yang diperlihatkan oleh adanya hubungan skor pada tes yang bersangkutan dengan skor suatu criteria. Dalam validasi tes berdasar criteria, umumnya tes yang akan diuji validitasnya disebut sebagai prediktor. Statistik yang diperlukan dalam pengujian validitas ini adalah koefisien korelasi antara skor tes sebagai predictor dan skor suatu criteria yang relevan. a Validitas Prediktif Validitas prediktif dapat dilihat dari hasil analisis korelasional antara skor tes dengan skor performansi yang hendak diprediksikan pada masa yang akan datang. Skor performansi sebagai criteria validasi baru bisa diperoleh setelah tenggang waktu tertentu. Universitas Sumatera Utara b Validitas Konkuren Validitas konkuren merupakan validitas yang melihat sejauhmana kesesuaian antara hasil ukur instrument tersebut dengan hasil ukur instrumen lain yang sudah teruji kualitasnya atau dengan ukuran-ukuran yang dianggap dapat menggambarkan aspek yang diukur tersebut secara reliable. Dalam hal ini, instrumen yang sudah teruji validitasnya atau ukuran yang dianggap tepat itu berlaku sebagai criteria validasi.

6. Hubungan Karakteristik Psikometri

Sebelumnya secara terpisah sudah dijelaskan mengenai karakteristik- karakteristik ketika menganalisis aitem, diantaranya indeks kesulitan aitem, indeks diskriminasi aitem serta efektivitas distraktor, dimana menurut Murphy Davidshofer, 2003 ketiga karakteristik ini merupakan hal yang penting dari sebuah analisis aitem. Ketiga karakteristik ini saling terkait satu sama lain dalam menentukan kualitas aitem dari suatu alat tes. Keterkaitan antara indeks kesulitan aitem, indeks diskriminasi aitem serta efektivitas distraktor bisa dilihat dari keterkaitan antara efektiviras distraktor dengan kesulitan aitem, kesulitan aitem dengan diskriminasi dan distraktor dengan diskriminasi. Indeks kesulitan aitem sangat dipengaruhi oleh efektivitas distraktor, jika semua distraktor tidak berfungsi maka subjek akan dengan mudah untuk memilih jawaban yang benar tanpa harus memiliki pengetahuan tentang hal yang Universitas Sumatera Utara ditanyakan tentu hal ini mempengaruhi tingkat kesulitan aitem, sehingga tingkat kesulitan aitem menjadi rendah. Indeks kesulitan aitem secara langsung mempengaruhi indeks diskriminasi aitem. Aitem yang sangat susah p = 0 dan aitem yang sangat gampang p = 1 tidak dapat membedakan antara subjek yang memiliki pengetahuan dan subjek yang tidak memiliki pengetahun sehingga indeks diskriminai bernilai rendah. Aitem yang memiliki efektivitas distraktor yang buruk tentu memiliki indeks diskriminasi yang buruk juga. Hal ini disebabkan karena distraktor yang buruk akan membuat subjek dengan gampang menjawab pertanyaan atau sebaliknya membuat subjek susah untuk menjawab pertanyaan sehingga berpengaruh juga terhadap diskriminasi aitem karena tidak dapat membedakan subjek yang memiliki pengetahuan baik dengan subjek yang tidak memiliki pengetahuan baik. Demikian juga halnya dengan indeks reliabilitas yang berhubungan langsung dengan nilai validitas. Validitas dan reliabilitas berjalan berdampingan dalam menentukan kualitas alat tes, dimana suatu alat tes harus konsisten, cermat dalam mengukur apa yang hendak diukur, sehingga alat tes tersebit bisa dipercaya.

C. Intelligenz Structure Test IST