Bab 1 Hakikat dan Kegunaan Tes Psikolog

Bab 1 - Hakikat dan Kegunaan Tes Psikologi
Tes-tes pskilogi merupakan alat. Untuk mendapatkan manfaat yang dapat diberikan oleh
tes, seseorang perlu terus menerus mengingat hal ini. Para pengguna tes perlu mengetahui cara
mengevaluasi tes-tes.


Penggunaan dan Ragam Tes Psikologi
Secara tradisional, fungsi tes-tes psikologi adalah untuk mengukur perbedaan
perbedaan antara individu atau perbedaan reaksi individu yang sama terhadap berbagai situasi
yang berbeda. Salah satu masalah awal yang mendorong pertumbuhan tes-tes psikologi adalah
identifikasi orang-orang yang terbelakang mental.
Seleksi dan klasifikasi sumber daya manusia untuk bidang industry merupakan
penerapan tes psikologis utama yang lain. Penerapan tes psikologis yang nyata dapat ditemukan
dalam seleksi klasifikasi personel militer.
Penggunaan tes-tes dalam konseling individu secara bertahap meluas dari
bimbingan yang berlingkup sempit menyangkut rencana pendidikan dan pekerjaan sampai
terlibatnya semua aspek kehidupan seseorang. Ketentraman emosi dan hubungan-hubungan
intrapersonal yang efektif kian lama kian menjadi sasaran utama konseling.
Aneka ragam tes yang dirancang untuk berbagai maksud ini, berbeda juga dalam
sifat-sifat utamanya. Tes-tes ini berbeda dalam hal cara pelaksanaannya, seperti dalam tes
perorangan atas setiap orang oleh seorang penguji terlatih, tes kelompok-kelompok besar

secara bersama-sama, atau penyelenggara tes oleh komputer.


Apa Tes Psikologis Itu?
Tes psikologis pada dasarnya adalah alat ukur yang objektif dan dibakukan atas
sampel perilaku tertentu. Dalam hal ini, psikologi bekerja dengan cara yang sama seperti ahli
biokimia yang melakukan tes darah pasien atau suplai air masyarakat dengan menganalisis satu
sampel atau lebih dari satu.
Standarisasi. Perlu diingat bahwa dalam definisi awal, tes psikologis digambarkan
sebagai alat ukur yang dibakukan. Dalam memberika instruksi, atau menyajikan masalahmasalah secara lisan, demontrasi awal, cara-cara menjawab menjawab pertanyaan dari peserta
tes, dan setiap rincian lain atas situasi tes.
Langkah penting lainnya dalam standarisasi tes adalah penetapan norma-norma.
Dalam proses menstandarisasikan tes, tes diselenggarakan pada sampel yang luas dan
representative atas jenis orang yang memang menjadi sasaran perancangan tes tersebut.
Norma-norma untuk tes kepribadian pada dasarnya ditetapkan dengan cara yang sama dengan
norma-norma pada tes kepribadian.
Pengukur Kesulitan yang Objektif. Penyelenggaraan, penilaian, dan interpretasi
skor adalah objektif sejauh skor-skor tak tergantung pada penilaian subjektif penguji tertentu.
Keandalan. Sebaik apakah tes ini? Apakah tes ini benar-benar efektif? Satu
satunya cara untuk menjawab pertanyaan-pertanyaan ini secara konklusif adalah lewat

pengujian empiris. Evaluasi objektif atas tes-tes psikologis, terutama mencakup keandalan dan
validitas tes dalam situasi-situasi khusus.

Validitas. Validitas memberikan pemeriksaan langsung pada sejauh mana tes
tertentu memenuhi fungsinya. Penentuan validitas biasanya memerlukan kriteria independen
dan eksternal tentang apapun yang menjadi sasaran pengukuran tes tersebut. Dengan
mempelajari data validasi, kita bisa secara objektif menetukan apa yang diukur oleh tes itu.


Mengapa Penggunaan Tes-tes Psikologi Perlu Dikendalikan?
Penguji yang Memenuhi Syarat. Penguji yang memenuhi syarat, jelas diperlukan
dalam setiap aspek utama situasi tes: seleksi tes, administrasi dan penskoran, dan interpretasi
skor. Agar tes bisa berfungsi, diperlukan evaluasi atas segi-segi teknis berdasar karakteristikkarakteristik semacam validitas, keandalan, tingkat kesulitan, dan norma.
Peran Pengguna Tes. Pengguna tes adalah siapa pun yang menggunakan skor tes
sebagai salah satu sumber informasi dalam usahanya mencapai keputusan-keputusan praktis.
Pengguna mungkin adalah penguji atau bukan penguji yang menyelenggarakan dan menskor
tes.
Pengamanan Isi Tes dan Pengkomunikasian Informasi Tes. Isi tes dengan jelas
harus dibatasi dalam rangka mecegah usaha-usaha yang disengaja untuk memalsukan skor-skor.
Memastikan amannya isi tes tertentu tidak perlu dan tidak harus mencapuri pengkomunikasian

secara efektif informasi tes itu kepada pengguna tes, professional yang berkepentingan dan
public umum.


Penyelenggaraan Tes
Persiapan Sebelumnya bagi Para Penguji. Persiapan materi tes adalah langkah
awal, kemudian syarat lain yang harus dipenuhi adalah kekraban dengan prosedur tes tertentu,
baik pada tes perorangan maupun kelompok. Untuk tes perorangan, pelatihan yang diawasi
dalam penyelenggaraan tes tertentu amatlah penting.
Kondisi-kondisi Tes. Prosedur yang distandarisasi berlaku tak hanya pada
intruksi-intruksi verbal, penentuan waktu, bahan-bahan, dan aspek-aspek tes lainnya, tetapi
juga pada lingkungan tes.
Memperkenalkan Tes: Pemahaman dan Orientasi Peserta Tes. Dalam
penyelenggaraan tes, “rapor” mengacu pada upaya-upaya penguji membangkitkan minat
peserta tes pada tes itu, meningkatkan kerja sama mereka, dan mendorong mereka
memberikan respon secara tepat pada sasaran-sasaran tes.


Penguji dan Variabel-Variabel Situasi
Meskipun sejumlah dampak tertentu telah dibuktikan melalui entah teknik

teknik projektif entah tes-tes kecerdasan perorangan. Faktor-faktor luar ini cenderung terjadi
pada stimuli yang tak terstruktur dan bersifat ambigu, dan juga pada tugas-tugas yang baru dan
berbeda, dibandingkan pada fungsi-fungsi yang didefinisikan secara jelas dan dipelajari dengan
baik.



Pandangan Dari Sudut Peserta Tes
Kecemasan Tes. Diantara telaah paling dini tentang reaksi-reaksi peserta tes
terhadap situasi tes adalah telaah yang berhubungan dengan kecemasan tes. Dalam
penyelenggaraan tes, banyak praktik yang dirancang untuk meningkatkan rapor berfungsi juga
mengurangi kecemasan tes.
Sedikit kecemasan memberikan dampak yang baik, sementara kecemasan yang
tinggi bersifat membahayakan. Individu-individu yang terbiasa dengan kecemasan rendah bisa
mendapatkan manfaat dari kondisi-kondisi tes yang membangkitkan kecemasan, sementara
mereka yang terbiasa dengan kecemasan tinggi menunjukan kinerja lebih baik dalam kondisikondisi lebih santai.
Penelitian Komprehensif atas Pandangan Peserta Tes. Sejumlah penulis
membahas reaksi para pelamar kerja terhadap kejujuran dan tes-tes yang terkait dengan
pekerjaan. Beberapa mengemukakan bab cara-cara untuk memerbaiki penyelenggaraan tes dan
lingkungan tes, sebagai hasil temuan mereka.



Dampak Pelatihan Pada Kinerja Tes
Bimbingan. Sebagaimana bisa diharapkan, cakupan perbaikan tergantung pada
bakat dan pengalaman pendidikan awal peserta tes, sifat tes, dan jumlah serta jenis bimbingan
yang disediakan. Bimbingan dalam pengertian yang sempit dn tradisional, dirancang untuk
mengembangkan keterampilan yang amat terbatas yang mungkin sedikit saja berguna dalam
aktivitas-aktivitas kehidupan.
KerumitanTes. Dampak dari kerumitan tes, atau praktik mengikuti tes sematamata juga relevan dalam kaitan ini. Dalam telaah terhadap formulir yang berbeda bagi tes yang
sama, ada tendensi bahwa skor kedua akan menjadi lebih tinggi. Perolehan rata-rata yang
signifikan telah dilaporkan ketika formulir-formulir yang berbeda diadakan secara berturut turut
atau setelah interval yang berkisar dari satu hari sampai tiga tahun.
Pengajaran Keterampilan Kognitif Luas. Sejumlah peniliti telah meneliti
pendekatan yang berlawan dengan perbaikan kinerja tes. Sasaran mereka adalah
perkembangan keterampilan intelektual, kebiasaan-kebiasaan kerja, dan strategi-strategi
pemecahan masalah yang dapat diterapkan secara luas.
Rangkuman. Kita telah membahas tiga jenis pelatihan pretest yang cukup
berbeda sasaran-sasarannya. Bagaimana pengaruh jenis-jenis tes ini pada validitas tes tertentu
dan bagaimana kegunaan praktisnya sebagai instrument penilaian? Yang pertama adalah
bimbingan, dalam pengertian menghapal secara intensif dan massif hal-hal yang mirip dengan

yang ada dalam tes.


Sumber-Sumber Informasi Tentang Tes
Salah satu sumber penting adalah Mental Measurements Yearbook (MMY) yang
didirikan oleh Oscar K. Buros dan disuntingnya pada tahun 1978. Seri buku tahunan ini
mencakup hampir semua tes psikologis, pendidikan, dan kejuruan yang tersedia secara
komersial yang diterbitkan dalam bahasa inggris.
Sumber utama informasi lainnya tentang tes-tes yang diterbitkan adalah Test
Collection Bibliographies yang dipersiapkan oleh Education Test Service yaitu informasi dewasa
tentang tes dan pelaksanaan tes.

Bab 2 – Riwayat Pendahulu Tes Pendahulu
Tinjauan singkat atas para pendahulu sejarah dan asal-mula tes psikologis akan
memberikan wawasan dan bantuan dalam memahami tes-tes dewasa ini. Arah perkembangan
tes psikologi dewasa ini bisa kelihatan lebih jelas bila dipahami dari sudut pandang para
pendahulunya.


Minat Awal Pada Pengklasifikasian dan Pelatihan Orang-orang yang Terbelakang

Mental
Abad ke-19 merupakan masa kebangkitan minat pada pengobatan yang lebih
manusiawi terhadap orang-orang gila dan mereka yang terbelakang mental. Dalam usaha
mengembangkan system untuk mengklasifikasikan tingkat dan jenis keterbelakangan yang
berbeda-beda, Esquirol mencoba berbagai prosedur dan menyimpulkan bahwa penggunaan
bahasa seseorang merupakan kriteria yang paling dapat diandalkan tentang tingkat
intelektualnya.


Psikolog-psikolog Ekperimental Pertama
Psikolog-psikolog eksperimental awal dari abad ke-19 pada umumnya tidak
peduli dengan pengukuran perbedaan-perbedaan individu. Tujuan utama para psikolog pada
masa itu adalah perumusan deskripsi umum tentang perilaku manusia. Fokus perhatian mereka
adalah keseragaman, bukannya perbedaan-perbedaan perilaku.


Sumbangan Francis Galton
Pakar biologi Inggris, Francis Galton, adalah orang yang bertanggung jawab atas
peluncuran gerakan tes. Faktor pemersatu dalam berbagai aktivitas penelitian Galton adalah
minatnya terhadap terhadap hereditas manusia. Galton membantu mendorong sejumlah

lembaga pendidikan menyelenggarakan pencatatan anthropometris pada Internasional
Exposisition 1884 yang dengan membayar tiga penny, para pengunjung bisa diukur ciri-ciri fisik
tertentunya dan bisa menjalani tes ketazaman penglihatan dan pendengaran, kekuatan otot,
waktu reaksi, dan fungsi-fungsi motor indriawi sederhana lainnya.


Cattell dan “Tes-tes Mental” Awal
Karya Cattell mempertemukan ilmu psikologi eksperimental yang baru didirikan
dan gerakan tes yang baru. Artikel yang ditulis Cattel memaparkan rangkaian tes yang
diselenggarakan tiap tahun bagi para mahasiswa dalam upaya menentukan tingkat intelektual.
Dalam pilihan tes-tesnya, Cattell punya pandangan sama dengan Galton bahwa ukuran fungsifungsi intelektual bisa diperoleh melalui tes-tes pembedaan indriawi dan waktu reaksi. Tes-tes
Cattell lazim ditemukan dalam sejumlah rangkaian tes yang dikembangkan selama dasawarsa
terakhir abad ke-19. Rangkaian tes semacam itu diselenggarakan bagi anak-anak sekolah,
mahasiswa, dan berbagai orang dewasa.



Binet dan Munculnya Tes-tes Kecerdasan
Binet dan rekan-rekan sekerjanya mencurahkan waktu bertahun-tahun untuk
penelitian aktif dan sederhana tentang cara-cara pengukuran kecerdasan atau intelegensi.

Banyak pendekatan telah dicoba, bahkan mencakup pengukuran bentuk tengkorak, muka, dan
tangan, dan analisis atas tulisan. Akan tetapi, hasil-hasilnya menimbulkan keyakinan makin
besar bahwa pengukuran yang langsung, meskipun kasar, atas fungsi-fungsi intelektual yang
kompleks membawa harapan yang sangat besar. Lalu muncullah situasi tertentu yang
memungkinkan usaha-usaha Binet segera menunjukkan hasil-hasil praktis.


Tes Kelompok
Tes kelompok seperti skala Binet, awalnya dikembangkan untuk memenuhi
kebutuhan praktis. Sejumlah tes menuntut pengukuran waktu tanggapan individu. Karena alas
an ini dan alas an lainnya, tes-tes seperti ini tidak diadptasikan pada tes kelompok. Ciri khas lain
jenis tes Binet ini adalah bahwa tes ini membutuhkan penguji tes yang amat terlatih. Tes-tes
seperti ini pada dasarnya adalah instrument-instrumen klinis, yang sesuai untuk telaah
mendalam atas kasus-kasus individu.


Tes Bakat (Aptitude Testing)
Boleh dipastikan tes ini mencakup kemampuan-kemampuan yang amat penting
dalam budaya yang menjadi konteks rancangan tes. Namun, sudah disadari bahwa peruntukan
yang lebih tepat, dilihat dari segi jenis informasi yang hendak didapat dari tes-tes ini.

Para pengguna tes, dan terutama orang-orang klinik sering memanfaatkan
perbedaan-perbedaan semacam itu dalam rangka memeroleh lebih banyak wawasan atas
susunan psikologis individu. Jadi, tak hanya IQ atau skor global melainkan juga kinerja pada
kelompok soal atau subtes tertentu yang akan diperiksa dalam mengevaluasi masing-masing
kasus. Akibatnya, perbedaan yang diperoleh antara skor-skor subtes mungkin terbalik jika
individu dites-ulang pada hari yang berbeda atau dengan tes yang sama tapi dalam bentuk lain.


Tes-tes Prestasi (Achiement Test) Yang Dibakukan
Setelah peralihan abad ini, tes standar pertama untuk mengukur hasil
pengajaran sekolah mulai muncul. Dipelopori oleh karya E.L. Thorndike, tes-tes ini memakai
prinsip-prinsip pengukuran yang dikembangan dalam laboratorium psikologis.
Tes-tes prestasi digunakan tidak hanya untuk maksud pendidikan, tetapi juga
untuk menyeleksi para pelamar pekerjaan industry dan pemerintahan. Peningkatan upaya untuk
mempersiapkan tes-tes prestasi yang akan mengukur pencapaian sasaran pendidikan yang luas,
sebagai lawan dari penghapalan rincian-rincian factual, juga membuat isi tes prestasi lebih
menyerupai tes inteligensi.


Penilaian Kepribadian

Perintis awal tes kepribadian diilustrasikan oleh penggunaan Kraepelin atas tes
asosiasi bebas terhadap pasien-pasien psikiatris. Dalam tes ini, peserta ujian diberi kata-kata
stimulus yang dipilih secara khusus dan mereka diminta memberikan tanggapan atas setiap kata
itu dengan kata pertama yang muncul dalam benak mereka.

Bab 3 – Norma dan Arti Skor Tes


Konsep-konsep Statistik
Langkah pertama dalam menata kekacauan data kasar adalah mentabulasikan
skor-skor ke dalam distribusi frekuensi. Distribusi semacam ini dipersiapkan dengan
mengelompokan skor-skor ke dalam interval kelas yang lebih mudah digunakan dan
menjuruskan (tallying) setiap skor itu ke dalam interval yang cocok. Ketika semua skor telah
dimasukkan, turus (tallies) dihitung untuk mendapatkan frekuensi atau atau jumlah kasus dalam
setiap interval kelas. Jumlah frekuensi akan sama dengan N, jumlah total kasus-kasus dalam
kelompok.


Norma-norma Perkembangan
Salah satu cara untuk mengartikan skor-skor tes adalah dengan menunjukan
sejauh mana individu telat maju sepanjang jalur perkembangan yang normal.
Usia Mental. Istilah “usia mental” dikenal luas lewat penerjemahan dan adaptasi
skala-skala Binet-Simon, meskipun Binet sendiri telah menggunakan istilah lebih netral,
“tingkatan mental”. Normal-normal usia mental juga digunakan pada tes-tes yang tidak dibagibagi ke sejumlah level tahun. Dalam kasus seperti ini, pertama-tama ditentukan skor mentah si
anak. Perlu dicatat bahwa unit usia mental tidak tinggal tetap bersama umur, melainkan
cenderung mengerut ketika semakin banyaknya tahun.
Ekuivalen-ekuivalen Kelas (Grade Equivalents). Skor-skor pada tes prestasi
pendidikan kerap diinterpretasikan berdasar ekuivalen-ekuivalen kelas. Praktek ini bisa
dimengerti karena te-tes ini digunakan dalam lingkungan sekolah. Meskipun popular, normanorma kelas memiliki berbagai kekurangan. Pertama, isi instruksi agak berbeda dari kelas ke
kelas. Karenanya, norma-norma kelas hanya sesuai untuk subjek-subjek umum yang diajarkan
sepanjang tingkat-tingkat kelas yang dicakup oleh tes itu.


Norma-Norma dalam Kelompok
Persentil. Skor-skor persentil diungkapkan berdasarkan persentase orang dalam
sampel terstandardisasi yang berada di bawah skor mentah tertentu. Persentil menunjukkan
posisi relative individu dalam sampel terstandardisasi. Persentil juga dapat dianggap sebagai
peringkat dalam kelompok berisi 100, dengan catatan bahwa dalam penentuan peringkat
biasanya orang mulai menghitung dari atas, orang terbaik dalam kelompok itu mendapat
peringkat satu.
Skor-skor Standar. Skor skor standar mengungkapkan jarak individu dari rata-rata
berdasarkan simpangan baku distribusi. Skor-skor standar bisa diperoleh dengan tranformasi
linear atau nonlinear atas skor-skor mentah yang orisinil.
IQ Simpangan. Dalam upaya untuk mengonversikan skor-skor MA ke dalam
indeks seragam tentang status relative individu, IQ dimasukkan ke dalam tes-tes intelegensi
awal. IQ 100 dengan begitu menggambarkan kinerja normal atau rata-rata. IQ di bawah 100
menunjukkan “keterbelakangan”; (retardation), sedangkan di atas 100 menunjukkan
“akselerasi”.

Antar-hubungan Skor-skor dalam Kelompok. Pada tahap ini dalam pembicaraan
kita tentang skor-skor yang dihasilkan, pembaca bisa menjadi sadar akan persesuaian di antara
berbagai tipe skor. Bentuk yang pasti untuk laporan skor amat ditentukan oleh kenyamanan,
keakraban, dan kemudahan mengembangkan norma-norma.


Relativitas Norma-Norma
Perbandingan Antartes. IQ, atau skor lain apa pun, seharusnya selalu disertai
dengan nama tes yang dengannya skor itu akan diperoleh. Skor-skor tes tak dapat
diinterpretasikan setepatnya setepatnya secara abstrak; melainkan harus dirujuk pada tes-tes
tertentu. Ada tiga alasan utama untuk menerangkan variasi sistematik di antara skor-skor yang
didapatkan oleh individu yang sama pada tes-tes yang berbeda.
Pertama, tes-tes bisa berbeda dalam isi meskipun labelnya sama. Kedua, unitunit skala mungkin bisa tidak dapat dibandingkan. Ketiga, komposisi sampel-sampel standarisasi
yang digunakan dalam memantapkan norma-norma untuk berbagai tes bisa berbeda-beda.
Sampel Normatif. Bagaimanapun juga, norma apapun dibatasi pada populasi
normative tertentu dari mana norma itu diturunkan. Pengguna tes seharusnya tidak pernah
boleh luput dari memahami cara norma itu ditetapkan. Dalam memilih sampel semacam itu,
biasanya dilakukan sesuatu untuk mendapat sampel yang representative dari populasi yang
untuknya tes itu dirancang.
Norma-norma Spesifik. Pendekatan lain pada nonekuivalensi norma-norma yang
ada dan kemungkinan besar merupakan pendekatan yang lebih realistis bagi banyak tes adalah
membakukan tes-tes pada populasi yang didefinisikan secara lebih sempit, yang dipilih
sedemikian rupa agar cocok dengan maksud-maksud khusus dari setiap tes. Dengan demikian,
norma-norma bisa dianggap berlaku bagi “para pekerja kantoran yang bekerja dalam organisasiorganisasi bisnis yang besar” atau bagi “mahasiswa-mahasiswa teknik tahun pertama”.
Kelompok Rujukan Tetap. Satu jenis skala nonnormatif memanfaatkan kelompok
rujukan tetap dalam rangka menjamin komparabilitas dan kontinuitasskor, tanpa memberikan
evaluasi normatif atas kinerja. Dengan skala seperti ini, interpretasi normatif menurut rujukan
pada norma-norma yang dikumpulkan sendiri-sendiri dari populasi yang sesuai.
Item Response Theory. Ukuran dasar yang digunakan oleh pendekatanpendekatan ini adalah probabilitas bahwa orang yang memiliki kemampuan khusus (yang
disebut ciri laten) berhasil pada suatu butir soal (item) dengan kesulitan tertentu. Akatn tetapi,
taka da implikasi bahwa ciri-ciri laten seperta itu atau kemampuan yang mendasari ada dalam
arti fisik atau fisiologis, atau ciri-ciri itu menyebabkan perilaku. Ciri-ciri laten adalah konstruktur
statistic yang diturunkan secara matematis dari hubungan-hubungan yang diamati secara
empiris di antara respons-respons tes. Perkiraan kasar dan awal atas ciri laten peserta ujian
adalah skor total yang ia dapatkan pada tes.


Komputer dan Interpretasi Skor-skor Tes
Perkembangan Tenis. Manfaat yang jelas computer dan yang dikembangkan
lebih awal menggambarkan peningkatan yang benar-benar tak bisa diramalkan dalam hal
kecepat yang dengannya proses analisis data dan skoring dijalankan.
Pada dasarnya, komputer memadukan semua informasi yang tersedia tentang

individu dengan data tersimpan tentang program pendidikan dan pekerjaan dan menggunakan
semua fakta dan hubungan yang relevan dalam menjawab pertanyaan individu dan
membantunya dalam mencapai keputusan.
Bahaya dan Garis-garis Pedoman. Aplikasi computer tentu bisa saja mengarah
pada penyalahgunaan dan interpretasi yang salah atas skor-skor tes. Dalam upaya mencegah
bahaya-bahaya ini, perhatian perlu diberikan pada pengembangan garis-garis pedoman untuk
pengetesan yang berbasis komputer.
Dua dari keprihatinan utama tentang pengetesan terkomputerisasikan
berhubungan dengan komparabilitas skor dan skoring interpretif naratif. Amatlah penting untuk
memeriksa komparabilitas skor untuk berbagai individu atau kelompok yang pengalamannya
dengan penggunaan komputer dan terutama dengan pengetasan terkomputerisasi, bisa amat
berbeda.


Interpretasi Tes Berujukan Domain
Hakikat dan Penggunaannya. Berbagai istilah alternative umum digunakan,
seperti berujukan isi, domain, dan sasaran. Istilah-istilah ini kadang kala digunakaansebgai
sinonim untuk pengetesan berujukan kriteria dan kadang kala dengan konotasi yang agak
berbeda. Secara bertahap, istilah-istilah yang lebih deskriptif telah menggantikan penamaan
“berujukan-kriteria” yang muncul lebih dahulu. Dalam buku ini, istilah “berujukan-domain” yang
digunakan untuk maksud ini.
Sejauh ini, aplikasi utama pengetesan berujukan-domain terjadi pada berbagai
inovasi dalam bidang pendidikan. Yang menonjol di antara aplikasi ini adalah sistem pengajaran
yang didukung komputer, dikelola komputer, dan sistem-sistem pengajaraan yang lebih bersifat
perorangan dan dikerjakan sendiri.
Arti Isi. Ciri utama yang khas dari pengetesan berujukan domain adalah
interpretasinya atas kinerja tes dari segi arti isi. Fokusnya jelas pada apa yang dapat dilakukan
seorang peserta dan apa yang mereka ketahui, bukan bagaimana mereka dibandingkan dengan
orang lain.
Pengetesan Penguasaan (Mastery Testing). Pada dasarnya, prosedur ini
menghasilkan skor semua-atau-kosong (all-or-none) mengindikasi bahwa individu telah
mencapai atau tidak mencapai tingkat penguasaan yang telah ditetapkan sebelumnya.
Hubungan dengan Pengetesan Berujukan-Norma. Perlu dicatat bahwa
pengetesan berujukan-domain bukan hal baru dan juga tidak terpisah sama sekali dari
pengetesan berujukan norma, seperti diklaim secara implisit oleh sejumlah pendukungnya.


Kualifikasi Minimum dan Skor Potong
Kebutuhan-kebutuhan Praktis dan Kesulitan Tersembunyi. Kualifikasi minimum
harus dispesifikasikan dan diimplementasikan untuk berbagai maksud dalam hidup sehari-hari.
Dalam banyak situasi, pertimbangan keamanan menuntut ditetapkannya skor potong dalam
kinerja, sebagaimana dalam pemberian surat izin mengemudi, penyeleksian pilot pesawat
terbang, atau penerimaan karyawan untuk bekerja pada reactor nuklir.
Tabel Harapan. Sebuah table harapan memberi probabilitas hasil kriteria yang
berbeda bagi orang-orang yang memeroleh tiap skor tes.

Bab 4 – Reliabilitas
Reabilitas merujuk pada konsistensi skor yang dicapai oleh orang yang sama
ketika mereka diuji ulang dengan tes yang sama pada kesempatan berbeda, atau dengan
seperangkat butir-butir ekuivalen yang berbeda, atau dalam kondisi pengujian yang berbeda.


Koefisien Korelasi
Arti Korelasi. Pada dasarnya, koefisien korelasi menyatakan derajat kesesuaian
atau hubungan, antara dua perangkat skor. Korelasi nol menunjukan tidak adanya hubungan
sama sekali, sebagaimana bisa terjadi karena peluang.
Signifikansi Statistik. Ada prosedur statistic untuk memperkirakan fluktuasi yang
mungkin untuk bisa diharapkan dari sampel ke sampel dalam ukuran dari korelasi, rata-rata,
simpangan baku, dan ukuran-ukuran kelompok lain mana pun. Selama bertahun-tahun,tingkat
signifikansi merupakan cara tradisional untuk mengevaluasi korelasi.
Koefisien Reliabilitas. Koefisien korelasi telah digunakan dalam analisis data
psikometrik. Pengukuran reliabilitas tes mewakili satu aplikasi koefisien-koefisien.


Jenis-jenis Reliabilitas
Reliabilitas Tes-Retes. Metode paling jelas untuk menemukan reliabilitas skor
tes ialah dengan mengulang tes yang sama pada kesempatan kedua. Ketika reliabilitas tes-ulang
dilaporkan dalam manual tes, interval yang digunakan untuk mengukur reliabilitas itu
seharusnya selalu spesifikasikan. Meskipun tampak sederhana dan blak-blakan, teknik tes dan
tes-ulang menampilkan berbagai kesulitan ketika diterapkan pada kebanyakan tes psikologis.
Reliabilitas Bentuk-Alternatif. Meskipun dapan diaplikasikan jauh lebih luas
daripada reliabilitas te-retes, reliabilitas bentuk-alternatif juga memiliki keterbatasan tertentu.
Pertama, jika fungsi-fungsi perilaku yang sedang diperhatikan tunduk pada efek praktik yang
besar, penggunaan bentuk-bentuk alternative akan mengurangi namun tidak menghilangkan
efek seperti itu.
Reliabilitas Belah-Separuh (Split-Half Reliability). Dengan cara ini, dua skor
didapatkan untuk setiap orang dengan membagi tes menjadi paruhan-paruhan yang
ekuivalen.tampak bahwa reliabilitas belah-separuh merupakan ukuran yang konsisten dalam
kaitan dengan sampling isi.
Reliabilitas Kuder-Richardson dan Koefisien Alpha. Konsistensi antarsoal ini
dipengaruhi oleh dua sumber varian kesalahan: (1) pencuplikan isi (sebagaimana dalam bentukalternatif dan reliabilitas belah-separuh); (2) heterogenitas dari domain perilaku yang
disampelkan.
Reliabilitas Pemberi Skor. Reliabilitas pemberi skor dapat ditemukan dengan
memiliki sampel lembaran tes yang di skor secara terpisah oleh dua penguji. Dengan demikian,
dua skor yang didapatkan oleh masing-masing peserta tes ini kemudian dikorelasikan dengan
cara biasa, dan koefisien korelasi yang dihasilkannya adalah ukuran reliabilitas pemberi skor.

Tinjauan. Pemilah –milahan sumber varian adalah esensi dari yang dikenal
sebagai teori generalisabilitas tentang reliabilitas. Desain-desain eksperimental kompleks yang
yang memungkinkan perkiraan simultan atas banyak sumber varian kesalahan dan interaksi di
antara varian-varian kesalahan itu, dapat ditemukan pada karya yang lebih rinci tentang topic
tersebut.


Reliabilitas Tes Yang Dipercepat
Tes kecepatan yang murni adalah tes yang perbedaan individu tergantung
sepenuhnya pada kecepatan kinerja. Perlu dicatat bahwa baik tes kecepatan maupun kekuatan
dirancang untuk mencegah pencapaian skor-skor sempurna. Kapan dan pada kondisi apa tes
benar-benar dipercepat? Yang jelas, penerapan batas waktu saja tidak menjadi tanda sebuah
tes kecepatan. Jika semua peserta tes selesai dalam batas waktu yang diberikan, kecepatan
kerja tidak memainkan peranan dalam menentukan skor. Presentase orang yang gagal
menyelesaikan tes bisa dianggap sebagai indeks kasar kecepatan versus kemampuan.


Ketergantungan Koefisien-koefisien Reliabilitas Pada Sampel Yang DIuji
Variabilitas.seperti semua koefisien korelasi, koefisien reliabilitas tergantung
pada variabilitas sampel dimana koefisien itu ditemukan. Jadi, jika koefisien reliabilitas yang
dilaporkan dalam pegangan tes dikalkulasikan untuk sebuah kelompok yang merentang dari
anak kelas empat sampai pelajar sekolah menengah atas, tak dapat diasumsikan bahwa
reliabilitas akan sama tingginya di dalam, katakanlah, sampel kelas delapan.
Tingkat Kemampuan. Kooefisien reliabilitas tidak hanya bervariasi pada rentang
perbedaan individu dalam sampel, tetapi juga bervariasi antara kelompok-kelompok yang
berbeda dalam tingkat kempuan rata-rata. Lagi pula, perbedaan-perbedaan ini biasanya tidak
dapat diprediksi atau diestimasi dengan rumus statistic apa pun, tetapi dapat ditemukan hanya
dengan uji coba empris tes itu pada kelompok yang berbeda dalam tingkat usia atau
kemampuan.


Kesalahan Standar Pengukuran
Interpretasi Skor-skor Individu. Reliabilitas sebuah tes bisa diungkapkan dalam
istilah kesalahan standar pengukuran yang juga disebut kesalahan standar sebuah skor.
Kesalahan standar pengukuran dan koefisien reliabilitas jelas merupakan cara-cara alternative
untuk mengungkapkan reliabilitas tes.
Interpretasi Perbedaan Skor. Berfikir dalam lingkup kisaran dimana tiap skor bisa
berfluktuasi, berfungsi sebagai alatperiksa terhadap penekanan berlebihan pada perbedaanperbedaan kecil antara skor-skor. Sikap hati-hati seperti ini perlu ada, baik bila membandingkan
skor tes dari orang yang berbeda maupun ketika membandingkan skor individu yang sama
dalam kemampuan yang berbeda.


Reliabilitas Diterapkan Pada Tes Penguasaan dan Skor Potong
Implikasi statistic utama dari pengetesan penguasaan adalah reduksi dalam
variabilitas skor-skor dikalangan orang-orang. Secara teoritis, jika setiap orang meneruskan
pelatihan sampai keterampilan itu dikuasai, variabilitas direduksi sampai nol.

Bab 5 – Validitas: Konsep-konsep Dasar
Validitas tes menyangkut apa yang diukur tes dan seberapa baik tes itu bisa
mengukur. Validitas tes memberi tahu kita tentang apa yang bisa kitasimpulkan dari skor-skor
tes.
 Konsep-konsep Validitas Tes Yang Berkembang
Fungsi tes pada awalnya antara lain dalam mengukur apa yang telah dipelajari
individu dalam area tertentu. Jenis tes yang umumnya disebut tes prestasi ini, lazimnya
dievaluasi dengan membandingkan isi dengan domain isi yang memang dirancang untuk dinilai.
Begitu tes memasuki tahap kedua, penekanannya bergeser pada prediksi. Prosedur ini terutama
tepat untuk penggunaan tes dalam seleksi atau penempatan individu pada program-program
pendidikan, jabatan, atau program tertentu lainnya. Tahap sekarang dalam sejarah tes
mencerminkan dua kecendrungan utama : (1) orientasi teoritis yang makin kuat dan (2)
hubungan yang erat antara teori psikologis dan verifikasi melalui tes hipotesis secara empiris
dan eksperimental.


Prosedur Deskripsi- Isi
Hakikat. Prosedur validasi deskripsi-isi pada dasarnya melibatkan pengujian
sistematik atau isi tes untuk menentukan apakah tes itu mencakup sampel representative dari
domain perilaku yang harus diukur.
Prosedur Spesifik. Berdasarkan informasi yang terkumpul, spesifikasi tes disusun
untuk para penulis soal. Spesifikasi-spesifikasi ini seharusnya menunjukan bidang isi atau topictopik yang dicakup, sasaran-sasaran atau proses-proses pengajaran yang harus di tes dan
pentingnya topik-topik serta proses individu. Spesifikasi-spesifikasi ini seharusnya menunjukan
jumlah tiap jenis item yang dipersiapkan untuk masing-masing topic.
Aplikasi. Terutama bila ditunjang oleh alat periksa empiris seperti yang sudah
digambarkan, validasi isi memberikan teknik yang memadai untuk mengevaluasi tes-tes
prestasi.
Validitas Nominal. Pada dasarnya, pertanyaan tentang validitas nominal
menyangkut rapor dan hubungan masyarakat (humas). Meskipun penggunaan istilah “validitas”
dalam kaitan ini bisa menimbulkang kebingungan, validitas tampang itu sendiri merupksn ciri
tes yang di senangi. Selain itu diperlukan juga validitas tampang agar bisa berfungsi secara
efektif dalam situasi praktis. Validitas tampang juga memengaruhi penerimaan tes tersebut
dalam keputusan legislative dan perundangan, dan juga penilaian oleh masyarakat umum.


Prosedur-prosedur Prediksi-Kriteria
Validasi Konkuren dan Validasi Prediktif. Informasi yang disediakan oleh validasi
prediktif paling relevan bagi tes-tes yang digunakan dalam seleksi dan klasifikasi personel.
Vallidasi konkuren digunakan semata-mata sebagai pengganti validasi prediktif. Kerap
perpanjangan prosedur validasi selama waktu yang dubutuhkan untuk validasi prediktif atau
untuk memperoleh sampel praseleksi yang sesuai untuk maksud-maksud pengetesan, tak dapat
dilakukan. Oleh karena itu, sebagai pemecah yang merupakan jalan tengah, tes-tes diadaan bagi

kelompok yang menjadi sumber data kriteria. Dengan demikian, skor-skor tes mahasiswa bisa
dibandingkan dengan indeks prestasi kumulatif mereka pada saat pengetesan, atau skor tes
karyawan dengan sukses pekerjaan mereka sekarang ini.
Kontaminasi Kriteria. Sumber kesalahan potensial dalam validasi tes ini dikenal
sebagai kontaminasi kriteria, karena peringkat kriteria menjadi “terkontaminasi” oleh
pengetahuan pemeringkat terhadap skor-skor tes.
Ukuran-ukuran Krieria. Indeks-indeks khusus yang digunakkan sebagai ukuran
kriteria mencakup nilai sekolah, skor tes prestasi, promosi dan catatan kelulusan, penghargaan
dan hadiah khusus, serta peringkat guru ataupun pengajar untuk “inteligensi”. Dalam kaitan
dengan penggunaan catatan-catatan pelatihan sebagai ukuran-ukuran kriteria, sebuah
pembedaan yang berguna adalah pembedaan antara kriteria menengah dan kriteria puncak.
Generalisasi Validitas. Validitas prediksi-kriteria kerap digunakan dalam studistudi validasi local, dimana efektivitas sebuah tes untuk program tertentu harus dinilai. Ini
adalah pendekatan yang diikuti, misalnya ketika sebuah perusahaan ingin mengevaluasi tes
untuk menyeleksi para pelamar kerja di perusahaannya atau ketika sebuah perguruan tinggi
ingin menentukan bagaimana tes bakat akademik dapat memprediksi kinerja mata kuliah
mahasiswa-mahasiswanya.
Meta-Analisis. Meta-analisis mendapat perhatian yang makin besar dalam
psikologi sebagai pengganti untuk survei literature tradisional. Dengan memadukan temuantemuan itu sejauh mungkin berdasarkan segi-segi metodologis dan substantive yang relevan
dari masing-masing telaah, meta-analisis bisa menyingkapkan temuan positif yang penting.
Manfaatnya lebih jauh adalah bahwa meta-analisis memungkinkan penghitungan ukuranukuran efek.


Prosedur-prosedur Identifikasi Konstruk
Validitas konstruk sebuah tes adalah lingkup sejauh mana tes bisa dikatakan
mengukur suatu konstruk atau sifat teoritis. Tiap konstruk dikembangkan untuk menjelaskan
dan mengorganisasi konsistensi-konsistensi respons yang diamati.
Perubahan-perubahan perkembangan. Tes-tes seperti Standford-Binet dan
kebanyakan tes prasekolah dicocokan dengan usia kronologis untuk menentukan apakah skorskornya menunjukkan peningkatan secara bersamaan dengan peningkatan usia. Karena
kemampuan seseorang diharapkan untuk meningkat bersama selama usia selama masa kanakkanak, ada pendapat bahwa skor tes seharusnya juga menunjukkan peningkatan, jika tesnya
valid.
Korelasi dengan Tes-tes Lainnya. Korelasi antara tes baru dengan te-tes
sebelumnya yang serupa kadang kala disebut sebagai bukti bahwa tes baru mengukur bidang
perilaku yang hampir sama dengan tes lain yang diberi nama sama, seperti “tes inteligensi” atau
“tes bakat/kemampuan mekanis”.
Analisis Faktor. Tujuan utama analisis faktor adalah menyederhanakan deskripsi
perilaku dengan meredukasi jumlah kategori dari banyak variabel tes pada awalnya ke beberapa
faktor atau sifat umum.
Konsistensi Internal. Tampak bahwa korelasi konsisten internal, entah didasarkan
pada butir-butir soal entah sub-subtes, pada hakikatnya merupakan ukuran-ukuran
homogenitas. Karena membantu menggambarkan domain perilaku atau sifat yang dijadikan

sampel oleh tes, derajat homogenitas sebuah tes memiliki relevansi tertentu dengan validitas
konstruknya.
Validasi Konvergen dan Diskriminasi. Dalam suatu analisis penuh pertimbangan
atas validasi konstruk, D. T. Campbell (1960) menunjukkan bahwa, dalam rangka menunjukkan
validitas konstruk, kita harus menunjukkan bukan hanya tes berkorelasi tinggi dengan variabelvariabel lain sebagaimana seharusnya secara teoritis, tetapi juga ia tidak berkorelasi secara
signifikan dengan variabel-variabel yang memang berbeda dari tes tersebut.
Intervensi Eksperimental. Dalam memeriksa validitas te untuk digunakan dalam
program pengajaran yang dibuat khusus untuk individu, misalnya, salah satu pendekatan adalah
melalui perbandingan antara skor pretest dan posttest. Dasar pemikiran dari tes semacam itu
mengandaikan skor rendah pada pretest, yang diadakan sesuai instruksi yang relevan, dan skor
tinggi pada posttest.
Pemodelan Persamaan Struktural. Pemodelan persamaan structural
memberikan cara-cara menghindari kesulitan-kesulitan semacam itu. Pada dasarnya, modeling
persamaan structural melakukan hal itu dengan menggunakan persamaan regresi untuk
memprediksi variabel dpenden dari variabel independe dalam model cross-lagged atau model
kausal lainnya.
Kontribusi dari Psikologi Kognitif. Pendekatan ini dengan jelas memusatkan
perhatian pada proses-proses respons, sangat berbeda dengan cara sebelumnya yang lebih
memerhatikan hasil akhir pikiran dalam riset psikometris. Menganalisis kinerja tes dari segi
proses kognitif tertentu tentu saja bisa memperkuat dan memperluas pengertian kita tentang
apa yang diukur oleh tes tersebut.


Tinjauan dan Integrasi
Perbandingan Prosedur Validasi. Untuk menunjukan segi-segi kekhasan dari
prosedur-prosedur validasi yang berbeda, mari kita terapkan masing-masing prosedur ini pada
sebuah tes yang terdiri dari butir-butir soal aritmetik campuran. Empat cara di mana tes ini bisa
digunakan, bersama dengan jenis prosedur validasi yang tepat untuk masing-masing.
Perbandingan Prosedur Validasi. Semua teknik spesifik untuk analisis isi untuk
mengukur hubungan-hubungan kriteria. Validitas terhadap berbagai kriteria praktis umum
dilaporkan dalam manual tes untuk membantu penggunaan dalam memahami apa yang diukur
oleh tes tersebut.
Validasi dalam Proses Penyusunan Tes. Proses validasi dimulai dengan
memformulasikan ciri terinci atau definisi konstruk, yang berasal dari teori psikologi, penelitian
sebelumnya, atau observasi sistematik dan analisis atas domain perilaku yang relevan.
Konsekuensi Individu dan Sosial Pengetesan. Penekanan lebih diletakkan pada
konsekuensi-konsekuensi tak disengaja dalam penggunaan khusus suatu alat tes, yang bisa
merusak individu atau anggota-anggota kelompok etnik tertentu atau populasi dengan latar
belakang pengalaman yang ragam.

Bab 6 – Validitas: Pengukuran dan Interpretasi


Koefisien Validitas dan Kesalahan Penilain
Kondisi-kondisi yang Memengurahi Koefisien Validitas. Orang-orang dengan
latar belakang pengelaman yang berbeda, misalnya, bisa memanfaatkan metode-metode kerja
yang berbeda-beda untuk memecahkan masalah tes yang sama. Koefisien validitas juga bisa
berubah sepanjang waktu tertentu karena perubahan standar seleksi. Agar bisa melakukan
interpretasi yang tepat atas koefisien validitas, kita harus memperhatikan bentuk hubungan
antara test dan kriteria.
Besaran Koefisien Validitas. Sebelum menarik kesimpulan apapun tentang
validitas test, kita seharusnya cukup yakin bahwa koefisien validitas yang diperoleh itu tidak bisa
muncul melalui fluktuasi pengambilan sampel secara kebetulan dari korelasi populasi nol. Perlu
diingat bahwa kesalahan pengukuran menunjukan marjin kesalahan yang harus diharapkan
dalam sebuah skor individu sebagai hasil dari tidak dapat diandalkannya test itu.


Validitas Test dan Teori Keputusan
Pendekatan Dasar. Dalam menetapkan skor potong pada sebuah test, perhatian
seharusnya diberikan pada persentase penolakan salah, seperti halnya pada persentase sukses
dan kegagalan di dalam kelompok terpilih. Dalam situasi tertentu, skor potong seharusnya
cukup tinggi untuk menyingkirkan semua hal kecuali beberapa kegagalan yang mungkin terjadi.
Ini akan menjadi masalah bila pekerjaan itu bersifat sedemikian rupa sehingga pekerja yang
punya kualifikasi buruk bisa menyebabkan kerugian ataupun kerusakan yang serius.
Prediksi Hasil. Informasi yang diperlukan mencakup koefisien validitas test,
proporsi pelamar yang harus diterima (rasio seleksi) dan proporsi pelamar-pelamar yang sukses
tanpa penggunaan test (angka dasar). Sebuah perubahan dan ketiga kondisi ini dapat mengubah
efisiensi prediktif test.
Hubungan Validitas pada Produktivitas. Dalam banyak situasi praktis, yang
diinginkan adalah suatu penilaian atas efek test seleksi, bukan pada persentase orang-orang
yang melebihi kinerja minimum, melainkan pada produktivitas keseluruhan orang yang dipilih.
Brogden (1946b) pertama-tama menunjukkan bahwa peningkatan yang diharapkan dalam
output secara langsung sebanding dengan validitas test.
Konsep Utulitas dalam Teori Keputusan. Merupakan ciri dari teori keputusan
bahwa test-test dievaluasi dalam kaitan dengan efektivitasnya pada situasi tertentu. Evaluasi
semacam itu tidak hanya mempertimbangkan validitas test ini dalam memprediksi kriteria
tertentu, tetapi juga sejumlah parameter lainnya, termasuk angka dasar dan rasio seleksi. Dalam
memilih suatu strategi keputusan, sasarannya adalah memaksimalkan kegunaan yang
diharapkan pada semua hasil.
Strategi Berurutan dan Penanganan Adaptif. Test-test bisa digunakan untuk
mengambil keputusan berurutan daripada keputusan akhir. Strategi lain, yang sesuai dengan
diagnosis gangguan-gangguan psikologis, adalah penggunaan dua kategori saja, tetapi untuk
menguji lebih jauh semua kasus yang digolongkan sebagai kasus positif (yakni memiliki
kemungkinan patologis) melalui test seleksi awal. Seharusnya diperhatikan juga nahwa banyak

keputusan personel pada dasarnya merupakan keputusan berurutan, meskipun tidak kelihatan
seperti itu.
Variabel-variabel Moderator. Minat dan motivasi bisa berfungsi sebagai variabel
moderator. Satu temuan yang relative konsisten adalah perbedaan jenis kelamin dalam
kemampuan untuk memprediksi nilai-nilai akademis. Perlu dicatat bahwa perbedaan jenis
kelamin dalam koefisien validitas ini, meskipun agak konsisten pada umumnya kecil.


Memdukan Informasi dari Berbagai Macam Test.
Bila sejumlah test yang terpilih secara khusus digunakan bersama untuk
memprediksi kriteria tunggal, test-test tersebut dikenal sebagai kumpulan test. Masalah utama
yang muncul dalam penggunaan kumpulan test semacam itu menyangkut cara dimana skor
pada test yang berbeda dipadukan untuk sampai pada keputusan yang menyangkut masingmasing individu. Ada dua jenis utama prosedur yang ditempuh untuk maksud ini, yaitu
persamaan multi regresi dan analisis profil.
Persamaan Regresi Majemuk. Menghasilakan skor kriteria terprediksi untuk
masing-masing individu berdasarkan skor pada semua test dalam kumpulan test. Validitas
keseluruhan kumpulan test dapat diperoleh dengan menghitung korelasi (R) antara kriteria
dengan kumpulan testnya. Korelasi ini menunjukkan nilai prediktif yang paling tinngi yang dapat
diperoleh dari kumpulan test tadi, apabila setiap test diberi bobot optimum untuk memprediksi
kriteria yang dipertanyakan.


Penggunaan Test untuk Klasifikasi Keputusan.
Hakikat Klasifikasi. Klasifikasi, dipihak lain selalu melibatkan dua atau lebih
kriteria. Dalam situasi militer misalnya, klasifikasi adalah problem utama karena masing-masing
individu dalam kelompok karyawan harus ditugaskan pada bagian militer dimana ia bisa
berfungsi paling efektif. Keputusan klasifikasi juga diperlurkan dalam industry, ketika karyawan
baru ditugaskan pada program-program pelatihan untuk berbagai jenis pekerjaan.
Validitas Diferensial. Sasaran kumpulan test semacam itu adalah memprediksi
perbedaan-perbedaan dalam kinerja masing-masing orang pada dua atau lebih pekerjaan,
program pelatihan, atau situasi kriteria lainnya. Prosedur-prosedur statistic telah dikembangkan
untuk menyeleksi test test sedemikian rupa sehingga memaksimalisasi validitas diferensial
klasifikasi kumpulan test. Dalam praktiknya, untuk mendekati sasaran yang diinginkan, bisa
digunakan berbagai pendekatan empiris.
Fungsi Diskriminan Majemuk. Sebuah cara alternative untuk menangani
keputusan klasifikasi adalah dengan saran fungsi diskriminan majemuk. Fungsi diskriminan ini
juga tepat ketika ada hubungan non linear antara kriteria dan satu atau lebih predictor.
Memaksimalisasikan Pemanfaatan Bakat. Prediksi diferensial atas krotesia
dengan kumpulan test memungkinkan pemanfaatan sumber daya manusia yang tersedia
dengan lebih penuh, dibandingkan dengan test umum tunggal, atau dengan sebuah skor
komposit dari persamaan regresi tunggal.



Analisis Statistik Terhadap Bias Test
Masalahnya. Pemecahan yang lebih baik adalah memilih isi yang relevan dengan
Kriteria dan kemudia menyeleksi perbedaan-perbedaan populasi yang mungkin dalam
efektifitas test untuk masuk yang memang dikehendaki. Koefisien validitas, bobot regresi, dan
skor-skor potong bisa bervariasi sebagai perbedaan fungsi dalam latar belakang pengalaman
peserta test.
Bias Lereng (Slope Bias). Dalam telaah-telaah validitas diferensial, satu kesulitan
umum muncul dari kenyataan bahwa jumlah kasus dalam sampel minoritas kerap jauh lebih
kecil daripada dalam sampel mayoritas. Dalam kondisi ini, koefisien validitas yang sama bisa
bermakna (signifikan) secara statistic dalam sampel mayoritas dan tidak signifikan dalam sampel
minoritas (yang disebut validitas kelompok tunggal).
Bias Intersepsi. Test menunjukan bias intersepsi jik secara sistematis test itu
memprediksi terlalu tinggi atau terlalu rendah kinerja kriteria untuk kelompok tertentu.
Masalah bias intersepsi berhubungan paling erat dengan fairness test. Meskipun istilah fairness
test dan bias test kadang kala digunakan secara luas dan bisa saling dipertukarkan untuk
meliputi semua aspek penggunaan test dengan minoritas kultural, telah lazim untuk
mengidentifikasi fairness test (atau sebaliknya) dengan bias intersepsi.
Model-model Keputusan untuk Penggunaan Test yang Fair. Jika strategi seleksi
mengikuti model regresi, para individu akan dipilih (untuk penerimaan mahasiswa, pekerjaan,
dan sebagainya) semata-mata berdasarkan skor kriteria yang diprediksikan. Strategi ini akan
memaksimalisasi keseluruhan kinerja kriteria, tanpa hubungan dengan sasaran-sasaran lain
proses seleksi. Pada akhirnya, seharusnya ditekankan bahwa penyesuaian statistic dalam skorskor test, skor potong, dan rumusan prediksi mengandung sedikit harapan sebagia sarana untuk
mengoreksi ketimpangan social. Pendekatan lainnya adalah melalui penanganan adaptif,
misalnya program pelatihan yang disesuaikan untuk individu tertentu.

BAB 7 – Analisis Butir Soal
Analisis butir soal memungkinkan kita memperpendek tes dan pada saat yang
sama meningkatkan validitas dan reabilitasnya. Asal semua hal lain sama, tes yang lebih panjang
lebih valid dan lebih dapat diandalkan daripada tes yang pendek.


Kesulitan Butir Soal
Persentase Kelulusan. Untuk kebanyakan tujuan pengetesan, kesulita
butir soal dirumuskan dalam kaitan dengan presentase (proporsi) orang-orang yang
menjawabnya dengan benar. Semakin mudah butir soal, semakin besarlah presentasenya.
Dalam proses penyusunan tes, alasan utama untuk mengukur kesulitan butir soal adalah
memilih butir soal dengan tingkat kesulitan yang sesuai. Kebanyakan tes kemampuan baku
untuk menilai seakurat mungkin tingkat pencapaian individu dalam kemampuan tertentu.
Skala-skala Interval. Presentase orang-orang yang lulus pada suatu butir
soal mengungkapkan kesulitan butir soal dalam kaitan dengan skala ordinal; dengan kata lain,
presentase itu dengan benar menunjukkan urutan peringkat atau kesulitan relatif butir-butir
soal.
Penentuan Skala Absolut Thurstone. Indeks kesulitan butir soal yang
diungkapkan sebagai persentase atau unit-unit kurva normal dibatasi oleh rentang kemampuan
yang dicakup oleh sampel yang dari mana indeks-indeks itu berasal. Prosedur statistik ini yang
dikenal sebagai penentu skala absolute, dikembangkan oleh Thurstone (1925, 1947) dan telah
digunakan secara luas dalam pengembangan tes. Dengan demikian tes-tes yang dirancang
dengan tujuan penyaringan seharusnya memanfaatkan butir-butir soal yang nilai kesulitannya
paling mendekati rasio seleksi yang dikehendaki.
Distribusi Skor-skor Tes. Jika sampel standarisasi adalah cross-section
representative dari populasi tersebut, maka umumnya diharapkan bahwa secara kasar skorskornya akan masuk dalam kurva distribusi normal. Ketika sampel standardisasi menghasilkan
distribusi nonnormal yang cukup mencolok pada sebuah tes, tingkat kesulitan tes ini biasanya
dimodifikasi sampai dicapai sebuah kurva normal.
Mengaitkan Kesulitan Butir Soal dengan Tujuan Pengetesan. Dalam
penyusunan tes untuk bermacam-macam tujuan, pilihan atas kesulitan butir soal yang tepat,
seperti halnya juga bentuk optimal distribusi skor-skor tes, tergantung pada jenis diskriminasi
yang dicari. Dengan demikian, tes-tes yang dirancang dengan tujuan penyaringan seharusnya
memanfaatkan butir-butir soalyang nilai kesulitannya paling mendekati rasio seleksi yang
dikehendaki.


Diskriminasi Butir Soal
Pilihan Kriteria. Diskriminasi butir soal merujuk pada sejauh mana butir
soal melakukan diferensiasi dengan benar di antara para peserta tes dalam perilaku yang
memang menjadi objek pengukuran tes. Bila tes sebagai suatu keutuhan harus dievaluasi
dengan sarana validasi yang terkait dengan kriteria, butir-butir soal itu sendiri bisa dievaluasi
dan diseleksi atas dasar hubungan mereka dengan kriteria eksternal yang sama. Validasi
eksternal dan konsistensi internal merupakan sasaran penyusunan tes. Untuk banyak tujuan

pengetesan, kompromi yang memuaskan adalah memilah-milah butir-butir soal yang relatif
homogen ke dalam tes atau subtes yang berbeda, yang masing-masing mencakup dari kriteria
eksternal.
Indeks Statistik Diskriminasi Butir Soal. Karena respons-respons butir
soal umumnya, direkam sebagai hal yang salah atau benar, pengukuran diskriminasi butir soal
biasanya melibatkan variabel dikotomis (butir soal) dan variabel kontinu (kriteria).
Penggunaan Kelompok-kelompok Ekstrem. Ketika kriterianya diukur
sepanjang skala yang kontinu, seperti dalam kasus nilai-nilai mata kuliah, peringkat pekerjaan,
catatan-catatan keluaran, atau skor total pada tes, kelompok kriteria atas (U = upper) dan
bawah (L = lower) diseleksi dari ekstrem-ekstrem distribusi. Yang jelas, semakin ekstrem
kelompok itu, semakin tajam diferensiasinya.
Analisis Sederhana dengan Kelompok-kelompok Kecil. contohnya
analisis butir soal siswa-siswa yang mengikuti kuis di kelas untuk mengidentifikasi kekurangankekurangan dalam tes atau dalam pengajaran.
Indeks Diskriminasi. Jika jumlah orang yang bisa mengerjakan tiap butir
soal dalam kelompok kriteria U dan L dinyatakan dalam persentase, perbedaan antara dua
persentase ini memberikan sebuah indeks diskriminasi butir soal yang bisa diinterpretasikan
secara independen dari ukuran sampel tertentu dimana sampel itu didapatkan.


Teori Respons Butir Soal
Regresi Butir Soal-Tes. Ba