Analisis item dan standardisasi tes

  Analisis item dan standardisasi tes

  Tujuan

  • Memahami konsep dan strategi memilih item tes berdasarkan kriteria eksternal.
  • Memahami konsep dan strategi memilih item tes berdasarkan konsistensi internal yang meliputi kesulitan item (indeks kesulitan item atau p) dan kemampuan mendiskriminan kelompok (indeks diskriminasi item atau D).
  • Memahami konsep dan strategi memilih pengganggu item pilihan ganda (multiple-choice item distracters).
  • Memahami konsep dan strategi memilih tes berdasarkan item-response curve dan item-

  response theory (IRT)

  • • Penghitungan statistik tertentu yang harus

    diteliti dengan seksama untuk menentukan apakah semua item pada tes berfungsi seperti yang seharusnya dan bagaimana cara menginterpretasikan skor tes.
  • • Analisis item berfokus pada memfungsikan

    masing-masing item sedangkan standardisasi tes berkaitan dengan interpretatif skor normatif pada tes secara keseluruhan atau pada beberapa bagian atau sub tes yang memuatnya.

  • Classical Test Theory (CTT) dan Item-respons

  theory (IRT) bermanfaat pada penyusunan, analisis dan penerapan tes dan tergantung pada tugas khusus.

  • Setelah tes diselenggarakan dan diberi skor, baru ketahuan bahwa tes itu belum dilaksanakan dengan

    baik. Ketika tes diuji coba pertama kali, tampaknya

    sejumlah masalah dapat diselesaikan.
  • Pelaksanaan tes yang tidak baik ini merupakan salah satu alasan mengapa tes yang didistribusikan secara komersial diselenggarakan dulu pada sampel orang. Setelah itu tes diselenggarakan bagi

    populasi sampel tersebut. Respon pilot sampel ini

  • Apapun jenis tes – terstandardisasi atau dibuat guru, kemampuan atau kepribadian – analisis hasil post-mortem atau post hoc sama perlunya pada perusahaan obat atau perusahaan lain yang berciri manusia.
  • Diantara pertanyaan yang perlu dijawab adalah :

  Apakah waktu yang tersedia cukup ? Apakah peserta memahami petunjuk tes ? Apakah kondisi tes memadai ? Apakah keadaan darurat diatasi dengan tepat ? Apakah item jelas ? Apakah tes cukup wajar ? Kuesioner umpan balik sederhana yang berkaitan dengan pertanyaan ini dan pertanyaan yang relevan lain seringkali

  • Analisis respons yang disampaikan oleh

    kelompok orang mengenai masing-masing

    item pada tes memberikan beberapa fungsi.
  • Tujuan utama analisis item semacam itu adalah membantu meningkatkan tes dengan memperbaiki atau menghapus item inefektif.
  • Fungsi penting lain dari analisis item,

    terutama analisis item pada tes pencapaian

    adalah memberikan informasi diagnostik mengenai apa yang diketahui dan tidak diketahui oleh peserta tes.

Tes yang mengacu ke Kriteria dan Tes Penguasaan

  • Prosedur yang digunakan dalam mengevaluasi efektivitas item tes tergantung pada tujuan tes. Misalnya, penyusun tes ingin mendesain tes yang memprediksi gejala klinis yang relevan, seperti hasil diagnosis psikoterapi atau psikiatri.
  • Item pada tes akan dipilih berdasarkan pada seberapa bagus penyusun tes memprediksi gejala klinis ini.
  • Penyusun tes lain berkaitan dengan menentukan seberapa banyak peserta tes mengetahui isi bidang akademi. Dalam kasus ini, kinerja diukur berdasarkan

  • • Tujuan pengetesan criterion-referenced (or domain

  referenced) testing semacam itu bukan hanya untuk menemukan bagaimana skor yang diperoleh

seseorang dibandingkan dengan orang lain tetapi

juga untuk menentukan di mana dia berposisi

terhadap tujuan kuliah atau gejala klinis tertentu.

  • Jenis khusus tes yang mengacu ke kriteria yang

    didisain untuk mengukur pencapaian ketrampilan

    kognitif yang lingkupnya terbatas dikenal sebagai

    tes penguasaan (mastery test).
  • • Skor seseorang pada tes penguasaan diungkapkan

    dengan persentase jumlah item total yang dijawab

Perbedaan Individu dan Validitas Item

  • Karena sangat sulit memperoleh persetujuan pada seberapa banyak orang

    seharusnya tahu mengenai subjek tertentu

    atau apa yang mendasari menguasaan ini,

    skor tes psikologi atau pendidikan secara tradisional telah diinterpretasikan dengan cara membandingkannya dengan skor yang diperoleh orang lain.
  • Tes psikologi telah direncanakan terutama untuk memeriksa perbedaan antara individu
  • Orang berbeda dalam kemampuan dan kepribadian mereka dan para psikolog berusaha mengevaluasi perbedaan ini dengan berbagai jenis tes.
  • Para penyusun tes professional mencoba merencanakan item yang berbeda bagi orang yang berbeda dalam kaitannya dengan kemampuan apa yang diukur .
  • Untuk menilai kemanfaatan item sebagai ukuran perbedaan individu dalam kemampuan atau karakteristik kepribadian, para penguji perlu ukuran patokan eksternal karakteristik
  • Validitas item untuk memprediksi keadaan kriteria eksternal ditentukan

    dengan mengkorelasikan skor pada

    item (nol untuk salah dan 1 untuk benar) dengan skor pada ukuran patokan.
  • • Jenis koefsien korelasi yang berbeda-

    beda digunakan untuk tujuan ini yang paling umum koefsien dua- rangkaian titik (point biserial
  • Item yang memiliki korelasi serendah 0,20

    berdasarkan kriteria memberikan kontribusi

    untuk memprediksi item itu, meskipun koefsien lebih tinggi lebih disukai. Item yang memiliki korelasi hampir atau kurang dari 0,00 dengan criteria pasti harus diperbaiki atau dibuang.
  • Item yang memiliki korelasi tinggi berdasarkan criteria tetapi korelasi rendah dengan item lain adalah yang terbaik karena item itu membuat kontribusi yang lebih independen terhadap prediksi skor kriteria.

  Indeks Kesulitan Item dan Indeks Diskriminasi

  • Dalam kasus tes pencapaian prestasi di kelas, item dikorelasikan dengan skor total pada tes itu sendiri. Diasumsikan bahwa rangkaian item sebagai keseluruhan merupakan ukuran pencapaian yang memadai mengenai subjek, skor total sebagai kriteria dalam menentukan konsistensi internal tes.
  • Prosedur jalan pintas adalah menyortir para peserta tes menjadi 3 kelompok menurut skor mereka pada tes sebagai satu keseluruhan : kelompok tinggi terdiri dari 27 % yang membuat skor tertinggi, kelompok rendah terdiri dari 27 % yang membuat skor terendah dan sisanya 46 % berada pada kelompok tengah. Jika jumlah responden

  • Nilai p disebut indeks kesulitan item (item difculty indeks) dan D sebagai indeks diskriminasi item (item discrimination indeks).

   

  • Misalkan disumsikan bahwa 50 orang mengikuti tes.
  • Kemudian , kelompok tinggi dan rendah dibentuk dari bagian atas 0,27 x 50 = 14 dan 14 terendah pada skor tes total. Jika 12 orang pada kelompok tinggi dan 7 orang pada kelompok rendah lolos item A maka p = (12 + 7)/28 = 0,68 dan D = (12-7)/14 =

  • Indeks kesulitan item memiliki cakupan dari 0,00
    • – 1,00. Item dengan p = 0,00 adalah item yang tidak seorangpun menjawab benar dan item p = 1,00 dijawab benar oleh semua orang.

  • Nilai-p optimum untuk item tergantung pada sejumlah faktor, yang mencakup tujuan tes dan jumlah opsi respons. Jika tujuan tes adalah mengidentifkasikan atau memilih hanya presentase kecil dari pelamar terbaik maka tes harus cukup sulit seperti tercermin pada nilai mean p rendah. Jika tes didesain untuk menyaring hanya sedikit pelamar yang sangat buruk maka nilai mean p tinggi adalah yang

  • Nilai optimum p tergantung pada tes. Misalnya, p optimum harus cukup rendah untuk item tes yang didesain untuk menentukan penerima beasiswa atau untuk penempatan tingkat lanjut, tetapi cukup tinggi pada tes yang didesain untuk mengidentifkasikan siswa yang mengikuti program remidi. Pada tes yang didesain untuk mengukur cakupan luas kemampuan, nilai p optimum hampir memdekati 0,5.
  • • Nilai mean optimum p untuk tes semacam itu juga

    bervariasi secara berkebalikan dengan jumlah opsi respons (k), p untuk item yang dapat diterima akan masuk ke cakupan yang cukup
  • Indeks diskriminasi item (D) adalah ukuran efektivitas item dalam mendeskripsikan antara pemilik skor tinggi dan rendah pada tes.
  • Semakin tinggi nilai D, semakin efektif item dalam mendeskriminasikan antara peserta tes dengan skor tinggi dan peserta tes dengan skor rendah pada tes sebagai satu keseluruhan.
  • Ketika D adalah 1,00 semua peserta tes di kelompok tinggi menjawab item dengan benar dan tak seorangpun di kelompok rendah pada skor tes total menjawab item dengan benar.
  • Akan tetapi, jarang D setera dengan 1,00 dan item ini

  • Tetapi D dan p bukan indeks independen, dan nilai D minimum yang dapat diterima ketika p

    semakin tinggi atau semakin rendah

    daripada nilai optimum terutama ketika ukuran/besar kelompok pembanding tinggi dan rendah adalah besar.

Faktor yang Mempengaruhi Berfungsinya Item

  • Dalam menyusun tes terstandardisasi, sekarang menjadi praktik umum untuk meneliti tiap-tiap item dan statistik yang terkait dengannya untuk

    mendapatkan indikasi mengenai diskriminasi atau

    bias kelompok.
  • Indeks statistik diferential item function (DIF) seringkali dihitung untuk mempermudah proses ini.
  • Item dapat bias hanya ketika item itu mengukur sesuatu yang berbeda – karakteristik atau ciri berbeda- dalam satu kelompok dengan karakteristik
  • • Jika skor item mencerminkan perbedaan nyata kemampuan

    atau karakteristik apa pun yang didesain untuk diukur oleh item itu, item itu secara teknis tidak bias.
  • Menyelenggarakan analisis item terpisah bagi tiap-tiap kelompok akan mengungkapkan keberadaan bias item

    yakni apakah item tersebut mendeskriminasi dengan baik

    antara pemilik skor tinggi dan rendah pada kedua kelompok tersebut.
  • Analisis item menghasilkan perbaikan signifkan terhadap efektivitas tes. Indeks diskriminasi item secara khusus merupakan ukuran yang cukup bagus mengenai kualitas item.
  • • Bersama dengan indeks kesulitan ( p ), D dapat digunakan

    sebagai peringatan bahwa ada yang salah pada item

  • Bank item semacam itu digunakan tidak hanya oleh penyusun tes tradisional professional, tetapi juga

    diberikan sebagai bahan tambahan

    pada sejumlah buku teks yang

    digunakan sebagai tes praktek atau

    menjadi kumpulan item untuk menyusun tes di kelas.

Konsistensi Internal Versus Validitas Internal

  • Konsep validitas item biasanya mengacu ke hubungan item dengan kriteria eksternal. Sebaliknya, D adalah ukuran hubungan skor item dengan kriteria internal – skor total – bukan dengan kriteria eksternal.
  • Memilih item yang berdasar statistik D menghasilkan

    jenis tes yang berbeda daripada item yang terdiri atas

    item yang dipilih berdasar korelasi tinggi dengan kriteria eksternal.
  • Kadangkala kombinasi dua startegi memadai : tes gabungan disusun dari subtes yang saling memiliki korelasi rendah dan korelasi yang substansial dengan

Item Tes yang Mengacu ke Kriteria

  • Indeks kesulitan dan indeks diskriminasi juga dapat dihitung berdasar item tes yang mengacu ke kriteria yang didesain untuk menentukan posisi peserta tes terhadap tujuan pendidikan yang telah ditetapkan.
  • Dalam kasus ini, peserta tes dibagi menjadi 2 kelompok : kelompok atas yang terdiri dari peserta U yang skor tes totalnya memenuhi kinerja yang dapat diterima yang telah dirancang berdasar kriteria dari peserta tes L

  

Analisis terhadap Pengganggu

  • • Analisis item pilihan-ganda secara tradisional telah mulai

    dengan penghitungan indeks kesulitan dan indeks diskriminasi untuk tiap-tiap item.
  • Analisis kedua berkaitan dengan berfungsinya k-1 opsi (pengganggu atau distracter) salah untuk tiap-tiap item. Indeks diskriminasi item (D) memberikan informasi pada berfungsinya gangguan secara keseluruhan.
  • D positif berarti pada peserta tes pada kelompok

  atas (pada skor tes total) cenderung memilih jawaban dengan benar sedangkan yang ada di kelompok bawah cenderung memilih satu pengganggu besarnya D menunjukkan tingkat kecenderungan ini.

Kurva Karakteristik Item

  • Nilai p dan D yang dapat diterima tidak menjamin bahwa item berfungsi dengan tepat di semua level kinerja tes.
  • Agar sangat efektif, proporsi orang yang menjawab item tes dengan tepat harus meningkat dengan mantap seiring dengan peningkatan skor total pada tes atau subtes.
  • Apakah item tes berfungsi dengan cara ini dapat ditentukan dari item characteristic curve (ICC). Dalam menyusun ICC, proporsi responden yang member jawaban kunci diplot terhadap skor mereka berdasarkan kriteria internal (misalnya skor tes total) atau criteria eksternal seperti pencapaian atau kinerja pekerjaan.
  • Level kesulitan (b) adalah skor criteria yang 50 % peserta tes member jawaban benar (berdasar kunci); indeks diskriminasi (a) adalah tingkat kemiringan (slope) kurva respons-tem pada poin 50 %.
  • Misalkan dari dua ICC yang diplot pada Gambar 4.1,

    nilai 0,5 pada sumbu vertical berhubungan dengan

    skor total 68 pada kasus item 1 dan 77 pada kasus

    item 2.
  • Akibatnya item 2 lebih sulit daripada item 1. Akan

    tetapi, ICC item 1 memiliki kemiringan lebih curam

    dari pada item 2 , maka item 1 mendiskriminasi dengan lebih baik daripada item 2 antara pemilik

Item response Theory

  • Metode ini pertama kali mengembangkan teori mengenai cara berfungsinya item berdasarkan

    pengetahuan mengenai kemampuan

    atau ciri kepribadian (Trait).
  • Metode ini membandingkan respons sesungguhnya terhadap item untuk menentukan seberapa bagus berfungsinya item. Jadi item

    sesungguhnya dibandingkan dengan

  • • Seperti digambarkan pada Gambar 4.2, bentuk kurva

    respons-item bervariasi mengikuti nilai parameter a

    dan b. Kedua kurva pada gambar ini disusun dengan fungsi dua-parameter pada rumus 4.5.
  • Pada kurva P, parameter kesulitan (b) adalah 1,00

    dan parameter diskriminan (a) adalah 0,5; pada

    kurva Q, b = 0,25 dan a = 0,75.
  • Catat bahwa b adalah nilai (titik pada sumbu horizontal) yang berhubungan dengan P( ) = 0,5 dan a adalah kemiringan kurva pada P( ) – 0,5. Pada model 3 parameter, b adalah nilai P( ) yang berhubungan dengan 0,5 ( c + 1) dengan c adalah

    titik persilangan antara kurva respons-item dengan

  • Skor pada kontinum, kemampuan tersembunyi (latent ability

  continuum) dinyatakan sebagai unit skor standard (z ), tetapi pada penerapan sebagian besar pendidikan,

skor z diubah ke skala yang memiliki

mean 300 dan deviasi standard 50.

  • Pada praktek sesungguhnya, parameter item dan skor kemampuan tersembunyi (latent ability score)

  • Masalahnya adalah mencari kurva respons-item yang paling cocok dengan respons terhadap tiap-tiap item.
  • Pencarian ini melibatkan prosedur yang mungkin- maksimum secara iterative dengan mengasumsikan nilai awal tertentu untuk parameter itemnya dengan menghitung P( ) yang berhubungan dengan berbagai nilai , membandingkan respons-item hasil prediksi dengan respons-item sesungguhnya dan melanjutkan proses sampai solusi terbaik dapat diraih.
  • Proses estimasi parameter item membutuhkan respons banyak peserta tes yang mewakili populasi potensi peserta tes kira-kira 2.000 untuk model tiga parameter dan 1.500 untuk model satu parameter (Rasch).

  • Tidak seperti metodologi pengetesan tradisional, yang

    mengacaukan antara diskriminasi dan kesulitan tes pada

    sampel tertentu orang yang dites, pada IRT maka

    parameternya adalah, setidaknya dalam teori, independen

    terhadap sampel tes.
  • Sifat IRT yang menarik lainnya, invariance kemampuan tes dengan respons terhadap item yang digunakan untuk mengestimasinya, berakar pada proses pengestimasian .

  Fitur IRT ini berarti bahwa tes pada level kesulitan manapun dapat dikelola untuk menentukan posisi seseorang pada berbagai level kemampuan tersembunyi (latent ability continuum).

  • IRT telah dipergunakan untuk berbagai tujuan, yang meliputi penyusunan tes, kalibrasi skor tes untuk menyediakan kerangka acuan guna

  

Standardisasi dan Norma Tes

  • Fitur inti pada sebagian besar tes psikologi adalah bahwa skor individu harus dibandingkan dengan beberapa kelompok normative. Fitur ini memungkinkan kita harus menginterpretasikan makna skor.
  • Misalnya, kita tahu bahwa seseorang mendapat skor tinggi pada introversi karena orang lain merespon pada item sama menguasai sedikit jumlah item yang berkaitan dengan introversi.
  • Untuk menyelesaikan tugas ini, tes, inventori

    (kumpulan soal tes), skala peringkat atau peralatan

  • Tes terstandardisasi apapun memiliki petunjuk standard mengenai

    penyelenggaraan dan pemberian skor

    yang harus benar-benar diikuti sehingga hanya menyisakan ruang kecil untuk interpretasi dan bias pribadi.
  • Standardisasi juga melibatkan pengelolaan tes tes terhadap sampel orang dalam jumlah besar (standardisasi sampel) yang dipilih sebagai wakil dari populasi sasaran

  • • Tujuan utama standardisasi tes adalah untuk

    menentukan distribusi skor mentah pada

    sampel terstandardisasi (kelompok norma).

  • Skor mentah yang diperoleh tersebut kemudian dikonversikan ke beberapa bentuk skor turunan atau norma.
  • • Dalam mengevaluasi anak cacat, kadangkala

    perlu mengelola tes di luar level (out-of-level

  test) yang didesain untuk level usia dan level grade di bawah orang yang

Memilih Sampel Terstandardisasi

  • Agar berfungsi secara efektif pada interpretasi skor tes, norma harus sesuai dengan kelompok atau individu yang dievaluasi.
  • Kapanpun skor tes dikonversikan dengan mengacu ke tabel norma, penting untuk membuat catatan mengenai karakteristik sampel (usia, jenis kelamin, etnik, pendidikan , status sosioekonomi, wilayah geograf) dari kelompok norma tertentu dan memasuk ini ke dalam semua komunikasi mengenai kinerja
  • Ciri pemilihan sampel terstandardisasi dari populasi bervariasi dari pengambilan sampel secara acak sederhana (simple random sampling) sampai strategi

    pemilihan sampel yang lebih rumit seperti pengambilan

    sampel secara cluster (cluster sampling).
  • Pengambilan sampel secara cluster lebih ekonomis daripada pengambilan sampel secara acak terstratifkasi dan lebih mungkin dari pada pengambilan sampel secara acak sederhana dalam menghasilkan sampel yang mewakili populasi sasaran.
  • Norma yang dipublikasikan pada buku petunjuk bermanfaat untuk membandingkan skor peserta tes dengan skor sampel orang dari berbagai lokasi, kadangkala cross section dari seluruh bagian Negara.

Norma Usia dan Kelas

  • Norma usia (ekuivalen usia , usia pendidikan) merupakan skor median pada tes yang

    diperoleh orang pada usia kronologis tertentu;

    norma kelas (grade norm) (ekuivalen kelas)

    adalah skor median yang diperoleh siswa pada

    level kelas tertentu.
  • Norma usia dan norma kelas memiliki

    kelemahan yang serius. Masalah utama adalah

    pertumbuhan karakteristik kognitif, psikomotorik atau afektif tidak seragam pada seluruh cakupan usia atau kelas.
  • Norma usia dan kelas secara salah menyiratkan bahwa laju peningkatan

    kemampuan yang dites adalah konstan dari

    tahun ke tahun karena itu penggunaan dua

    norma itu sering dihalangi oleh para ahli di bidang pengukuran pendidikan.
  • • Norma yang unit pengukuran kurang variabel

    sepanjang cakupan skor lebih disukai.
  • • Karena kemudahan penggunaan, norma usia

    dan norma kelas terus digunakan pada level

    SD dimana unit-unit pertumbuhan hampir

Normal Persentil

  • Norma persentil berisi tabel persentase yang berkaitan dengan skor mentah tertentu. Skor mentah ini disebut sebagai persentil dan persentase kelompok norma yang masuk ke bawah skor tertentu merupakan rentang persentil (persentil range) skor ini.
  • Peringkat persentil (persentil rank) cukup mudah dihitung dan dipahami oleh karena itu lebih populer daripada norma standard.
  • Laporan psikologi yang berusaha keras untuk menekankan kejelasan akan berkata sesuatu seperti “John mendapat skor pada peringkat rata-rata tinggi atau dalam persentil ke-85. Ini berarti bahwa dia mendapat

  

Norma-skor Standard

  • Tidak seperti peringkat persentil, skor

    standard menghadirkan pengukuran

    pada skala interval.
  • Norma skor standard adalah skor

    terkonversi yang memiliki mean dan

    standard deviasi yang diinginkan. Ada

    banyak skor standard yang berbeda,

    meliputi skor z, skor Z, skor CEEB, skor

  IQ deviasi, skor stanine, skor T dan

Skor Z

  • • Kenyataan bahwa skor z mungkin angka desimal

    negatif atau positif menciptakan beberapa kesulitan dalam menggerakkan angka itu.
  • • Masalah dapat diselesaikan dengan mengalikan

    skor z dengan angka konstan dan menambah angka konstan lain pada hasilnya.
  • Mengalikan z dengan 10, menambah 50 pada

    hasil dan membulatkan hasil ke angka terdekat

    menghasilkan skor Z. Mean serangkaian skor Z

    adalah 50 dan standard deviasi adalah 10 tetapi

    distribusi frekuensi skor Z memiliki bentuk yang

Skor CEEB

  • Pada suatu saat skor satu waktu CEEB pada tes yang dipublikasikan oleh College Entrance Examination Board (CEEB) ditentukan dengan mengalikan skor z yang berkaitan dengan 100 dan menambah 500 ke hasilnya. Misalnya, ini dilakukan pada skor mentah pada Scolastic Aptitude Test (SAT) yang diselenggarakan pada 1941, menghasilkan distribusi baru yang memiliki mean 500 dan deviasi standard 100.
  • Akan tetapi, sesudah itu, skor yang diperoleh siswa dengan mengambil SAT tidak diubah dengan cara ini. Melainkan, untuk menyakinkan unit skor konstan dalam rangka membandingkan hasil tes dari tahun ke tahun

Skor Wechsler

  • Skor mentah pada subtes skala kecerdasan Wechsler diubah agar memiliki mean 10 dan deviasi standard 3.
  • Namun, skor verbal, Kinerja dan Skala penuh (deviasi IQ) pada tes Wechsler dikonversikan ke distribusi yang memiliki mean 100 dan deviasi

  

Skor Standard yang dinormalisir

  • Skor z dapat diubah menjadi skor

  n dinormalisir yang memiliki mean dan deviasi standard yang diinginkan.

  • • Skala skor lain adalah skala stanine yang

    diilustrasikan dengan skala ketiga dari bawah. Pada skala standard dinormalisir ini, yang memiliki mean 5 dan deviasi standard sekitar 2, ada sembilan

  • Rentang ini didesain dari angka 1 – 9 dan seperti diperlihatkan pada gambar, persentase tertentu dari distribusi skala normal berada dalam interval yang diwakili oleh stanine tertentu. Akan tetapi, skala stanine bukanlah skala standard sesungguhnya, karena stanine pertama dan kesembilan terbuka di bagian akhir.
  • Salah satu keunggulan skor statine adalah bahwa skor tersebut mewakili rentang bukan titik tertentu. Keunggulan ini membantu melawan kecenderungan untuk memandang skor tes sebagai ukuran perbedaan individu

  Tes Penyamaan (Equating Tests)

  • • Skor yang dibuat pada satu bentuk, sangat serupa dengan

    skor peserta tes yang sama pada bentuk pertama.
  • Proses penyamaan atau lebih tepatnya membuat perbandingan, dua tes dengan level kesulitan sama (misalnya kelas sama) disebut sebagai penyamaan horizontal (horizontal equating).
  • Penyamaan juga dapat dilakukan secara vertikal, seperti ketika skor pada dua tes yang memiliki level kesulitan berbeda (mis. Kelas berbeda) dipersamakan.
  • Secara umum, proses penyemaan melibatkan menjangkarkan tes ke tes umum atau kumpulan item,

  • • Pembahasan sebelumnya mengenai item-response theory menunjukkan

  bahwa teori ini mengkalibrasikan serangkaian item tes berdasar pada bagaimana cara item itu harus dilakukan secara teoritis.

  • • Lalu teori ini membandingkan respons item sesungguhnya untuk melihat

    tingkat seberapa respons ini mendekati kinerja teoritis (biasanya diwakili dengan skor standard pada sumbu horizontal kurva respons-item).
  • Pendekatan IRT pada penyamaan melibatkan temuan equation linear yang mengubah parameter item (indeks kesulitan dan indeks diskriminasi) dari satu bentuk tes ke bentuk kedua. Proses ini disebut sebagai kaitan (linking).
  • Prosedur linking ini mengharuskan bahwa dua tes berbagi beberapa

    item umum (jangkar/anchor) atau bahwa subtes peserta tes mengikuti

    kedua tes atau tes ketiga yang mengukur ciri yang sama.
  • Prosedur penyamaan pada IRT itu ekonomis pada pengambilan sampel item, di mana sub-rangkaian item yang dipilih secara acak dikelola ke kelompok orang berbeda yang dipilih secara acak, juga dilibatkan.

  

TERIM

A

KASIH

Dokumen yang terkait

Keanekaragaman Makrofauna Tanah Daerah Pertanian Apel Semi Organik dan Pertanian Apel Non Organik Kecamatan Bumiaji Kota Batu sebagai Bahan Ajar Biologi SMA

26 317 36

FREKUENSI KEMUNCULAN TOKOH KARAKTER ANTAGONIS DAN PROTAGONIS PADA SINETRON (Analisis Isi Pada Sinetron Munajah Cinta di RCTI dan Sinetron Cinta Fitri di SCTV)

27 310 2

FREKWENSI PESAN PEMELIHARAAN KESEHATAN DALAM IKLAN LAYANAN MASYARAKAT Analisis Isi pada Empat Versi ILM Televisi Tanggap Flu Burung Milik Komnas FBPI

10 189 3

Analisis Sistem Pengendalian Mutu dan Perencanaan Penugasan Audit pada Kantor Akuntan Publik. (Suatu Studi Kasus pada Kantor Akuntan Publik Jamaludin, Aria, Sukimto dan Rekan)

136 695 18

DOMESTIFIKASI PEREMPUAN DALAM IKLAN Studi Semiotika pada Iklan "Mama Suka", "Mama Lemon", dan "BuKrim"

133 700 21

KONSTRUKSI MEDIA TENTANG KETERLIBATAN POLITISI PARTAI DEMOKRAT ANAS URBANINGRUM PADA KASUS KORUPSI PROYEK PEMBANGUNAN KOMPLEK OLAHRAGA DI BUKIT HAMBALANG (Analisis Wacana Koran Harian Pagi Surya edisi 9-12, 16, 18 dan 23 Februari 2013 )

64 565 20

PENERAPAN MEDIA LITERASI DI KALANGAN JURNALIS KAMPUS (Studi pada Jurnalis Unit Aktivitas Pers Kampus Mahasiswa (UKPM) Kavling 10, Koran Bestari, dan Unit Kegitan Pers Mahasiswa (UKPM) Civitas)

105 442 24

Pencerahan dan Pemberdayaan (Enlightening & Empowering)

0 64 2

KEABSAHAN STATUS PERNIKAHAN SUAMI ATAU ISTRI YANG MURTAD (Studi Komparatif Ulama Klasik dan Kontemporer)

5 102 24

Analisis Penyerapan Tenaga Kerja Pada Industri Kerajinan Tangan Di Desa Tutul Kecamatan Balung Kabupaten Jember.

7 76 65