commit to user
125
125
Tabel 3.7 Ringkasan Hasil Analisis Kesukaran Butir
No Bagian
Indeks Kesukaran Tiap Butir Tes
1 2 3 4 5 6 7 8 9 10 1
PICTURE DESCRIPTION
0,8 0,5 0,6 0,6 0,6 0,4 0,6 0,7 0,5 0,55 11 12 13 14 15 16 17 18 19 20
2 QUESTION AND
ANSWER 0,35 0,4 0,4 0,35 0,55 0,3 0,4 0,45 0,45 0,4
21 22 23 24 25 3
SHORT CONVERSATION
0,35 0,35
0,3 0,35
0,2 26 27 28 29 30
4 SHORT TALK
0,2 0,2
0,2 0,15
0,15 31 32 33 34 35 36 37 38 39 40
5 INCOMPLETE
SENTENCES 0,5 0,45 0,5 0,65 0,8 0,75 0,7 0,7 0,45 0,2
41 42 43 44 45 46 47 48 49 50 6
EROR RECOGNITION
0,75 0,55 0,5 0,45 0,35 0,6 0,4 0,6 0,95 0,85 51 52 53 54 55 56 57 58 59 60
7 READING
0,5 0,55 0,4 0,45 0,45 0,55 0,2 0,6 0,2 0,55
Hasil analisis di atas dapat digolongkan ke dalam tiga kategori indeks kesukaran sebagai berikut:
1. Pertama, jika hasil perhitungan menunjukkan harga lebih kecil dari 0,30 0,30, butir soal tesebut dikategorikan ke dalam butir soal sukar.
2. Kedua, jika hasil perhitungan menunjukkan harga antara 0,30 sampai dengan 0,70 butir soal tesebut dikategorikan ke dalam butir soal sedang.
3. Ketiga, jika hasil perhitungan menunjukkan harga 0,71 atau lebih besar
0.70, butir soal tesebut dikategorikan ke dalam butir soal mudah. sopo
Berdasarkan kriteria pengelompokan di atas, hasil try out instrumen ini adalah sebagai berikut. Dari jumlah keseluruhan 60 soal, 8 soal atau 18 masuk ke dalam
rentang besaran 0,30, yaitu soal yang termasuk kategori sukar, 45 butir soal atau 75
masuk ke dalam rentang 0,30 sampai 0,70, yaitu soal yang termasuk kategori
sedang, dan 7 butir soal atau 12 masuk ke dalam rentang 0,70, yaitu soal yang
termasuk kategori mudah. Pencermatan lebih lanjut menunjukkan bahwa butir soal dalam bagian picture description, incomplete sentences dan error recognition
commit to user
126
126
termasuk butir soal yang dinilai cukup mudah bagi para siswa dibanding dengan bagian yang lain dengan rerata indeks kesukaran masing-masing 0,55; 0,57; dan 0,60.
Bagian short talk dan short conversation dianggap paling sulit bagi siswa dengan rerata indeks kesukaran 0,18 dan 0,31. Sedangkan bagian question and answer dan
reading merupakan butir yang dianggap sedang dengan rerata indek masing-masing
0,41 dan 0,445. Hasil tersebut berkorelasi dengan tingkat kesulitan soal tes TOEIC. Tes
listening bagian pertama, picture description, yang hanya menuntut penempuh tes
untuk mengenali gambar yang ada dan memilih satu dari pernyataan yang didengar yang paling sesuai dengan gambar yang ada dianggap tes listening yang paling
mudah. Dalam tes bagian ini permasalahan yang dihadapi oleh penempuh tes hanya menjodohkan pernyataan yang didengar dengan gambar yang dihadapi sehingga
permasalahan yang dihadapi penempuh tes tidaklah sangat menantang atau academically demanding
. Bagian kelima, short talk, merupakan soal yang paling sulit karena penempuh tes harus mendengarkan serangkaian penjelasan atau talk yang
diikuti oleh beberapa pertanyaan. Dalam menjawab pertanyaan ini penempuh tes dituntut mampu menyimak serangkaian informasi yang disampaikan dalam talk
tersebut dengan baik. Tingkat kesulitan yang dihadapi penempuh tes dalam mengerjakan bagian ini sangat tinggi karena selain bahasanya semakin sulit, talk
sendiri relatif lebih panjang dari bagian picture description dan short conversation. Dibanding dengan bagian tes listening yang lain, permasalahan yang dihadapi
penempuh tes dalam mengerjakan bagian short talk menuntut kompetensi akademik
penempuh tes yang sangat tinggi. Bagian keenam, error recognition, adalah bagian
yang paling mudah. Hal ini karena selain soalnya berbentuk tertulis, permasalahan yang diangkat menyangkut pengenalan bentuk gramatika dalam konteks yang ada
dalam kalimat tersebut.
commit to user
127
127
Untuk lebih memahami makna temuan di atas, peneliti menggunakan paradigma yang digunakan Fernandes 1984 dan Masrun 1978 dalam membuat
kriteria komposisi tes yang baik berdasarkan indeks kesukaran. Berikut tabel perbandingan kriteria komposisi mereka dengan hasil analis item facility tes yang
dikembangkan untuk penelitian ini. Tabel. 3.8 Perbandingan Komposisi tes berdasarkan item facility
Fernandes 1984 dan Masrun 1978 Kondisi Instrumen Penelitian ini
Kriteria p Komposisi
Kriteria Komposisi
0,00 – 0,30 Sukar ±25
0,00 – 0,30 Sukar ±12
0,31 – 0,70 Sedang ±50
0,31 – 0,70 Sedang ±75
0,71 – 1,0 Sulit ±25
0,71 – 1,0 Sulit ±13
Dari perbandingan di atas dapat dilihat adanya perbedaan dan persamaan antar keduanya. Hasil analisis item facility instrumen ini menunjukkan bahwa jumlah butir
yang dianggap sukar dan butir yang mudah bagi siswa relatif lebih kecil dari komposisi yang ditawarkan Fernandes dan Masrun’ yaitu ±12 dan ±13
dibandingkan dengan ±25 dan ±25 . Namun demikian ada kecenderungan persamaan proposinya tingkat kesulitan butir tes instrumen ini dengan komposisi
Fernandes dan Masrun; jumlah butir yang dianggap sulit dan mudah seimbang. Berdasarkan hasil perbandingan tersebut, peneliti menyimpulkan bahwa komposisi
butir dalam instrumen yang digunakan dalam try-out ini dapat disejajarkan dengan komposisi tes yang baik.
f Langkah keenam adalah menghitung Daya Beda Salah satu ciri tes yang baik adalah tes tersebut mempunyai daya pembeda
item discrimination. Daya pembeda ini adalah kemampuan tes ini membedakan
commit to user
128
128
variasi tingkat kompetensi penempuh tes, antara siswa yang pandai atau berkemampuan tinggi dan siswa yang kurang pandai atau siswa berkemampuan
rendah. Tes yang mempunyai kapasitas seperti ini disebut mempunyai discriminating power
Harris, 1974. Brown menyebut daya pembeda dengan istilah item discrimination
yang dijelaskannya sebagai “the item facility on the particular item for the upper group usually the top 33 or so based on the total test scores minus the
item facility for the lower group usually the lower 33 or so based on the total test scores”
2003: 18, yaitu tingkat kesukaran tiap butir tes yang dikerjakan oleh sekitar 33 siswa yang pandai dikurangi dengan tingkat kesulitan tes yang dikerjakan oleh
sekitar 33 siswa yang kurang pandai. Untuk menghitung daya beda, Brown 2003 menawarkan teknik dengan
menggunakan program Exell ® spreadsheet sebagai kelanjutan penghitungan item
facility . Dari perhitungan ini, angka yang diperoleh disebut indeks diskriminasi.
Dengan pertimbangan segi kepraktisan peneliti menggunakan penghitungan seperti saran Brown. Perhitungan lengkap disajikan di lampiran 8.
Untuk membaca hasil perhitungan tersebut digunakan klasifikasi indeks pembeda soal adalah sebagai berikut. Jika hasil perhitungan indeks diskriminasi
menunjukkan nilai: 1
di bawah angka 0,20 0,20, butir soal tersebut termasuk kategori daya
beda soal jelek atau poor, 2
antara angka 0,20 sampai dengan 0,39, butir soal tersebut dikategorikan mempunyai daya beda soal sedang atau satisfactory.
3 antara angka 0,40 sampai 0,69, butir soal tersebut mempunyai daya beda
soal baik atau good, dan
commit to user
129
129
4 antara angka 0,70 sampai dengan 1,00; butir soal tersebut dikatagorikan ke
dalam soal yang memiliki daya bedanya baik sekali atau excellent. Dari hasil perhitungan yang disajikan dalam lampiran 8 dapat dijumpai adanya
beberapa butir tes yang indeks item discrimination-nya sangat rendah 0,20, namun sebaliknya tidak dijumpai butir soal yang memperoleh angka 0,70. Butir-butir soal
yang terbukti memperoleh indeks rendah yang berarti lemahnya butir tes tersebut dalam membedakan tingkat kompetensi sampel penelitian ini menjadi bahan
perbaikan instrumen pada langkah berikutnya. g Langkah ketuju adalah penyusunan ulang.
Langkah terakhir penyusunan instrumen adalah penyususunan ulang dengan memperbaiki beberapa butir tes yang terbukti kurang efektif. Penyusunan ini
dimaksudkan untuk menghasilkan kualitas instumen yang handal yang hasilnya akan menentukan kualitas penelitian eksperimen ini.
Selain pencermatan dan analisis butir yang dilakukan berdasarkan hasil try out
, peneliti juga memperhatikan beberapa masukan dari guru yang mereka peroleh ketika mereka berdialog dengan para siswa. Dari pengakuan siswa tentang adanya
beberapa kesulitan yang mereka temui ketika mengerjakan try-out, peneliti mencermati ulang butir-butir yang menjadi perhatian siswa dan guru.
b Validitas dan Reliabilitas Tes
Kualitas hasil penelitian sangat tergantung pada kalibrasi instrumen yang digunakan untuk mengumpulkan data. Instrumen yang baik adalah yang berkontribusi
pada tercapainya tujuan penelitian. Karenanya instrumen yang baik perlu memiliki serangkaian kualitas seperti validitas, reliabilitas, objectivitas, Borg dan Gall, 1983;
commit to user
130
130
McMillan dan Schumacher, 2001; Frankel dan Whallen, 1990. Dalam konteks tes bahasa, Palmer 2008: 65 menyebutkan bahwa tes yang baik memiliki empat
kualitas, yaitu validity, reliability, authenticity dan beneficial impact. Setiap ranah kualitas tersebut memberi kontribusi tertentu dalam penyusunan instrumen sesuai
dengan ranahnya. Untuk memperoleh data yang baik, instrumen yang digunakan dalam
penelitian ini dikembangkan mengikuti lima langkah yang disarankan Brown 2003. Selain itu penyusunannya juga mengindahkan terpenuhinya kualitas penyusunan
instrumen bahasa yang baik, khususnya ranah validitas dan reliabilitas tanpa mengabaikan kualitas yang lain.
1 Validitas
Secara umum konsep validitas atau validity dalam alat ukur psikometrik merujuk pada sejauh mana ketepatan dan kecermatan suatu alat ukur dalam
melakukan fungsinya yaitu mengukur fenomena yang sedang diteliti sehingga alat tersebut menghasilkan informasi yang benar. Seperangkat instrumen dikatakan
mempunyai validitas tinggi apabila instrumen tersebut dapat menjalankan fungsi ukurnya, yaitu memberikan informasi yang sesuai dengan tujuan pengukuran tersebut
dengan cermat. Jika fungsi ini tidak dipenuhi, instrument tersebut dinyatakan tidak valid.
Konsep dasar validity menurut Borg dan Gall adalah “the degree to which a test measures what it purpotes to measure”
1983: 275, yaitu tingkatan atau sejauh mana kemampuan suatu alat ukur dalam mengukur apa yang seharusnya diukur.
Definisi serupa juga dikemukakan para ahli seperti Harris 1974 dan Frankel dan Whallen 1990. Jika hasil pengukurannya sesuai dengan tujuan yang diharapkan, tes
commit to user
131
131
tersebut disebut memiliki validitas yang tinggi. Sebaliknya tes dikatakan jelek atau tidak valid jika tes itu menghasilkan pengukuran yang salah. Validitas instrumen
sangat penting dalam suatu penelitian karena jika alat ukurnya tidak valid, hasil yang diperoleh dapat melenceng dari tujuan yang telah dirumuskan.
Lebih jauh McMillan dan Schumacher 2001: 239 merumuskan validity sebagai “the extent to which inferences made on the basis of numerical scores are
appropriate, meaningful, and useful ”. Menurut mereka konsep validitas ini tidak
hanya mengacu pada ketepatan hasil pengukuran, namun juga informasi dari skor yang diperoleh dapat menjadi kesimpulan yang berarti dan bermanfaat dalam
menjelaskan hakekat fenomena yang diukur. Konsekuensi pemakaian tes yang tidak valid, seperti yang dinyatakan Borg dan Gall, adalah “…can lead to erroneous
research conclusion” 1983: 275, yaitu dapat menjurus pada tercapainya kesimpulan
penelitian yang salah. Validitas mencakup beberapa ranah. Beberapa literatur menyebutkan ranah
tersebut mencakup, criterion validity, content validity, concurrent validity, predictive validity dan construct validity
Borg dan Gall, 1983; McMillan dan Schumacher, 2001; Lissitz dan Samuelsen, 2007. Dalam penelitian pendidikan, dua diantaranya
content validity dan construct validity diangap sangat penting McMillan dan
Schumacher, 2001: 240. Dalam penelitian ini, peneliti juga memberi perhatian yang besar pada terpenuhinya ranah validitas isi atau content validity dan validitas konstruk
atau construct validity tanpa mengabaikan ranah yang lain Validitas isi atau content validity menyangkut sejauh mana tes tersebut
mencerminkan lingkup yang perlu dicakup di dalam rancangan permasalahan yang diteliti. Borg dan Gall 1983: 276 mendefinisikan content validity sebagai “the
commit to user
132
132
degree to which the sample of test item represents the the content that the test is designed to measure
”. Senada dengan Borg dan Gall, McMillan dan Schumacher 2001: 240 menggambarkan content validity sebagai …“how well the content of the
test or other assessment represents a larger domain of content or task” . Kedua
kutipan di atas menunjukkan bahwa validitas isi mempermasalahkan keterkaitan antara butir-butir tes dengan hakikat isi substansi atau content yang diteliti. Jika suatu
tes dirancang sebagai alat untuk mengukur prestasi pembelajaran, tes tersebut harus secara reperesentatif mencerminkan lingkup materi atau isi pembelajaran tersebut.
Dalam kaitan penelitian pendidikan, Borg dan Gall menjelaskan cara mengungkap content validity adalah “… is appraised usually by an objective
comparison of test items with curriculum content” 1983: 276, yaitu dinilai dengan
membuat perbandingan secara objektif terhadap butir-butir tes tersebut dengan isi kurikulum. Mengikuti prosedur tersebut, peneliti membandingkan butir tes dalam
instrumen ini dengan isi kurikulum yang tertuang dalam buku teks yang dipakai. Periksa tabel 3.9 berikut.
Dari perbandingan tersebut dapat diungkapkan bahwa butir-butir soal yang dicakup dalam instrumen ini benar-benar dikembangkan dari lingkup materi yang
diajarkan dalam proses perlakuan pembelajaran. Kesesuaian ini tidak hanya tercermin melalui butir-butirnya, tetapi pemilihan jenis tes yang digunakan juga didasarkan atas
kegiatan pembelajaran dan latihan yang dilakukan di kelas. Dari perbandingan tersebut dapat diketahui bahwa butir butir tes yang dikembangkan sangat terkait
dengan cakupan kegiatan pembelajaran di kelas yang tercermin dalam cakupan tiap unit dalam buku teks yang dikembangkan.
commit to user
133
133
Tabel 3.9 Korelasi antara Instrumen Penelitian dengan Unit dalam Buku Teks Butir Instrumen Penelitian
Persamaannya dengan Unit dalam Buku Teks Bagian Topik
Topik dan
task 1
Picture Description Preactivities
task 1-6, 8-9 2
Question Answer While-teaching Activities
3 Short conversation
Task 3-5 listening
4 Short Talk
Task 6 -7 Grammar Focus
5 Incomp. Sentences
Task 10 11-ttg. Grammar dan Vocabulary
6 Error Recognition
Error Recognition 7
Reading Reading
Jumlah butir soal Jumlah butir soal 60
Construct Validity menyangkut masalah sejauh mana butir tes yang dicakup
dalam instrumen mencerminkan aspek penting yang membentuk keseluruhan konsep kompetensi berbahasa Inggris serta proses pengembangannya. Richards dan Schmidts
2002: 112 mendefinisikan validitas konstruk sebagai “… the extent to which the items in a test reflect the essential aspects of the theory on which the test is based”
. Senada dengan itu Borg dan Gall 1983: 280 menjelaskan construct validity sebagai
“the extent to which a particular test can be shown to measure a hypothetical construct”
. Sementara itu dalam mendefinisikan construct validity, Palmer 2008 lebih menekankan pentingnya fungsi alat ukur sebagai berikut The meaningfulness of
the interpretations that we make on the basis of test scores 2008: 10. Tiga kutipan
di atas menunjukkan bahwa construct validity berkait dengan sejauh mana hakikat butir-butir yang tercakup dalam instrumen tersebut dapat bermakna dalam
mencerminkan hakekat teori atau construct yang diteliti. Sebagaimana yang telah disebutkan pada halaman 119 bahwa instrumen yang
digunakan dalam penelitian ini dikembangkan untuk mengukur kompetensi berbahasa
commit to user
134
134
Inggris siswa dalam tindak komunikasi. Acuan penyusunannya adalah format yang dipakai dalam naskah tes TOEIC dan UN bahasa Inggris SMK. Penyusunannya
dilakukan melalui pengembangan butir-butir tes yang mencerminkan lingkup kompetensi berbahasa Inggris. Cakupan ini meliputi penguasaan pengetahuan
kebahasaan serta kemampuan mereka dalam menggunakannya dalam situasi rekaan simulated situation dengan melibatkan keempat keterampilan berbahasa dalam
tindak komunikasi. Berdasarkan kenyataan tersebut dapat dikatakan bahwa keseluruhan tes ini benar-benar mengukur pengetahuan dan kompetensi siswa dalam
menggunakan bahasa Inggris dalam berkomunikasi. Asumsi validitas ini dibangun berdasarkan argumentasi Moritoshi 2001 tentang validitas tes TOEIC sebagai alat
ukur keempat keterampilan berbahasa meskipun tes TOEIC hanya melibatkan tes listening
dan reading saja. Mengingat format dan cakupan tes ini dikembangkan berdasarkan acuan tes TOEIC yang telah diakui secara internasional sebagai alat ukur
kompetensi berbahasa Inggris bagi penutur bukan asli atau non-native speakers, argumentasi ini dapat diterapkan dalam pemenuhan aspek construct validity
instrumen ini. Dengan demikian tes ini juga memenuhi construct validity. Dengan terpenuhinya aspek content dan construct validity, tes ini dapat dinilai
telah memenuhi rambu-rambu penyusunan instrumen yang baik untuk kepentingan penelitian ini.
2 Reliabilitas
Reliabilitas tes
menunjukkan keajegan
hasil yang diperoleh dari setiap kali pemberian tes atau test administration. Hal tersebut ditegaskan Borg dan Gall bahwa
reliabilitas instrumen harus mencerminkan “the level of internal consistency or stability of measuring device over time”
1983: 281, yaitu tingkat konsistensi atau
commit to user
135
135
keajegan kinerja internal instrumen kapanpun tes tersebut dipakai. Lebih lanjut Frankel dan Wallen menyebutkan konsep reliability sebagai “the consistency of the
scores obtained—how consistent they are for each individual from one administration of an instrument to another and from one set of item to another”
1990: 133. Keajegan atau konsistensi tesebut ditunjukkan melalui keseluruhan perangkat tes
kapanpun digunakannya. Berbagai teknik untuk mengukur indeks reliabilitas tes telah ditawarkan dalam
literatur seperti test-retest, equivalent forms, equivalent forms plus test-retest dan internal consistency
. Dari berbagai teknik di atas internal consistency dipilih dalam menentukan relibilitas instrument penelitian ini karena praktis penerapannya. Dari
beberapa teknik yang dapat diterapkan, peneliti memilih teknik belah dua split half Frankel dan Wallen, 1990: 135-136 karena sederhana dan praktis.
Penghitungan reliabilitas dengan teknik belah dua dilakukan dengan mengelompokkan jawaban siswa ke dalam dua kelompok berdasarkan nomor ganjil
dan nomor genap. Selanjutnya model Spearman’s rho digunakan untuk menghitung koefisien korelasi setengah tes yang bernomor ganjil terhadap setengah yang lainnya
yang bernomor genap. Hasil hitungan coefficient correlation ini berupa tingkatan sejauh mana kedua bagian tes tersebut mencerminkan kinerja yang sama atau mirip.
Coefficient angka perolehan correlation setengah yang lain diasumsikan sama.
Penghitungan dilakukan dengan menggunakan piranti lunak SPSS versi 17 untuk memperoleh perhitungan yang akurat, cepat dan mudah. Adapun ringkasan hasilnya
dapat ditampilkan dalam tabel 3.10 dan 3.11 berikut. Pertama ditampilkan hasil hitungan statistik deskriptif kemudian penghitungan korelasinya
. Tabel ……….. Statistik Deskriptif
commit to user
136
136
Tabel 3.10 Data Statistik Deskriptif Butir Tes Ganjil dan Genap Mean
Std. Deviation N
Nilai Tes Ganjil 9,6333
3,24285 30
Nilai Tes Genap 9,1667
3,92238 30
Tabel di atas menyebutkan bahwa jumlah butir tes keseluruhan adalah 60 yang dikelompokkan menjadi dua; 30 ganjil dan 30 genap. Nilai rerata tes ganjil adalah
9,63 dengan standar deviasi sebesar 3,24. Sedangkan nilai rerata tes genap adalah 9,16 dengan standar deviasi sebesar 3,92. Adapun hasil perhitungan korelasinya adalah
sebagai berikut. Tabel 3.11 Hasil Analisis Reliabilitas Instrumen
Hasil Komputasi Split Half dengan Spearman’s rho Correlations
Nilai Tes Ganjil Nilai Tes Genap
Correlation Coefficient 1.000
.497 Sig. 2-tailed
. .005
Nilai Tes Ganjil
N 30
30 Correlation Coefficient
.497 1.000
Sig. 2-tailed .005
. Spearmans rho
Nilai Tes Genap
N 30
30 . Correlation is significant at the 0.01 level 2-tailed.
Dari hasil penghitungan reliabilitas instrumen yang disajikan dalam tabel di atas dapat dilihat bahwa besaran koefisient korelasi antara butir genap dengan butir
ganjil sangat tinggi yaitu 0,49. Harga koefisient tersebut ditunjukkan dengan tingkat kepercayaan yang tinggi mencapai 0,01 atau 1 . Dari perhitungan ini dapat
disimpulkan bahwa secara keseluruhan instrumen ini memiliki internal konsistensi yang tinggi sehingga dapat dinilai sebagai instrumen yang reliable.
commit to user
137
137
2. Bahan Ajar Bahasa Inggris