butir soal tesebut dikategorikan ke dalam butir soal mudah. sopo

commit to user 125 125 Tabel 3.7 Ringkasan Hasil Analisis Kesukaran Butir No Bagian Indeks Kesukaran Tiap Butir Tes 1 2 3 4 5 6 7 8 9 10 1 PICTURE DESCRIPTION 0,8 0,5 0,6 0,6 0,6 0,4 0,6 0,7 0,5 0,55 11 12 13 14 15 16 17 18 19 20 2 QUESTION AND ANSWER 0,35 0,4 0,4 0,35 0,55 0,3 0,4 0,45 0,45 0,4 21 22 23 24 25 3 SHORT CONVERSATION 0,35 0,35 0,3 0,35 0,2 26 27 28 29 30 4 SHORT TALK 0,2 0,2 0,2 0,15 0,15 31 32 33 34 35 36 37 38 39 40 5 INCOMPLETE SENTENCES 0,5 0,45 0,5 0,65 0,8 0,75 0,7 0,7 0,45 0,2 41 42 43 44 45 46 47 48 49 50 6 EROR RECOGNITION 0,75 0,55 0,5 0,45 0,35 0,6 0,4 0,6 0,95 0,85 51 52 53 54 55 56 57 58 59 60 7 READING 0,5 0,55 0,4 0,45 0,45 0,55 0,2 0,6 0,2 0,55 Hasil analisis di atas dapat digolongkan ke dalam tiga kategori indeks kesukaran sebagai berikut: 1. Pertama, jika hasil perhitungan menunjukkan harga lebih kecil dari 0,30 0,30, butir soal tesebut dikategorikan ke dalam butir soal sukar. 2. Kedua, jika hasil perhitungan menunjukkan harga antara 0,30 sampai dengan 0,70 butir soal tesebut dikategorikan ke dalam butir soal sedang. 3. Ketiga, jika hasil perhitungan menunjukkan harga 0,71 atau lebih besar

0.70, butir soal tesebut dikategorikan ke dalam butir soal mudah. sopo

Berdasarkan kriteria pengelompokan di atas, hasil try out instrumen ini adalah sebagai berikut. Dari jumlah keseluruhan 60 soal, 8 soal atau 18 masuk ke dalam rentang besaran 0,30, yaitu soal yang termasuk kategori sukar, 45 butir soal atau 75 masuk ke dalam rentang 0,30 sampai 0,70, yaitu soal yang termasuk kategori sedang, dan 7 butir soal atau 12 masuk ke dalam rentang 0,70, yaitu soal yang termasuk kategori mudah. Pencermatan lebih lanjut menunjukkan bahwa butir soal dalam bagian picture description, incomplete sentences dan error recognition commit to user 126 126 termasuk butir soal yang dinilai cukup mudah bagi para siswa dibanding dengan bagian yang lain dengan rerata indeks kesukaran masing-masing 0,55; 0,57; dan 0,60. Bagian short talk dan short conversation dianggap paling sulit bagi siswa dengan rerata indeks kesukaran 0,18 dan 0,31. Sedangkan bagian question and answer dan reading merupakan butir yang dianggap sedang dengan rerata indek masing-masing 0,41 dan 0,445. Hasil tersebut berkorelasi dengan tingkat kesulitan soal tes TOEIC. Tes listening bagian pertama, picture description, yang hanya menuntut penempuh tes untuk mengenali gambar yang ada dan memilih satu dari pernyataan yang didengar yang paling sesuai dengan gambar yang ada dianggap tes listening yang paling mudah. Dalam tes bagian ini permasalahan yang dihadapi oleh penempuh tes hanya menjodohkan pernyataan yang didengar dengan gambar yang dihadapi sehingga permasalahan yang dihadapi penempuh tes tidaklah sangat menantang atau academically demanding . Bagian kelima, short talk, merupakan soal yang paling sulit karena penempuh tes harus mendengarkan serangkaian penjelasan atau talk yang diikuti oleh beberapa pertanyaan. Dalam menjawab pertanyaan ini penempuh tes dituntut mampu menyimak serangkaian informasi yang disampaikan dalam talk tersebut dengan baik. Tingkat kesulitan yang dihadapi penempuh tes dalam mengerjakan bagian ini sangat tinggi karena selain bahasanya semakin sulit, talk sendiri relatif lebih panjang dari bagian picture description dan short conversation. Dibanding dengan bagian tes listening yang lain, permasalahan yang dihadapi penempuh tes dalam mengerjakan bagian short talk menuntut kompetensi akademik penempuh tes yang sangat tinggi. Bagian keenam, error recognition, adalah bagian yang paling mudah. Hal ini karena selain soalnya berbentuk tertulis, permasalahan yang diangkat menyangkut pengenalan bentuk gramatika dalam konteks yang ada dalam kalimat tersebut. commit to user 127 127 Untuk lebih memahami makna temuan di atas, peneliti menggunakan paradigma yang digunakan Fernandes 1984 dan Masrun 1978 dalam membuat kriteria komposisi tes yang baik berdasarkan indeks kesukaran. Berikut tabel perbandingan kriteria komposisi mereka dengan hasil analis item facility tes yang dikembangkan untuk penelitian ini. Tabel. 3.8 Perbandingan Komposisi tes berdasarkan item facility Fernandes 1984 dan Masrun 1978 Kondisi Instrumen Penelitian ini Kriteria p Komposisi Kriteria Komposisi 0,00 – 0,30 Sukar ±25 0,00 – 0,30 Sukar ±12 0,31 – 0,70 Sedang ±50 0,31 – 0,70 Sedang ±75 0,71 – 1,0 Sulit ±25 0,71 – 1,0 Sulit ±13 Dari perbandingan di atas dapat dilihat adanya perbedaan dan persamaan antar keduanya. Hasil analisis item facility instrumen ini menunjukkan bahwa jumlah butir yang dianggap sukar dan butir yang mudah bagi siswa relatif lebih kecil dari komposisi yang ditawarkan Fernandes dan Masrun’ yaitu ±12 dan ±13 dibandingkan dengan ±25 dan ±25 . Namun demikian ada kecenderungan persamaan proposinya tingkat kesulitan butir tes instrumen ini dengan komposisi Fernandes dan Masrun; jumlah butir yang dianggap sulit dan mudah seimbang. Berdasarkan hasil perbandingan tersebut, peneliti menyimpulkan bahwa komposisi butir dalam instrumen yang digunakan dalam try-out ini dapat disejajarkan dengan komposisi tes yang baik. f Langkah keenam adalah menghitung Daya Beda Salah satu ciri tes yang baik adalah tes tersebut mempunyai daya pembeda item discrimination. Daya pembeda ini adalah kemampuan tes ini membedakan commit to user 128 128 variasi tingkat kompetensi penempuh tes, antara siswa yang pandai atau berkemampuan tinggi dan siswa yang kurang pandai atau siswa berkemampuan rendah. Tes yang mempunyai kapasitas seperti ini disebut mempunyai discriminating power Harris, 1974. Brown menyebut daya pembeda dengan istilah item discrimination yang dijelaskannya sebagai “the item facility on the particular item for the upper group usually the top 33 or so based on the total test scores minus the item facility for the lower group usually the lower 33 or so based on the total test scores” 2003: 18, yaitu tingkat kesukaran tiap butir tes yang dikerjakan oleh sekitar 33 siswa yang pandai dikurangi dengan tingkat kesulitan tes yang dikerjakan oleh sekitar 33 siswa yang kurang pandai. Untuk menghitung daya beda, Brown 2003 menawarkan teknik dengan menggunakan program Exell ® spreadsheet sebagai kelanjutan penghitungan item facility . Dari perhitungan ini, angka yang diperoleh disebut indeks diskriminasi. Dengan pertimbangan segi kepraktisan peneliti menggunakan penghitungan seperti saran Brown. Perhitungan lengkap disajikan di lampiran 8. Untuk membaca hasil perhitungan tersebut digunakan klasifikasi indeks pembeda soal adalah sebagai berikut. Jika hasil perhitungan indeks diskriminasi menunjukkan nilai: 1 di bawah angka 0,20 0,20, butir soal tersebut termasuk kategori daya beda soal jelek atau poor, 2 antara angka 0,20 sampai dengan 0,39, butir soal tersebut dikategorikan mempunyai daya beda soal sedang atau satisfactory. 3 antara angka 0,40 sampai 0,69, butir soal tersebut mempunyai daya beda soal baik atau good, dan commit to user 129 129 4 antara angka 0,70 sampai dengan 1,00; butir soal tersebut dikatagorikan ke dalam soal yang memiliki daya bedanya baik sekali atau excellent. Dari hasil perhitungan yang disajikan dalam lampiran 8 dapat dijumpai adanya beberapa butir tes yang indeks item discrimination-nya sangat rendah 0,20, namun sebaliknya tidak dijumpai butir soal yang memperoleh angka 0,70. Butir-butir soal yang terbukti memperoleh indeks rendah yang berarti lemahnya butir tes tersebut dalam membedakan tingkat kompetensi sampel penelitian ini menjadi bahan perbaikan instrumen pada langkah berikutnya. g Langkah ketuju adalah penyusunan ulang. Langkah terakhir penyusunan instrumen adalah penyususunan ulang dengan memperbaiki beberapa butir tes yang terbukti kurang efektif. Penyusunan ini dimaksudkan untuk menghasilkan kualitas instumen yang handal yang hasilnya akan menentukan kualitas penelitian eksperimen ini. Selain pencermatan dan analisis butir yang dilakukan berdasarkan hasil try out , peneliti juga memperhatikan beberapa masukan dari guru yang mereka peroleh ketika mereka berdialog dengan para siswa. Dari pengakuan siswa tentang adanya beberapa kesulitan yang mereka temui ketika mengerjakan try-out, peneliti mencermati ulang butir-butir yang menjadi perhatian siswa dan guru. b Validitas dan Reliabilitas Tes Kualitas hasil penelitian sangat tergantung pada kalibrasi instrumen yang digunakan untuk mengumpulkan data. Instrumen yang baik adalah yang berkontribusi pada tercapainya tujuan penelitian. Karenanya instrumen yang baik perlu memiliki serangkaian kualitas seperti validitas, reliabilitas, objectivitas, Borg dan Gall, 1983; commit to user 130 130 McMillan dan Schumacher, 2001; Frankel dan Whallen, 1990. Dalam konteks tes bahasa, Palmer 2008: 65 menyebutkan bahwa tes yang baik memiliki empat kualitas, yaitu validity, reliability, authenticity dan beneficial impact. Setiap ranah kualitas tersebut memberi kontribusi tertentu dalam penyusunan instrumen sesuai dengan ranahnya. Untuk memperoleh data yang baik, instrumen yang digunakan dalam penelitian ini dikembangkan mengikuti lima langkah yang disarankan Brown 2003. Selain itu penyusunannya juga mengindahkan terpenuhinya kualitas penyusunan instrumen bahasa yang baik, khususnya ranah validitas dan reliabilitas tanpa mengabaikan kualitas yang lain. 1 Validitas Secara umum konsep validitas atau validity dalam alat ukur psikometrik merujuk pada sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsinya yaitu mengukur fenomena yang sedang diteliti sehingga alat tersebut menghasilkan informasi yang benar. Seperangkat instrumen dikatakan mempunyai validitas tinggi apabila instrumen tersebut dapat menjalankan fungsi ukurnya, yaitu memberikan informasi yang sesuai dengan tujuan pengukuran tersebut dengan cermat. Jika fungsi ini tidak dipenuhi, instrument tersebut dinyatakan tidak valid. Konsep dasar validity menurut Borg dan Gall adalah “the degree to which a test measures what it purpotes to measure” 1983: 275, yaitu tingkatan atau sejauh mana kemampuan suatu alat ukur dalam mengukur apa yang seharusnya diukur. Definisi serupa juga dikemukakan para ahli seperti Harris 1974 dan Frankel dan Whallen 1990. Jika hasil pengukurannya sesuai dengan tujuan yang diharapkan, tes commit to user 131 131 tersebut disebut memiliki validitas yang tinggi. Sebaliknya tes dikatakan jelek atau tidak valid jika tes itu menghasilkan pengukuran yang salah. Validitas instrumen sangat penting dalam suatu penelitian karena jika alat ukurnya tidak valid, hasil yang diperoleh dapat melenceng dari tujuan yang telah dirumuskan. Lebih jauh McMillan dan Schumacher 2001: 239 merumuskan validity sebagai “the extent to which inferences made on the basis of numerical scores are appropriate, meaningful, and useful ”. Menurut mereka konsep validitas ini tidak hanya mengacu pada ketepatan hasil pengukuran, namun juga informasi dari skor yang diperoleh dapat menjadi kesimpulan yang berarti dan bermanfaat dalam menjelaskan hakekat fenomena yang diukur. Konsekuensi pemakaian tes yang tidak valid, seperti yang dinyatakan Borg dan Gall, adalah “…can lead to erroneous research conclusion” 1983: 275, yaitu dapat menjurus pada tercapainya kesimpulan penelitian yang salah. Validitas mencakup beberapa ranah. Beberapa literatur menyebutkan ranah tersebut mencakup, criterion validity, content validity, concurrent validity, predictive validity dan construct validity Borg dan Gall, 1983; McMillan dan Schumacher, 2001; Lissitz dan Samuelsen, 2007. Dalam penelitian pendidikan, dua diantaranya content validity dan construct validity diangap sangat penting McMillan dan Schumacher, 2001: 240. Dalam penelitian ini, peneliti juga memberi perhatian yang besar pada terpenuhinya ranah validitas isi atau content validity dan validitas konstruk atau construct validity tanpa mengabaikan ranah yang lain Validitas isi atau content validity menyangkut sejauh mana tes tersebut mencerminkan lingkup yang perlu dicakup di dalam rancangan permasalahan yang diteliti. Borg dan Gall 1983: 276 mendefinisikan content validity sebagai “the commit to user 132 132 degree to which the sample of test item represents the the content that the test is designed to measure ”. Senada dengan Borg dan Gall, McMillan dan Schumacher 2001: 240 menggambarkan content validity sebagai …“how well the content of the test or other assessment represents a larger domain of content or task” . Kedua kutipan di atas menunjukkan bahwa validitas isi mempermasalahkan keterkaitan antara butir-butir tes dengan hakikat isi substansi atau content yang diteliti. Jika suatu tes dirancang sebagai alat untuk mengukur prestasi pembelajaran, tes tersebut harus secara reperesentatif mencerminkan lingkup materi atau isi pembelajaran tersebut. Dalam kaitan penelitian pendidikan, Borg dan Gall menjelaskan cara mengungkap content validity adalah “… is appraised usually by an objective comparison of test items with curriculum content” 1983: 276, yaitu dinilai dengan membuat perbandingan secara objektif terhadap butir-butir tes tersebut dengan isi kurikulum. Mengikuti prosedur tersebut, peneliti membandingkan butir tes dalam instrumen ini dengan isi kurikulum yang tertuang dalam buku teks yang dipakai. Periksa tabel 3.9 berikut. Dari perbandingan tersebut dapat diungkapkan bahwa butir-butir soal yang dicakup dalam instrumen ini benar-benar dikembangkan dari lingkup materi yang diajarkan dalam proses perlakuan pembelajaran. Kesesuaian ini tidak hanya tercermin melalui butir-butirnya, tetapi pemilihan jenis tes yang digunakan juga didasarkan atas kegiatan pembelajaran dan latihan yang dilakukan di kelas. Dari perbandingan tersebut dapat diketahui bahwa butir butir tes yang dikembangkan sangat terkait dengan cakupan kegiatan pembelajaran di kelas yang tercermin dalam cakupan tiap unit dalam buku teks yang dikembangkan. commit to user 133 133 Tabel 3.9 Korelasi antara Instrumen Penelitian dengan Unit dalam Buku Teks Butir Instrumen Penelitian Persamaannya dengan Unit dalam Buku Teks Bagian Topik Topik dan task 1 Picture Description Preactivities task 1-6, 8-9 2 Question Answer While-teaching Activities 3 Short conversation Task 3-5 listening 4 Short Talk Task 6 -7 Grammar Focus 5 Incomp. Sentences Task 10 11-ttg. Grammar dan Vocabulary 6 Error Recognition Error Recognition 7 Reading Reading Jumlah butir soal Jumlah butir soal 60 Construct Validity menyangkut masalah sejauh mana butir tes yang dicakup dalam instrumen mencerminkan aspek penting yang membentuk keseluruhan konsep kompetensi berbahasa Inggris serta proses pengembangannya. Richards dan Schmidts 2002: 112 mendefinisikan validitas konstruk sebagai “… the extent to which the items in a test reflect the essential aspects of the theory on which the test is based” . Senada dengan itu Borg dan Gall 1983: 280 menjelaskan construct validity sebagai “the extent to which a particular test can be shown to measure a hypothetical construct” . Sementara itu dalam mendefinisikan construct validity, Palmer 2008 lebih menekankan pentingnya fungsi alat ukur sebagai berikut The meaningfulness of the interpretations that we make on the basis of test scores 2008: 10. Tiga kutipan di atas menunjukkan bahwa construct validity berkait dengan sejauh mana hakikat butir-butir yang tercakup dalam instrumen tersebut dapat bermakna dalam mencerminkan hakekat teori atau construct yang diteliti. Sebagaimana yang telah disebutkan pada halaman 119 bahwa instrumen yang digunakan dalam penelitian ini dikembangkan untuk mengukur kompetensi berbahasa commit to user 134 134 Inggris siswa dalam tindak komunikasi. Acuan penyusunannya adalah format yang dipakai dalam naskah tes TOEIC dan UN bahasa Inggris SMK. Penyusunannya dilakukan melalui pengembangan butir-butir tes yang mencerminkan lingkup kompetensi berbahasa Inggris. Cakupan ini meliputi penguasaan pengetahuan kebahasaan serta kemampuan mereka dalam menggunakannya dalam situasi rekaan simulated situation dengan melibatkan keempat keterampilan berbahasa dalam tindak komunikasi. Berdasarkan kenyataan tersebut dapat dikatakan bahwa keseluruhan tes ini benar-benar mengukur pengetahuan dan kompetensi siswa dalam menggunakan bahasa Inggris dalam berkomunikasi. Asumsi validitas ini dibangun berdasarkan argumentasi Moritoshi 2001 tentang validitas tes TOEIC sebagai alat ukur keempat keterampilan berbahasa meskipun tes TOEIC hanya melibatkan tes listening dan reading saja. Mengingat format dan cakupan tes ini dikembangkan berdasarkan acuan tes TOEIC yang telah diakui secara internasional sebagai alat ukur kompetensi berbahasa Inggris bagi penutur bukan asli atau non-native speakers, argumentasi ini dapat diterapkan dalam pemenuhan aspek construct validity instrumen ini. Dengan demikian tes ini juga memenuhi construct validity. Dengan terpenuhinya aspek content dan construct validity, tes ini dapat dinilai telah memenuhi rambu-rambu penyusunan instrumen yang baik untuk kepentingan penelitian ini. 2 Reliabilitas Reliabilitas tes menunjukkan keajegan hasil yang diperoleh dari setiap kali pemberian tes atau test administration. Hal tersebut ditegaskan Borg dan Gall bahwa reliabilitas instrumen harus mencerminkan “the level of internal consistency or stability of measuring device over time” 1983: 281, yaitu tingkat konsistensi atau commit to user 135 135 keajegan kinerja internal instrumen kapanpun tes tersebut dipakai. Lebih lanjut Frankel dan Wallen menyebutkan konsep reliability sebagai “the consistency of the scores obtained—how consistent they are for each individual from one administration of an instrument to another and from one set of item to another” 1990: 133. Keajegan atau konsistensi tesebut ditunjukkan melalui keseluruhan perangkat tes kapanpun digunakannya. Berbagai teknik untuk mengukur indeks reliabilitas tes telah ditawarkan dalam literatur seperti test-retest, equivalent forms, equivalent forms plus test-retest dan internal consistency . Dari berbagai teknik di atas internal consistency dipilih dalam menentukan relibilitas instrument penelitian ini karena praktis penerapannya. Dari beberapa teknik yang dapat diterapkan, peneliti memilih teknik belah dua split half Frankel dan Wallen, 1990: 135-136 karena sederhana dan praktis. Penghitungan reliabilitas dengan teknik belah dua dilakukan dengan mengelompokkan jawaban siswa ke dalam dua kelompok berdasarkan nomor ganjil dan nomor genap. Selanjutnya model Spearman’s rho digunakan untuk menghitung koefisien korelasi setengah tes yang bernomor ganjil terhadap setengah yang lainnya yang bernomor genap. Hasil hitungan coefficient correlation ini berupa tingkatan sejauh mana kedua bagian tes tersebut mencerminkan kinerja yang sama atau mirip. Coefficient angka perolehan correlation setengah yang lain diasumsikan sama. Penghitungan dilakukan dengan menggunakan piranti lunak SPSS versi 17 untuk memperoleh perhitungan yang akurat, cepat dan mudah. Adapun ringkasan hasilnya dapat ditampilkan dalam tabel 3.10 dan 3.11 berikut. Pertama ditampilkan hasil hitungan statistik deskriptif kemudian penghitungan korelasinya . Tabel ……….. Statistik Deskriptif commit to user 136 136 Tabel 3.10 Data Statistik Deskriptif Butir Tes Ganjil dan Genap Mean Std. Deviation N Nilai Tes Ganjil 9,6333 3,24285 30 Nilai Tes Genap 9,1667 3,92238 30 Tabel di atas menyebutkan bahwa jumlah butir tes keseluruhan adalah 60 yang dikelompokkan menjadi dua; 30 ganjil dan 30 genap. Nilai rerata tes ganjil adalah 9,63 dengan standar deviasi sebesar 3,24. Sedangkan nilai rerata tes genap adalah 9,16 dengan standar deviasi sebesar 3,92. Adapun hasil perhitungan korelasinya adalah sebagai berikut. Tabel 3.11 Hasil Analisis Reliabilitas Instrumen Hasil Komputasi Split Half dengan Spearman’s rho Correlations Nilai Tes Ganjil Nilai Tes Genap Correlation Coefficient 1.000 .497 Sig. 2-tailed . .005 Nilai Tes Ganjil N 30 30 Correlation Coefficient .497 1.000 Sig. 2-tailed .005 . Spearmans rho Nilai Tes Genap N 30 30 . Correlation is significant at the 0.01 level 2-tailed. Dari hasil penghitungan reliabilitas instrumen yang disajikan dalam tabel di atas dapat dilihat bahwa besaran koefisient korelasi antara butir genap dengan butir ganjil sangat tinggi yaitu 0,49. Harga koefisient tersebut ditunjukkan dengan tingkat kepercayaan yang tinggi mencapai 0,01 atau 1 . Dari perhitungan ini dapat disimpulkan bahwa secara keseluruhan instrumen ini memiliki internal konsistensi yang tinggi sehingga dapat dinilai sebagai instrumen yang reliable. commit to user 137 137

2. Bahan Ajar Bahasa Inggris