Skema Kerangka Konseptual Temuan Penelitian 1. Uji Validitas TOAFL

11 Validitas kriteria mengacu kepada kesesuaian antara hasil suatu tes dengan hasil tes lain yang digunakan sebagai kriteria. Kriteria yang digunakan untuk menetapkan tingkat kesesuaian itu dapat diambil dari tes sejenis yang diketahui cirri-cirinya sebagai tes yang baik, dan yang diselenggarakan pada saat yang hampir bersamaan. Validitas ini juga dikenal sebagai validitas kesetaraan waktu. Sementara itu, validitas konstruk merupakan sebuah konsep atau teori yang mendasari penggunaan jenis kemampuan, termasuk kemampuan berbahasa. Pembuktiaan adanya validitas konstruk merupakan usaha untuk menunjukkan bahwa skor yang dihasilkan suatu tes benar-benar mencerminkan konstruk yang sama dengan kemampuan yang dijadikan sebagai sasaran pengukurannya. Dalam tes kemampuan qirâ’ah membaca, misalnya, urusan validitas konstruk menyangkut pembuktian apakah skor yang dihasilkan benar-benar mencerminkan jenis dan rincian kemampuan membaca yang sama dengan jenis dan rincian kemampuan yang diperlukan untuk memahami bacaan. 11 Yang akan dibuktikan dalam penelitian ini adalah tingkat validitas kriteria TOAFL, bukan validitas isi, karena diukur adalah hasil jawaban peserta tes dilihat dari kesesuaiannya dengan jawaban benar yang telah dirancang. Sementara itu, reliabilitas merupakan cirri tes yang memiliki kemampuan untuk menghasilkan pengukuran yang ajeg, tidak berubah-rubah, seandainya digunakan secara berulang-ulang pada sasaran yang sama. 12 Dengan kata lain, reliabilitas terkait bukan dengan tesnya sebagai alat ukur, melainkan dengan hasil pengukurannya dalam bentuk skor yang ajeg. Skor sebagai hasil pengukuran itulah yang seharusnya ajeg, tidak berubah-ubah. 13 Dengan ciri keajegan itu, peserta tes yang sama seharusnya memperoleh skor yang hampir sama pula, seandainya ia kembali mengerjakan tes yang sama, pada kesempatan yang berbeda.

E. Skema Kerangka Konseptual

Kerangka teori tersebut dalam diskemakan sebagai berikut: 11 Djiwandoro, M. Soenardi, Loc.cit. 12 Sumarna Surapranata, Analisis Validitas …, h. 86. 13 Lihat Rusydî Ah mad Thu‘aimah, Manâhij Tadrîs al-Lughah al-Arabiyyah bi al-Talîm al-Asâsî, Kairo: Dâr al-Fikr al- ‗Arabî, 2001. 12 Jadi, visi dan misi tes menentukan tujuan tes untuk apa diujikan; sedangkan tujuan merupakan dasar penetapan materi tes misalnya, untuk menguji tingkat pemahaman peserta mendengar dan membaca teks Arab, sekaligus menentukan jenis tes yang dipilih multiple choise atau yang lain, proficiency atau achievement test. Jika dimaksudkan untuk menguji pengetahuan umum tidak terbatas pada apa yang telah diperoleh peserta, maka proficiency test merupakan pilihan yang tepat. Agar praktis dan komprehensif, mencakup berbagai aspek keterampilan pasif dalam berbahasa Arab, TOAFL yang berbentuk multiple choise dan relatif menyeluruh merupakan alternatif tes yang tepat. Hanya saja, TOAFL masih perlu diuji coba validitas dan reliabilitas. Karena itu, agar menghasilkan TOAFL yang valid dan reliabel, jawaban peserta tes perlu diukur atau dihitung tingkat validitas dan reliabilitasnya. Tujuan Tes Materi Bahasa Jenis Tes Bahasa Validitas dan Reliabilitas TOAFL Visi Misi TOAFL Uji Validitas dan Reliabilitas TOAFL Peserta Tes TOAFL yang Valid dan Reliabel 13

F. Metode Penelitian 1. Definisi Operasional

Agar penelitian terfokus, maka beberapa istilah berikut perlu diberikan definisi opersionalnya. a. Tingkat Validitas adalah derajat yang menunjukkan seberapa jauh item-item TOAFL dapat melaksanakan dengan tepat fungsi yang diembannya, yaitu fungsi untuk apa instrumen tes itu dipersiapkan dan diujikan. Dalam hal ini, TOAFL didesain untuk menguji dan mengukur kemampuan peserta dalam memahami apa yang didengar dalam bahasa Arab, struktur kalimat, idiom, kosakata, gramatika dan isi bacaan dengan cara memilih salah satu jawaban yang benar. b. Tingkat Reliabilitas keterandalan adalah rasio antara skor murni true score dengan varian skor yang diperoleh observed score. Dengan kalimat lain, angka yang menunjukkan seberapa banyak variabelitas pada skor yang diperoleh disebabkan oleh perbedaan murni yang ada antara masing-masing individu dalam hal variabel yang diukur. Jika diujikan kepada orang yang sama secara berulang- ulang dan memperlihatkan keajegan, maka TOAFL dinilai reliabel. c. Derajat Kesulitan adalah derajat yang menunjukkan sulit tidaknya sebuah butir tes dalam membedakan antara kemampuan peserta tes yang pandai dan yang kurang pandai. d. Daya Beda adalah tingkat yang menunjukkan mampu tidaknya butir tes dalam membedakan antara kemampuan peserta tes yang pandai dan yang kurang pandai. 2. Jenis dan Subyek Penelitian Dari segi sumber data yang dikumpulkan, penelitian ini termasuk penelitian kepustakaan library research. Karena data yang menjadi unit analisis adalah data kuantitatif, maka penelitian ini termasuk penelitian kuantitatif. 14 Pembuktian valid dan reliabel atau tidaknya TOAFL akan dilakukan dengan uji statistik terhadap skor masing- masing item soal dalam TOAFL yang telah dijawab oleh masing-masing 50 peserta tes untuk tiga form: 3, 4, dan 5. Di samping itu, untuk lebih memperkuat uji statistik tersebut, dilakukan pula komparasi antara hasil tes tarjamah dengan skor TOAFL yang diperoleh, khususnya oleh mereka yang hendak masuk program S2 dan S3 UIN Jakarta. 14 Lihat Muhammad Ali, Strategi Penelitian Pendidikan, Bandung: Angkasa, 1993; dan Muhammad Nazir, Metode Penelitian, Jakarta: Ghalia Indonesia, Cet IV, 1999. 14 Jadi, subyek penelitian ini adalah para peserta tes TOAFL pada PB, baik yang bermaksud masuk program S2 dan S3, maupun yang hendak menyelesaikan S2 dan S3, atau mahasiswa S1 yang ―coba-coba‖ mengetahui skor mereka.

3. Sumber Data

Data penelitian ini bersumber dari data pustaka dan data lapangan. Data pustaka diperoleh dari literatur yang berhubungan dengan TOAFL, hasil-hasil tes TOAFL, dan tes pada umumnya. Sedangkan data lapangan dihimpun melalui wawancara dengan para pakar di bidang evaluasi bahasa asing, khususnya bahasa Arab. Dalam hal ini, yang diwawancarai adalah Prof. Chotibul Umam, dan Dr. HM. Matsna, MA. Untuk lebih menjaring informasi dan pandangan dari stakeholder, 6 orang yang pernah menjadi peserta TOAFL mahasiswa S2 dan S3 juga diwawancarai. Data hasil wawancara digunakan untuk memperkaya analisis dan diskusi temuan penelitian.

4. Teknik Pengumpulan Data

Teknik pengumpulan data penelitian ini adalah sebagai berikut: a. Studi Dokumentasi Dokumen-dokumen yang dikumpulkan adalah berkas-berkas lembara jawaban TAOFL form 2, 3 dan 5 yang diikuti oleh para peserta TOAFL dan sudah dikoreksi. b. Pengujian atau pelaksanaan tes. Hal ini dimaksudkan untuk mengetahui hasil skoring TOAFL form 2,3 dan 5, sebagai pembanding terhadap hasil-hasil yang sudah ada. Penyelenggaraan tes dilakukan dan diikuti oleh peserta tes TOAFL yang rutin setiap Sabtu dan para peserta tes mahasiswa S1.

5. Teknik Analisis Data

Untuk menganalisis data yang dihimpun berdasarkan hasil skor tes tersebut, prosedur analisis yang ditempuh adalah sebagai berikut: Pertama, untuk mengetahui tingkat validitas digunakan alat ukur yang disebut dengan validasi. Suatu alat ukur yang baik akan memiliki daya beda yang teliti. 15 Pembuktian tingkat validitas TOAFL dilakukan berdasarkan pembuktian konstruk Untuk menghitung dan mengetahui tingkat validitas butir-butir soal TOAFL digunakan rumus korelasi biserial titik sebagai berikut dan penghitungan dilakukan aplikasi komputer program Exel: 15 Lihat Sumarna Surapranata, Analisis Validitas …, h. 61. 15 x µ — + µ = P √ Pq Phis óx Keterangan : µ = rata-rata skor yang menjawab benar µx = rata-rata skor untuk seluruhnya p = proporsi yang menjawab benar tingkat kesulitan q = sama dengan 1-p Kedua, untuk mengetahui tingkat reliabilitas item-item pilihan ganda dalam TOAFL digunakan rumus reliabilitas KR-20 sebagai berikut 16 : r n = __k ___ SD² 1 ∑ pq k - 1 SD² 1 Keterangan: P = proporsi jumlah peserta yang menjawab benar butir ke-I P = 1-p Ketiga, karena tingkat validitas dan reliabilitas terkait erat dengan daya beda yang diperlihatkan oleh peserta antara yang pandai dan yang kurang pandai, maka tahap selanjutnya adalah analisis daya beda butir masing-masing soal TOAFL. Keempat, setelah mengetahui semua itu, komparasi dan kontrol terhadap nilai hasil terjemahan dilakukan untuk mengetahui ada tidaknya hubungan antara yang mendapat skor tinggirendah dalam TOAFL dengan terjemahan mereka. Diasumsikan bahwa semakin tinggi skor TOAFL yang diperoleh semakin tinggi pula nilai terjemahnya. Kelima, sementara itu, hasil wawancara dengan pakar tes, baik Arab maupun Inggris TOEFL dijadikan sebagai data yang memperkaya dan melengkapi hasil interpretasi terhadap penggunaan rumus-rumus di atas.

G. Temuan Penelitian 1. Uji Validitas TOAFL

Setelah itu, jawaban peserta dari nomor 1 sampai 150 dicocokkan dengan kunci jawaban yang benar, lalu dihitung dengan menggunakan rumus tersebut. Penghitungan 16 Sumarna Surapranata, Analisis Validitas …, h. 114. 16 validitas ini baru terbatas pada hasil skor atau jawaban peserta, belum melihat secara lebih cermat validitas isinya. Karena, peserta yang berlatarbelakang pendidikan non- kebahasaaraban hampir dapat dipastikan memperoleh skor rendah dibandingkan dengan yang berlatarbelakang bahasa Arab. Karena itu, validitas yang dibuktikan hanyalah validitas kriteria. Setelah melalui penghitungan dengan aplikasi komputer program Exel, diperoleh hasil sebagai berikut. Pertama, jumlah item soal yang dinilai valid untuk TOAFL form 3 sebanyak 61 soal 41, sedangkan yang tidak atau kurang valid dan dipandang perlu didrop adalah 89 soal 59. Kedua, jumlah item soal yang dinilai valid untuk TOAFL form 4 sebanyak 86 soal 57, sedangkan yang tidak atau kurang valid dan dipandang perlu didrop adalah 64 soal 43. Ketiga, jumlah item soal yang dinilai valid untuk TOAFL form 5 sebanyak 52 soal 35, sedangkan yang tidak atau kurang valid dan dipandang perlu didrop adalah 98 soal 65. Jika ketiga form digabungkan, maka rerata tingkat validitas TOAFL sementara ini adalah 44 66 soal valid, dan sisanya 56 84 soal dinilai kurang valid, karena jawaban para peserta dinilai kurang atau tidak sesuai dengan tujuan pengukuran dalam TOAFL itu sendiri, baik untuk bagaian istimâ’ keterampilan menyimak, struktur tarakib maupun kemampuan membaca dan memahami qaw â’id. Tingkat validitas TOAFL di bawah 50 tersebut boleh jadi disebabkan oleh mayoritas peserta yang mengikuti tes belum mengetahui TOAFL itu sendiri. Hal ini diperkuat dengan hasil wawancara terhadap 8 peserta yang pada umumnya menyatakan bahwa mereka rata-rata baru pertama kali mengikuti TOAFL. Jika dianalisis dari segi tingkat diskriminasi, terutama untuk dua form terakhir 4 dan 5, hal mana peserta TOAFL dengan form 4 rata-rata adalah mahasiswa S2 dan S3, sementara peserta TOAFL dengan form 5 adalah mahasiswa semester I Jurusan Pendidikan Bahasa Arab UIN dan belum pernah mengikuti pelatihan dan mendapat informasi yang memadai dengan TOAFL, maka daya beda antara kedua form tersebut dapat dihitung dengan menggunakan rumus D = T-R: N. Rumus ini digunakan untuk 17 membandingkan jumlah jawaban benar pada kelompok form yang skornya tinggi T dan kelompok yang skornya Rendah, lalu dibagi dengan jumlah T atau R. Diketahui bahwa rata-rata jawaban benar untuk peserta TOAFL form 4 adalah 70, sedangkan rata-rata jawaban benar untuk form 5 adalah 40. Adapun jumlah peserta N masing-masing form adalah 50 orang. Dengan demikian, hasil hitungnya adalah sebagai berikut: D = 70 – 40 : 50 = 30: 50 = 0,60 60 Jika dikonsultasikan kepada indeks diskriminasi berikut: 0,50 atau lebih = baik antara 0,20 dan 0,50 = sedang di bawah 0,20 = kurang = tidak ada diskriminasi, maka TOAFL cukup baik dalam mendiskrimasi tingkat kemampuan peserta. Hal ini berarti bahwa validitas isi TOAFL cukup tinggi, sehingga yang perlu dikembangkan lebih lanjut adalah menghubungkan antara validitas isi dan validitas konstruk, melalui uji coba terbatas dan intensif. Sebagai komparasi mengenai validitas isi TOAFL, dapat dikemukakan bahwa dari 109 peserta tes masuk S2 Program Pascasarjana 2004 ditemukan sebanyak 23 peserta yang memperoleh skor di atas 450 Nilai ini kalau dikonversi dalam rentangan 0- 100, maka setara dengan 65. Setelah ditelusuri nilai tarjamahnya selain TOAFL peserta ujian masuk S2 dan S3 juga diuji kemempuan menerjemahkan teks dari bahasa Arab ke dalam bahasa Indonesia, data bahwa skor TOAFL yang diperoleh peserta tes masuk S2 maupun S3 menunjukkan kedekatan hubungan dengan nilai tarjamah, karena selisih antara nilai konversi TOAFL dan nilai tarjamah hanya 3-4. Sebaliknya, peserta tes masuk yang skor TOAFL-nya di bawah 450 rata-rata tidak memperoleh nilai tarjamah lebih dari 60. Ini berarti bahwa validitas isi TOAFL relatif tinggi, karena perolehan skor TOAFL dapat dikontrol atau diperbandingkan dengan perolehan nilai tarjamah Arab- Indonesia. 18 2 Uji Reliabilitas TOAFL Uji reliabilitas TOAFL dilakukan terhadap masing-masing 50 peserta tes dengan form 3, 4, dan 5. Prosedur yang ditempuh adalah dengan menggunakan rumus KR-20. Oleh karena peserta tes rata-rata baru sekali mengikuti TOAFL, maka tingkat reliabilitas yang diukur itu didasarkan atas penghitungan persentase jawaban benar untuk masing- masing butir soal diberi tanda p dan juga butri soal yang salah diberi tanda q, lalu dihitung pula total varian dari seluruh skor berdasarkan hasil hitung jawaban dari dua kelompok peserta 1-25 dan 26-50 responden, kemudian dihitung siqma ∑ p dan q, dan akhirnya dihitung dengan KR-20. Berdasarkan penghitungan dengan mengaplikasikan program exel, diperoleh hasil tingkat reliabilitas sebagai berikut: Pertama, tingkat reliabilitas form 3 TOAFL adalah sebagai berikut: K = 61, Variansi total = 146.336; sedangkan p jawaban benar sebanyak 42 dan q sebanyak 58. Sigma pq sebesar 13.4872, sehingga KR-20 = 0.92296. Kedua, tingkat reliabilitas form 4 TOAFL adalah sebagai berikut: K = 86, Variansi total = 327.389; sedangkan p jawaban benar sebanyak 36 dan q sebanyak 64. Sigma pq sebesar 19.3232, sehingga KR-20 = 0.95205. Ketiga, tingkat reliabilitas form 5 TOAFL adalah sebagai berikut: K = 52, Variansi total = 91.9629; sedangkan p jawaban benar sebanyak 62 dan q sebanyak 38. Sigma pq sebesar 10.6252, sehingga KR-20 = 0.9018. Jika hasil perhitungan tersebut dikonsultasikan dengan rentangan tingkat korelasi antara jawaban benar dan salah dari peserta TOAFL sebagai berikut: Amat tinggi = antara 0,90 dan 1,00 Tinggi = antara 0,70 dan 0,89 Sedang = antara 0,50 dan 0,69 Rendah = antara 0,30 dan 0,49 Amat Rendah = kurang dari 0,30, maka dapat dipastikan bahwa ketiga form TOAFL yang diteliti tersebut berada dalam tingkat reliabilitas yang amat tinggi, karena rerata tingkat reliabilitasnya berada pada 19 rentangan 0,926. Dengan demikian, soal-soal TOAFL memiliki tingkat keajegan yang sangat tinggi, sehingga dapat memberikan daya beda yang sangat ―diskriminatif‖ antara peserta yang mampu menjawab dengan yang tidak mampu.

H. Analisis dan Diskusi