Mengambil Pelajaran dari Linguistik Korp

Mengambil Pelajaran dari Linguistik Korpus Bahasa Inggris dan dari Mengkhayal:
Suatu Usulan Pengembangan Linguistik Korpus Bahasa Arab di Indonesia

Ferry Hidayat
Pondok Modern “TAZAKKA” Batang Jawa Tengah

Pada Lokakarya Korpus Bahasa Arab yang diselenggarakan di UNIDA Gontor Ponorogo pada
tanggal 16-18 Januari 2018 lalu, presentasi yang disampaikan Totok Suhardijanto, Ph.D
sungguh membuka wawasan para peserta akan betapa pentingnya pengembangan Korpus
Bahasa Arab bagi pengajaran bahasa Arab di Indonesia. Hanya saja, kajian Korpus Bahasa
Arab di Indonesia belum seberkembang Korpus Bahasa Inggris, Korpus Bahasa Indonesia
dan Korpus Bahasa Jawa yang telah lebih dulu berkembang. Posisi ini justru, menurut
penulis, menguntungkan. Korpus Bahasa Arab justru bisa dengan leluasa mengambil
pelajaran dan manfaat dari kajian-kajian Korpus yang telah lebih dulu ada untuk
pengembangannya sendiri. Dalam artikel ini penulis ingin berbagi sedikit ilmu mengenai
Korpus Bahasa Inggris yang sekiranya dapat diambil faedahnya demi pengembangan
Korpus Bahasa Arab di Indonesia ke depan.
Saat menulis artikel ini, penulis membayangkan bahwa para pembaca telah mengumpulkan
ribuan bahkan jutaan data korpus bahasa Arab di tangan. Penulis juga membayangkan
bahwa para pembaca telah menguasai teknik-teknik menambang data dengan
menggunakan alat concordancer secara mahir dan terampil, sehingga apa yang akan penulis

paparkan di bawah ini adalah segala manfaat yang dapat diambil dari penggunaan
concordancer dan jutaan data korpus Arab yang sudah ada di tangan tadi.
Menurut studi yang dilakukan penulis, terdapat 7 manfaat yang dapat diambil dari
penggunaan concordancer dan jutaan data korpus. Di bawah ini akan diterangkan manfaat
tersebut satu persatu beserta contoh kongkritnya dari khazanah kajian Linguistik Korpus
Bahasa Inggris.
Manfaat Pertama: Mengetahui Kolokasi
Salah satu manfaat dari kajian Korpus adalah mengetahui kolokasi (collocation), yakni
“keluarga kata”. Misalnya, lewat penggunaan concordancer ditemukan satu fakta bahwa kata
“to face” (kata kerja) berkolokasi dengan kata “challenge”. Kata “have an effect” selalu
berkolokasi dengan preposisi “on”. Kata “love” berkolokasi dengan adjective “abundant,
adolescent, apparent, ardent, bounding, brimming”.
Lewat penggunaan mesin concordancer, ribuan kolokasi dapat dengan mudah ditemukan.
Bahkan, temuan kita akan ribuan kolokasi dapat dibukukan dan dijadikan pegangan/rujukan
kolokasi, seperti yang dilakukan oleh Michael Lewis. Penggunaan concordancer yang ia
lakukan bersama timnya memungkinkannya menemukan ribuan kolokasi dalam bahasa
Inggris. Kolokasi temuannya pun dibukukan dalam buku berjudul LTP Dictionary of Selected

Collocations (1997). Ada 2.750 kolokasi yang beliau temukan lewat penelusurannya dengan
concordancer, yang kemudian dibukukannya.

Jika data korpus bahasa Arab telah dijadikan concordance dan siap diolah lewat mesin
concordancer, maka penemuan akan kolokasi atau “keluarga kata” dalam bahasa Arab pun
sungguh akan amat mudah. Jika lewat penggunaan concordancer ditemukan ribuan kolokasi
bahasa Arab, maka kolokasi tersebut dapat dibukukan dan dijadikan rujukan sebagaimana
yang dilakukan Michael Lewis di atas.
Manfaat Kedua: Mengetahui Koligasi
Sedikit berbeda dengan kolokasi, koligasi adalah “keluarga kata” dari segi tatabahasa.
Misalnya, kata “to budge” selalu berkoligasi dengan modal yg berbentuk negatif atau verba
yang berkonotasi negatif (refuse+to budge, not prepared+to budge, won’t+budge,
didn’t+budge, will not+budge, wouldn’t+budge, couldn’t+budge). Kata “effect” selalu
berkoligasi dengan artikel a, an, dan the serta dengan determiner any, no, little, dan some
(have+an+effect, have+an+immediate effect, have+a+hypnotic effect, produce+an+effect,
have+any+effect, have+little+effect, have+no+effect, dan have+some+effect).
Koligasi ditemukan lewat penggunaan concordancer beserta ribuan bahkan jutaan
concordance yang diolahnya. Semua koligasi yang ditemukan bisa dibukukan dan dijadikan
bahan rujukan tatabahasa, sebagaimana yang dilakukan oleh John Sinclair dkk. Mereka
menulis buku Collins Cobuild English Grammar (1998) berdasarkan temuan mereka akan
koligasi lewat penelusuran mesin concordancer. Buku tersebut adalah satu-satunya buku
rujukan tatabahasa Inggris berdasarkan studi Korpus yang John Sinclair dkk. lakukan.
Jika data korpus bahasa Arab telah dijadikan concordance dan siap diolah lewat mesin

concordancer, maka penemuan akan koligasi atau “keluarga sintaksis suatu kata” dalam
bahasa Arab pun sungguh akan amat mudah. Jika lewat penggunaan concordancer
ditemukan ribuan kolokasi bahasa Arab, maka kolokasi tersebut dapat dibukukan dan
dijadikan rujukan sebagaimana yang dilakukan John Sinclair di atas.
Manfaat Ketiga: Menemukan Kesalahan Kebahasaan
Berbeda dengan manfaat pertama dan manfaat kedua yang diterangkan di atas, manfaat
ketiga lebih dirasa dan lebih didapat oleh penutur bahasa kedua (second language user) dan
penutur bahasa asing (foreign language user). Misalnya, orang asli Indonesia tapi bertutur
kata bahasa Inggris atau orang asli Indonesia tapi berbicara bahasa Arab. Itu disebut dalam
literatur linguistik bahasa Inggris dengan sebutan “second language user” dan “foreign
language user”, dan bahasa Inggris yang mereka pelajari disebut dengan sebutan “English
as a Second Language” (ESL) dan “English as a Foreign Language” (EFL).
Penggunaan concordancer beserta jutaan concordance memungkinkan seorang second
language user dan foreign language user menemukan kesalahan-kesalahan kebahasaan

mereka untuk kemudian memperbaikinya. Ini dicontohkan oleh Sylviane Granger dalam
karya editorialnya Learner English on Computer (1998).
Di dalam buku ini, Granger dkk. mengkaji data korpus bahasa Inggris para pengguna
bahasa-kedua (Second Language Learner English) dan bahasa Inggris para pengguna
bahasa asing (Foreign Language Learner English) lewat mesin concordancer, dan

menemukan bahwa kedua pengguna tersebut (Non-Native Speaker) melakukan “kesalahan
kebahasaan” dalam aspek tertentu jika dibandingkan dengan pengguna bahasa Inggris asli
(Native Speaker). Misalnya, lewat pengkajian data korpus bahasa Inggris orang Swedia
ditemukan Granger bahwa orang Swedia lebih sering menggunakan kata “furthermore”
dalam karangan bahasa Inggris mereka dan kurang sering menggunakan kata “however”
jika dibandingkan dengan karangan bahasa Inggris penutur asli. Granger juga menemukan
bahwa karangan bahasa Inggris orang Perancis lebih banyak dan lebih sering menggunakan
determiner, pronoun, dan adverb, tapi lebih sedikit dan jarang menggunakan conjunction,
preposition, dan noun, bila dibandingkan dengan karangan orang Inggris asli. Dari penelitian
atas data korpus bahasa Inggris orang Perancis, data korpus bahasa Inggris orang Spanyol,
data korpus bahasa Inggris orang Cina, dan data korpus bahasa Inggris orang Jepang,
Granger pun menemukan bahwa semua penutur non-native tersebut jarang menulis
complement clause yang menggunakan that, to-infinitive, dan gerund di dalam karangan
bahasa Inggris mereka bila dibandingkan dengan karangan bahasa Inggris yang ditulis
penutur bahasa Inggris asli.
Temuan akan “kesalahan kebahasaan” yang dilakukan oleh pengguna bahasa-kedua dan
pengguna bahasa-asing lewat mesin concordancer di atas memberi banyak manfaat. Satu
di antara manfaatnya adalah “kesalahan kebahasaan” tersebut menjadi bahan koreksi bagi
pelajar, bahan pengajaran bagi guru yang akan mengajar mereka, dan bisa pula menjadi
bahan kajian ahli Linguistik Korpus tentang mengapa “kesalahan kebahasaan” itu kerap

terjadi.
Jika data korpus bahasa Arab yang ditutur orang Indonesia dan yang ditulis orang Indonesia
terkumpul jutaan banyaknya, maka temuan “kesalahan kebahasaan” seperti yang ditemukan
oleh Sylviane Granger akan mudah untuk ditemukan, diidentifikasi, lalu menjadi bahan
koreksian bagi penutur tersebut dan bahan pengajaran bagi guru/dosen bahasa Arab di sini,
sekaligus bahan penelitian bagi peneliti Linguistik Korpus Bahasa Arab di sini.
Manfaat Keempat: Menemukan Bias Gender
Bagi kaum feminis dan kaum queer, kajian dan studi atas fenomena bias gender dalam karya
sastra (baik prosa maupun puisi) sangat berguna untuk menyingkap ideologi kekuasaan
kaum gender dominan atas kaum gender marjinal. Dalam studi korpus hal inipun sangat
mungkin dilakukan, sebagaimana dilakukan oleh Eva Maria Thune dkk. dalam buku mereka
Gender, Language and New Literacy: A Multilingual Analysis (2006). Di dalam buku tersebut,
Eva Maria Thune dkk. meneliti data korpus bahasa Inggris dalam Word Thesaurus yang
dibuat Microsoft, data korpus bahasa Italia dalam Word Thesaurus, data korpus bahasa
Polandia dalam Word Thesaurus, data korpus bahasa Spanyol dalam Word Thesaurus, data

korpus bahasa Hungaria dalam Word Thesaurus, dan data korpus bahasa Cina dalam Word
Thesaurus, lalu mereka menemukan kecenderungan sexist-patriarkis dalam padanan-kata
(synonym) di keenam bahasa tersebut. Begitu pula dengan Paul Baker yang di dalam
bukunya, Using Corpora to Analyze Gender (2014), meneliti data korpus koran The Daily Mail

dan menemukan kecenderungan ungkapan kebencian atas kaum gay oleh redaktur koran
The Daily Mail.
Data korpus bahasa Arab orang Indonesia nantinya juga bisa menjadi obyek kajian untuk
mengungkap bias gender baik dalam ujaran maupun tulisan.
Manfaat Kelima: Menemukan Bahasa Pemuda Jaman Now
Kecenderungan kebahasaan jaman now juga dapat ditelusuri lewat penelitian atas data-data
korpus, seperti yang dilakukan oleh Anna-Brita Stenstrom dkk. dalam buku mereka Trends
in Teenage Talk: Corpus Compilation, Analysis and Findings (2002). Strenstrom
mengumpulkan data-data korpus dari rekaman percakapan antara pemuda-peneliti dengan
pemuda-obyek-penelitian, lalu menyatukan rekaman itu semua ke dalam satu data korpus
yang disebutnya The Bergen Corpus of London Teenage Language (COLT). Dari penelitian
atas data korpus tersebut, Strenstrom dkk. menemukan variasi kebahasaan pemuda London
jaman now yang sungguh berbeda dari bahasa yang dipakai orangtua mereka. Misalnya,
pemuda London jaman now punya kecenderungan menambah kata innit di akhir kalimat
mereka, seperti contoh percakapan di bawah ini:

Nanti, data korpus bahasa Arab juga akan dapat dimanfaatkan untuk meneliti
kecenderungan variasi kata bahasa Arab yang digunakan satu kelompok sosial tertentu,
bukan hanya kelompok sosial pemuda jaman now.
Manfaat Keenam: Menemukan Sosiofobia di Media Massa Nasional

Pada tahun 2013 kaum Muslim di Inggris dikejutkan oleh temuan para pakar Linguistik
Korpus (Paul Baker, Costas Gabrielatos, dan Tony McEnery) yang, lewat data-data korpus
media massa Inggris, menemukan bahwa mayoritas media massa Inggris merepresentasikan
Islam sebagai “agama teror” dan kaum Muslim sebagai “teroris”. Mereka menuangkan
semua temuan itu ke dalam buku berjudul Discourse Analysis and Media Attitudes: The
Representation of Islam in the British Press (2013). Sebelum meneliti, mereka mengumpulkan
semua berita koran dalam koran-koran terkemuka Inggris seperti The Daily Mail, The Daily

Express, The Daily Star, The Sun, The Guardian, The Independent, The Times, The Daily
Telegraph, The Daily Mirror, The Daily Business, dan The Observer sejak tahun 1998 hingga
tahun 2009, lalu mereka menyatukannya dalam satu data korpus, kemudian mereka pun
meneliti data korpus tersebut lewat mesin concordancer dan menemukan frekuensi tinggi
ungkapan Islamofobik koran-koran terkenal Inggris tersebut.
Manfaat Ketujuh: Menyusun “Learner Dictionary”
Manfaat puncak dari semua manfaat yang telah disebutkan di atas, menurut penulis, adalah
manfaat ketujuh ini: data korpus dapat digunakan untuk menyusun “kamus pelajar” (Learner
Dictionary), suatu jenis khusus kamus yang disusun untuk memudahkan seorang pelajar
mempelajari suatu bahasa asing atau bahasa kedua. Mengapa? Karena manfaat ketujuh ini
hanya dapat dicapai dengan melalui manfaat-manfaat sebelumnya. Penyusunan “kamus
pelajar” tidak akan dapat dilakukan tanpa adanya data korpus mengenai kolokasi (manfaat

pertama), tanpa data korpus mengenai koligasi (manfaat kedua), tanpa data korpus
mengenai “kesalahan kebahasaan” yang dilakukan second-language user atau foreignlanguage user (manfaat ketiga), tanpa data korpus mengenai kata-kata sexist yang biasgender (manfaat keempat), tanpa data korpus bahasa pemuda jaman now (manfaat kelima),
dan tanpa data korpus kata-kata sosiofobik di media massa nasional (manfaat keenam).
“Kamus pelajar” merangkum hal itu semua di dalam keseluruhan isinya.
Beberapa Temuan Imajinatif
Penulis suka berkhayal dan berimajinasi. Di bawah ini penulis akan menuliskan beberapa
imajinasinya saat data korpus bahasa Arab di Indonesia telah berhasil dibuat oleh “Tim 8”
kelak. Imajinasi-imajinasi ini berkaitan dengan temuan-temuan yang akan dapat ditemukan
jika data korpus bahasa Arab di Indonesia sudah tersedia dan siap untuk diberdayakan dan
dipergunakan oleh para peneliti Linguistik Korpus Arab di Indonesia. Apa sajakah itu? Berikut
ini didaftarkan beberapa temuan imajinatifnya:
Temuan Imajinatif Pertama
Dalam khayalan penulis, semua buku-buku karangan Syeikh Nawawi Al-Jawi Al-Bantani yang
berbahasa Arab dikumpulkan, lalu ditulis ulang ke dalam bentuk concordance. Setelah
menjadi concordance, maka semua kata di dalam semua buku karya Syeikh Nawawi AlBantani (penulis menyebutnya Corpus Albantanius) siap diteliti dengan mesin concordancer.
Maka, penulis pun meneliti word frequency dalam Corpus Albantanius itu. Dari penelitiannya
terhadap word frequency tadi, penulis pun berhasil menemukan bahwa Corpus Albantanius
mengandung kata-kata yang berfrekuensi tinggi sbb.:
Jawa (1,000,000 kali)
Belanda (750,000 kali)

Kafir (665,000 kali)
Jihad (555,000 kali)
Perang (450,000 kali)
Sorga (440,000 kali)

Dari penelitian atas word frequency dalam Corpus Albantanius, penulis membangun
kesimpulan dan menemukan fakta penting bahwa dalam semua karangannya, Syeikh
Nawawi Al-Bantani menyerukan jihad berperang melawan Belanda kepada semua orang
Jawa dengan harapan sorga. Di antara berjuta-juta tema dan berjuta-juta topik yang
diangkat Syeikh Nawawi dalam semua karyanya, tema jihad peranglah tema yang paling
menonjol, yang mencerminkan ketinggian patriotisme dan nasionalisme Syeikh Nawawi di
masa hidupnya.
Temuan Imajinatif Kedua
Dalam khayalan penulis, semua buku-buku bertema dan bertopik Tasawuf karangan semua
ulama-ulama Indonesia jaman old (seperti Abdurrauf Al-Sinkili, Syeikh Nawawi Al-Bantani,
Muhammad Nafis Al-Banjari, Syeikh Yusuf Al-Makassari, dll.) yang berbahasa Arab
dikumpulkan, lalu ditulis ulang ke dalam bentuk concordance. Setelah menjadi concordance,
maka semua kata di dalam semua buku bertema Tasawuf tersebut (penulis menyebutnya
Corpus Tasawufus) siap diteliti dengan mesin concordancer. Maka, penulis pun meneliti
word frequency dalam Corpus Tasawufus itu. Dari penelitiannya terhadap word frequency

tadi, penulis pun berhasil menemukan bahwa Corpus Tasawufus mengandung kata-kata
yang berfrekuensi tinggi sbb.:
Allah (1,000,000 kali)
Wujud (750,000 kali)
Tajalli (665,000 kali)
Martabah (555,000 kali)
Insan (450,000 kali)
Kamil (440,000 kali)
Alam (430,000 kali)
Dari penelitian atas word frequency dalam Corpus Tasawufus, penulis membangun
kesimpulan dan menemukan fakta mengesankan bahwa dalam semua karangannya, para
ulama Indonesia jaman old mengajarkan paham Tasawuf yang seragam, yakni paham
Wujudiyah (Wihdatul Wujud). Di antara berjuta-juta tema dan berjuta-juta topik yang
diangkat ulama-ulama Indonesia jaman old dalam semua karya sufistik, tema-tema yang
berkaitan dengan paham Tasawuf Wujudiyahlah tema yang paling menonjol, yang
mencerminkan bahwa mereka semua adalah sufi-sufi aliran Wujudiyah.
Temuan Imajinatif Ketiga
Dalam khayalan penulis, semua teks-teks khutbah Jumat karangan para kiai di seluruh
Indonesia yang berbahasa Arab dikumpulkan, lalu ditulis ulang ke dalam bentuk
concordance. Setelah menjadi concordance, maka semua kata di dalam semua khutbah para

kiai Indonesia itu (penulis menyebutnya Corpus Khutbahkiaius) siap diteliti dengan mesin
concordancer. Maka, penulis pun meneliti word frequency dalam Corpus Khutbahkiaius itu.
Dari penelitiannya terhadap word frequency tadi, penulis pun berhasil menemukan bahwa
Corpus Khutbahkiaius mengandung kata-kata yang berfrekuensi tinggi sbb.:

Korupsi (1,000,000 kali)
Pejabat (750,000 kali)
Zina (665,000 kali)
LGBT (555,000 kali)
Bank (450,000 kali)
Riba (440,000 kali)
Ekonomi (430,000 kali)
Dari penelitian atas word frequency dalam Corpus Khutbahkiaius, penulis membangun
kesimpulan dan menemukan fakta menarik bahwa dalam semua khutbah Jumat mereka,
para kiai se-Indonesia sangat peduli dan concerned dengan fenomena korupsi yang
dilakukan oleh pejabat-pejabat negara. Mereka juga sangat concerned dengan fenomena
sosio-seksual seperti perzinahan dan LGBT, juga fenomena ekonomi ribawi yang
dipraktekkan bank-bank konvensional di Indonesia. Di antara berjuta-juta tema dan berjutajuta topik yang diangkat para kiai se-Indonesia dalam semua khutbah Jumat mereka, tematema yang berkaitan dengan problem sosial-ekonomi dan problem sosio-seksuallah tema
yang paling menonjol, yang mencerminkan bahwa mereka sungguh peduli dengan masalah
tersebut dan tidak cuek.
Demikianlah artikel ini penulis akhiri. Semoga pembaca menemukan kajian korpus bahasa
Arab di Indonesia secara lebih terang, lebih jernih, lebih jelas, dan lebih bersemangat tinggi
lagi. Semoga!

Wal’Laahu A’lam Bish’shawaab.
Pondok Modern Tazakka Batang
21 Januari 2018

Dokumen yang terkait

Analisis komparatif rasio finansial ditinjau dari aturan depkop dengan standar akuntansi Indonesia pada laporan keuanagn tahun 1999 pusat koperasi pegawai

15 355 84

ANALISA BIAYA OPERASIONAL KENDARAAN PENGANGKUT SAMPAH KOTA MALANG (Studi Kasus : Pengangkutan Sampah dari TPS Kec. Blimbing ke TPA Supiturang, Malang)

24 196 2

Kajian Karakteristik Fisik, Kimia dan Mikrobiologis Edible Film dari Tiga Jenis Pati (Kimpul, Ubi Jalar Putih dan Singkong) dengan Penambahan Filtrat Kunyit (Curcuma longa Linn.) Sebagai Penghambat Bakteri Salmonella.

16 119 21

Hubungan antara Kondisi Psikologis dengan Hasil Belajar Bahasa Indonesia Kelas IX Kelompok Belajar Paket B Rukun Sentosa Kabupaten Lamongan Tahun Pelajaran 2012-2013

12 269 5

Peningkatan keterampilan menyimak melalui penerapan metode bercerita pada siswa kelas II SDN Pamulang Permai Tangerang Selatan Tahun Pelajaran 2013/2014

20 223 100

Isolasi Senyawa Aktif Antioksidan dari Fraksi Etil Asetat Tumbuhan Paku Nephrolepis falcata (Cav.) C. Chr.

2 95 93

Perbandingan Sifat Fisik Sediaan Krim, Gel, dan Salep yang Mengandung Etil p-Metoksisinamat dari Ekstrak Rimpang Kencur (Kaempferia galanga Linn.)

7 83 104

Aplikasi penentu hukum halal haram makanan dari jenis hewan berbasis WEB

48 291 143

Studi Perbandingan Sikap Sosial Siswa dengan Menggunakan Model Pembelajaraan Kooperatif Tipe Two Stay Two Stray dan Think Pair Share Pada Mata Pelajaran IPS Terpadu

3 49 84

Model Stokastik Curah Hujan Harian dari beberapa Stasiun Curah Hujan di Way Jepara

6 35 58