Aplikasi Pemeriksa Ejaan untuk Tulisan I

APLIKASI PEMERIKSA EJAAN UNTUK TULISAN ILMIAH BERBAHASA INDONESIA

Spelling Checker Application for Indonesian Scientific Papers

Laporan ini disusun untuk memenuhi salah satu syarat menyelesaikan pendidikan

PROGRAM STUDI DIPLOMA III TEKNIK INFORMATIKA Di Jurusan Teknik Komputer dan Informatika

Oleh

Sarah Zafira

131511058

Rhana Ruhliana Irsyad

131511066

Sheilla Adila

131511067

POLITEKNIK NEGERI BANDUNG 2016

Nama : Sarah Zafira NIM : 131511058

Tempat, Tanggal Lahir : Tasikmalaya, 11 Januari 1996 SD Lulus Tahun

: 2008 dari SD Al. Muttaqin Tasikmalaya SLTP Lulus Tahun

: 2010 dari SMP Negeri 1 Tasikmalaya SLTA Lulus Tahun

: 2013 dari SMA Negeri 1 Tasikmalaya Prestasi yang pernah dicapai : -

Nama : Rhana Ruhliana Irsyad NIM : 131511066

Tempat, Tanggal Lahir : Pemalang, 26 Oktober 1995 SD Lulus Tahun

: 2007 dari SDN Citeureup 3 SLTP Lulus Tahun

: 2010 dari SMPN 2 Cimahi SLTA Lulus Tahun

: 2013 dari SMK Muhammadiyah 4 Bandung Prestasi yang pernah dicapai : -

Nama : Sheilla Adila NIM : 131511067

Tempat, Tanggal Lahir : Bandung, 2 Februari 1995 SD Lulus Tahun

: 2006 dari SDN Rendeh SLTP Lulus Tahun

: 2009 dari SMP PGRI 384 Rendeh SLTA Lulus Tahun

: 2013 dari SMKN 1 Cimahi Prestasi yang pernah dicapai : -

ABSTRAK

Aplikasi pemeriksa ejaan (spelling checker) merupakan sebuah tool yang dapat mendeteksi kesalahan penulisan ejaan pada suatu kata atau teks. Aplikasi pemeriksa ejaan untuk bahasa Indonesia pada umumnya memeriksa dengan cara membandingkan satu persatu kata yang diperiksa pada suatu kamus kata yang berisi semua kata pada bahasa Indonesia. Selain itu, aplikasi pemeriksa ejaan yang umum digunakan hanya dapat menangani kesalahan tipografi (Misalnya ‘bagaimna’, seharunya ‘bagaimana’) dan belum dapat menangani kesalahan akibat pemisahan atau penggabungan kata yang tidak tepat (Misalnya ‘bagai mana’, seharusnya ‘bagaimana’). Pada tugas akhir ini dibangun sebuah aplikasi pemeriksa ejaan untuk tulisan ilmiah berbahasa indonesia dengan memanfaatkan penggunaan analisis morfologi dan aturan penulisan pemisahan atau penggabungan kata dalam proses pemeriksaan ejaan. Analisis morfologi dibuat dengan menghilangkan imbuhan yang memungkinkan pada suatu kata dengan menggunakan algoritme lemmatization . Modifikasi dan desain yang dibuat untuk proses lemmatization adalah dengan menambahkan aturan penulisan kata ganti orang (ku- dan kau-) dan menyimpan semua aturan penghilangan imbuhan pada suatu database. Aplikasi pemeriksa ejaan yang telah dibuat dalam tugas akhir ini masih belum sempurna dari segi keakuratan pemeriksaan. Hasil pemeriksaan masih mengalami ketidakakuratan untuk kasus kata berulang, kasus pengecualian penulisan imbuhan, dan kasus kata gabung dan bentuk terikat yang memiliki imbuhan.

Kata kunci: pemeriksa ejaan, analisis morfologi, lemmatization, kesalahan tipografi, kesalahan penggabungan dan pemisahan kata.

ABSTRACT

Spelling checker application is a tool to detect spelling errors of the word or text. Indonesian spelling checker application generally checked by comparing one by one word on a dictionary that contain all Indonesian words. In addition, spelling checker is commonly used to handle typographical errors (example: 'bagaimna', it should be 'bagaimana') and have not been able to handle the error due to incorrect splitting or merging of words. (example: 'bagai mana', it should be 'bagaimana'). In this study, spelling checker application for Indonesian scientific papers have been developed by utilizing morphological analysis and rules of splitting or merging words. Morphological analysis process is created by removing all affixes in the word which using lemmatization algorithms. Modifications and designs for lemmatization process is by adding rules of writing a personal pronoun (ku-, mu-) and store the rules of affixes removal into a database. Spelling checker application that has been made in this study is not perfect in terms of checking the accuracy. The test results are still having inaccurate in repeated words, affixation of exceptional words, and combining words and bounded words which have affixes.

Keywords: spelling checker, morphological analysis, lemmatization,

typographical errors, splitting or merging errors.

KATA PENGANTAR

Puji dan syukur kami panjatkan kehadirat Tuhan Yang Maha Esa atas limpahan rahmat dan karunia-Nya kami dapat menyelesaikan laporan tugas akhir yang berjudul “Pemeriksa Ejaan untuk Tulisan Ilmiah Berbahasa Indonesia”. Tugas akhir ini disusun sebagai salah satu syarat menyelesaikan pendidikan diploma program studi teknik informatika di Politeknik Negeri Bandung.

Dengan selesainya laporan tugas akhir ini, tidak terlepas dari bantuan banyak pihak yang telah memberikan masukan kepada kami. Untuk itu kami mengucapkan terima kasih kepada:

1. Orangtua dan keluarga besar kami yang senantiasa memberi dukungan dan mendo’akan kami;

2. Ibu Ani Rahmani, S.Si., M.T. selaku pembimbing I dan bapak Jonner Hutahaean, BSET., M.Info.Sys. selaku pembimbing II yang telah memberikan bimbingan, masukan, dan dukungan, serta kontribusi yang besar sehingga kami dapat menyelesaikan tugas akhir ini;

3. Bapak Dewa Gede Parta, BSCS. selaku penguji seminar I dan II yang telah memberikan kritik untuk memperjelas lingkup dan batasan dari topik tugas akhir ini, masukan mengenai tools yang dapat digunakan dalam penyelesaian tugas akhir ini, serta saran untuk memperdalam pemahaman mengenai teori yang digunakan untuk dipelajari dan dijadikan pembelajaran;

4. Bapak Urip Teguh Setijohatmo, BSCS., M.Kom. selaku penguji seminar III yang telah memberikan kritik dan masukannya untuk memperjelas solusi penyelesaian permasalahan dari tugas akhir ini;

5. Bapak Suprihanto, BSEE., M.Sc. selaku penguji I dan bapak Irwan Setiawan S.Si., M.T. selaku penguji II yang telah mengevaluasi hasil pencapaian kami pada tugas akhir ini, serta memberikan kritik dan saran untuk dijadikan acuan dalam menyelesaikan tugas akhir;

6. Tim koordinator tugas akhir tahun 2016 yang telah memberikan instruksi dan mengatur pelaksanaan tugas akhir sebaik mungkin demi kelancarannya;

7. Bapak/ibu dosen pengajar JTK POLBAN yang telah membagi ilmu dan semangatnya kepada kami untuk dijadikan sebagai modal awal dalam pengerjaan tugas akhir ini;

8. Terakhir, untuk seluruh pihak yang terlibat dalam kelancaran penyelesaian tugas akhir ini.

Dalam laporan tugas akhir ini masih terdapat kesalahan dan kekurangan, untuk itu kritik dan saran dibutuhkan sebagai bahan evaluasi. Kami berharap laporan ini dapat bermanfaat bagi seluruh pembaca, khususnya keluarga JTK POLBAN.

Akhir kata, kami mengucapkan terima kasih, semoga Allah SWT membalas kebaikan pihak-pihak tersebut di atas dan selalu memberikan rahmat dan hidayah- Nya kepada kita semua.

Bandung, Agustus 2016 KoTA209

DAFTAR ISTILAH

Istilah Definisi

Ejaan Kaidah tulis menulis baku yang didasarkan pada penggambaran bunyi.

Kata Kumpulan beberapa huruf yang memiliki makna tertentu.

Lema Kata atau frasa, dapat berupa kata dasar, kata berimbuhan, kata berulang, kata majemuk, dan frasa.

Imbuhan (affix) Morfem terikat yang dapat mengakibatkan perubahan bunyi, perubahan fungsi kata, dan perubahan fungsi gramatikal.

Kesalahan ejaan Kesalahan yang diakibatkan kesalahan penulisan ejaan pada suatu kata.

Kesalahan tipografi Kesalahan yang diakibatkan oleh kesalahan yang tidak disengaja dalam proses mengetik, yaitu akibat penghilangan huruf, penambahan huruf, penggunaan huruf yang tidak sesuai, dan penukaran huruf.

Kesalahan morfologis Kesalahan yang diakibatkan ketidakpahaman dalam penggunaan imbuhan yang tidak sesuai dengan aturan morfologi bahasa Indonesia.

Kesalahan Kesalahan yang diakibatkan oleh ketidaksengajaan penggabungan atau

maupun ketidaktahuan penulis mengenai cara pemisahan kata

penggabungan dan pemisahan kata yang benar dan sesuai dengan EYD.

Lemmatization Algoritma pengembalian suatu kata pada lemma dasarnya dengan melakukan penghilangan imbuhan.

Morphologycal Penganalisa morfologi yang melakukan penghilangan Analyser

imbuhan pada suatu kata, merupakan modifikasi dari lemmatization

Morphology Rule Aturan morfologi yang berisi aturan pemenggalan imbuhan pada suatu kata.

BAB I PENDAHULUAN

1.1 Latar Belakang

Menulis tulisan ilmiah merupakan bagian yang tidak dapat dilepaskan dari kehidupan akademik mahasiswa saat menjalani perkuliahan. Tulisan ilmiah yang dibuat tentu harus berkualitas, karena memiliki peranan dan kedudukan yang sangat penting dan merupakan bagian dari tuntutan formal akademik. Kualitas sebuah tulisan ilmiah, khususnya untuk tulisan ilmiah berbahasa Indonesia, salah satunya ditentukan oleh penulisan kata yang benar dan sesuai dengan kaidah ejaan bahasa Indonesia yang disempurnakan (EYD) dan aturan morfologi bahasa Indonesia.

Untuk menjaga kualitas tulisan ilmiah, saat ini banyak aplikasi pengolah kata yang menyediakan fasilitas pemeriksaan ejaan khususnya untuk bahasa Indonesia, misalnya Microsoft Word atau aplikasi khusus pemeriksa ejaan lainnya.

Pada aplikasi pemeriksa ejaan, umumnya pemeriksaan dilakukan dengan memasukkan teks yang akan diperiksa kemudian sistem menandai teks yang dianggap mengalami kesalahan ejaan. Selain itu, terdapat fitur pemberian saran kata perbaikan yang dimaksudkan untuk memudahkan pengguna untuk menemukan kata yang tepat. Pemeriksaan ejaan dilakukan dengan membandingkan setiap kata pada daftar kata bahasa Indonesia.

Menurut Turistiani (2013) kesalahan terkait penulisan ejaan pada bahasa Indonesia dikategorikan menjadi beberapa kategori kesalahan sebagai berikut.

1. Kesalahan tipografi, kesalahan penulisan kata pada saat proses mengetik akibat penambahan, penghilangan, penggantian, atau penukaran huruf yang tidak seharusnya pada satu kata. Umumnya aplikasi pemeriksa ejaan yang sudah ada saat ini dapat menangani masalah ini, misalnya yang terdapat pada Microsoft Word. Contoh: penuilsan (seharusnya: penulisan); mskan (seharusnya: makan).

2. Kesalahan morfologis, kesalahan yang diakibatkan ketidakpahaman penggunaan imbuhan yang tidak sesuai dengan aturan morfologi bahasa Indonesia. Contoh: berajar (seharusnya: belajar); mengkotori (seharusnya: mengotori).

3. Kesalahan penggabungan dan pemisahan kata, kesalahan penulisan ejaan akibat kesalahan penggabungan atau pemisahan kata yang tidak sesuai dengan aturan EYD. Contoh: maha siswa (seharusnya: mahasiswa, kesalahan penulisan kata turunan); di makan (seharusnya: dimakan, kesalahan penulisan imbuhan).

Aplikasi pemeriksa ejaan bahasa Indonesia yang sudah ada saat ini hanya dapat mengatasi kesalahan ejaan untuk kategori tipografi dan morfologis saja, sedangkan untuk jenis kesalahan lainnya masih dianggap benar oleh aplikasi. Karena itulah hasil pemeriksaan ejaan tidak maksimal. Selain itu, pemberian saran kata perbaikan juga dianggap belum sesuai dengan yang diharapkan. Misalnya pada Microsoft Word, tidak ditemukan saran kata perbaikan untuk kata ‘sebarluaskan’ yang seharusnya ‘sebar luaskan’.

Terdapat berbagai cara untuk melakukan pemeriksaan ejaan, salah satunya dengan memeriksa setiap kata pada daftar kata bahasa Indonesia yang jumlahnya sangat banyak, cara lainnya yaitu dengan melakukan analisis morfologi. Dalam bahasa Indonesia, setiap kata dasar dapat dikombinasikan dengan berbagai morfem sehingga dapat menghasilkan jumlah kata bentukan yang banyak. Dengan melakukan analisis morfologi ini memungkinkan adanya pengurangan jumlah kata yang digunakan.

Aplikasi pemeriksa ejaan bahasa Indonesia yang dibangun dapat menangani kesalahan penggabungan dan pemisahan kata, serta memanfaatkan analisis morfologi untuk melakukan pemeriksaan kesalahan tipografi dan morfologis.

1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan, berikut merupakan masalah- masalah terkait dengan pemeriksa ejaan bahasa Indonesia.

1. Kesalahan ejaan yang termasuk kategori kesalahan penggabungan dan pemisahan kata tidak terdeteksi Masalah ini muncul karena penulis tidak menyadari kata tersebut salah ataupun terlewat dalam proses pemeriksaan. Salah satu contoh kesalahan yang sering terjadi ialah kesalahan penulisan pada kata gabung, karena kedua kata pembentuk kata gabung tersebut merupakan kata bahasa Indonesia yang benar, sehingga tidak terdeteksi oleh aplikasi pemeriksa ejaan. Meskipun sudah banyak tools untuk membantu proses pemeriksaan ejaan tulisan ilmiah, namun tools tersebut belum dapat memeriksa kesalahan ejaan untuk kategori kesalahan penggabungan dan pemisahan kata. Agar dapat menangani masalah ini, diperlukan sebuah aplikasi pemeriksa ejaan yang dapat menangani kategori kesalahan tersebut dengan cara mendefinisikan aturan penulisan kata berdasarkan kaidah EYD.

2. Analisis morfologi Bahasa Indonesia memiliki proses pembentukan kata yang rumit dan beragam. Oleh karena itu, diperlukan aplikasi yang dapat melakukan analisis morfologi. Pemeriksaan ejaan yang dilakukan aplikasi pemeriksa ejaan ini ialah dengan memanfaatkan analisis morfologi untuk mencari bentuk dasar dari suatu kata.

3. Pemberian saran kata perbaikan tidak sesuai Saran kata perbaikan dapat digunakan sebagai referensi perbaikan kata oleh pengguna. Saran kata perbaikan harus diambil dari kata yang mirip atau dianggap benar berdasarkan kata yang mengalami kesalahan ejaan serta berdasarkan jenis kesalahannya. Pada aplikasi pemeriksa ejaan seperti Microsoft Word masih terdapat kata yang mengalami kesalahan ejaan namun tidak memiliki saran kata perbaikan (Misalnya kata ‘sebarluaskan’ tidak memiliki saran kata perbaikan, seharusnya ‘sebar luaskan’).

1.3 Tujuan

Tujuan dibuatnya aplikasi pemeriksa ejaan pada tugas akhir ini ialah agar dapat digunakan sebagai tools untuk membantu meningkatkan kualitas ejaan tulisan ilmiah berbahasa Indonesia. Untuk memenuhi tujuan tersebut, aplikasi harus dapat Tujuan dibuatnya aplikasi pemeriksa ejaan pada tugas akhir ini ialah agar dapat digunakan sebagai tools untuk membantu meningkatkan kualitas ejaan tulisan ilmiah berbahasa Indonesia. Untuk memenuhi tujuan tersebut, aplikasi harus dapat

1.4 Ruang Lingkup dan Batasan Masalah

Proses pemeriksaan yang dapat dilakukan oleh Aplikasi Pemeriksa Ejaan yang dibangun meliputi pemeriksaan kesalahan ejaan yang termasuk dalam kategori kesalahan tipografi, kesalahan morfologis, serta kesalahan penggabungan dan pemisahan kata (kata berimbuhan, gabungan kata, bentuk terikat, serta kata depan di ). Aplikasi dibangun dengan menggunakan bahasa pemrograman Java.

1.5 Metodologi Pengembangan Perangkat Lunak

Metodologi pengembangan perangkat lunak yang digunakan pada tugas akhir ini yaitu model waterfall. Menurut Ian Sommerville (2011, p30-31) terdapat 5 tahapan pada model waterfall seperti yang dapat dilihat pada Gambar 1. Tahapan-tahapan tersebut, yaitu requirement analysis and definition, system and software design, implementation and unit testing, integration and system testing, dan operation and maintenance , namun dalam pengembangan perangkat lunak pada tugas akhir ini tidak dilakukan tahap operation and maintenance.

Berikut penjelasan dari tahapan-tahapan model waterfall yang dihubungkan dengan pengerjaan tugas akhir ini.

1. Requirement Analysis and Definition Pada tahap ini dilakukan pendefinisian masalah, ruang lingkup, serta tujuan pengembangan sistem. Selanjutnya dilakukan analisis untuk menentukan requirement .

a. Analisis sistem sejenis yang bertujuan untuk mengetahui sejauh mana kemampuan aplikasi yang sudah ada. Analisis ini dilakukan terhadap 3 spelling checker bahasa Indonesia dan 1 library bahasa inggris. Selanjutnya dilakukan evaluasi terhadap cara kerja dan fitur-fitur yang tersedia untuk a. Analisis sistem sejenis yang bertujuan untuk mengetahui sejauh mana kemampuan aplikasi yang sudah ada. Analisis ini dilakukan terhadap 3 spelling checker bahasa Indonesia dan 1 library bahasa inggris. Selanjutnya dilakukan evaluasi terhadap cara kerja dan fitur-fitur yang tersedia untuk

Gambar 1 Model Waterfall

b. Analisis kasus dilakukan untuk memberikan gambaran mengenai kasus- kasus kesalahan yang sering terjadi pada setiap kategori kesalahan, serta memberikan gambaran mengenai solusi yang dilakukan aplikasi pemeriksa ejaan untuk menangani setiap kasus tersebut.

c. Analisis teknologi dan algoritme yang bertujuan untuk memahami kemampuan teknologi yang digunakan dalam aplikasi, serta menyesuaikan algoritme yang digunakan dengan kebutuhan aplikasi yang dibangun.

d. Analisis proses pemeriksaan ejaan dibutuhkan untuk menetapkan solusi dan langkah-langkah yang harus dilakukan untuk dapat melakukan pemeriksaan terhadap ketiga kategori kesalahan.

e. Analisis pemberian saran kata perbaikan terhadap ketiga kategori kesalahan dilakukan untuk menetapkan cara yang dilakukan untuk dapat memberikan saran kata perbaikan yang sesuai.

f. Analisis requirement yang dilakukan untuk menentukan spesifikasi aplikasi pemeriksa ejaan bahasa Indonesia.

2. System and Software Design Pada tahap ini dilakukan perancangan struktur data dan database dengan mentransformasikan requirement yang telah ditetapkan pada tahap sebelumnya dengan menggunakan tools pemodelan UML Diagram untuk menggambarkan tindakan-tindakan yang dapat dan/atau harus dilakukan aplikasi untuk berinteraksi dengan pengguna, menunjukkan struktur sistem yang dirancang dan keterkaitan antar class serta atribut dan method yang digunakan, menunjukkan interaksi pertukaran pesan antar lifeline, dan antarmuka aplikasi yang dibangun.

3. Implementation and Unit Testing Pada tahap ini dilakukan pembuatan aplikasi yang mengacu pada hasil desain yang telah dirancang pada tahap sebelumnya. Setelah implementasi selesai, dilakukan uji coba terhadap unit program yang telah diimplementasi untuk mengetahui kesesuaian aplikasi dengan hasil desain yang telah dibuat.

4. Integration and System Testing Pada tahap ini setiap unit program diintegrasikan dan dilakukan uji coba terhadap aplikasi utuh untuk memastikan aplikasi yang dibangun memenuhi requirement yang telah ditentukan.

1.6 Sistematika Penulisan Laporan

Laporan tugas akhir ini terdiri atas: Bab I Pendahuluan Bab ini berisi gambaran umum aplikasi yang diuraikan dalam latar belakang, perumusan masalah, tujuan, ruang lingkup dan batasan masalah, metodologi pengembangan perangkat lunak, serta sistematika penulisan laporan. Bab II Landasan Teori Bab ini berisi teori yang menunjang pembuatan aplikasi pemeriksa ejaan, yaitu teori mengenai morfologi bahasa Indonesia serta imbuhan dari bahasa asing, Ejaan yang Disempurnakan (EYD), text preprocessing, Lemmatization Technique in Bahasa: Indonesian Language , serta PDFBox, bahasa Pemrograman Java.

Bab III Analisis Bab ini berisi analisis yang dilakukan dalam membangun aplikasi. Analisis yang dilakukan meliputi analisis mengenai masalah utama, analisis mengenai kesalahan ejaan pada teks berbahasa Indonesia serta analisis kasus untuk setiap kategori kesalahan, analisis mengenai pemberian saran kata perbaikan, analisis sistem sejenis untuk mengetahui kemampuan dari aplikasi serupa, analisis teknologi dan algoritme, analisis kebutuhan, dan analisis perilaku. Bab IV Perancangan Bab ini berisi penjelasan mengenai rancangan dari aplikasi yang dibangun. Perancangan aplikasi meliputi perancangan proses, perancangan struktur aplikasi, perancangan database, serta perancangan user interface. Bab V Implementasi Bab ini berisi hasil implementasi dari desain yang telah dibuat ke dalam bentuk program. Implementasi ini dilakukan dengan mengikuti requirement-requirement serta desain yang telah ditentukan sehingga menjadi satu aplikasi yang utuh. Bab VI Pengujian Bab ini berisi hasil uji coba terhadap aplikasi berdasarkan requirement fungsional untuk mengetahui kesesuaian hasil implementasi dari aplikasi berdasarkan rancangan yang telah dibuat, juga untuk menguji kemampuan dari aplikasi pemeriksa ejaan yang dibuat. Bab VII Penutup Bab ini berisi penjelasan mengenai pencapaian dari pelaksanaan tugas akhir serta saran yang berkaitan dengan pengembangan aplikasi pemeriksa ejaan.

BAB II LANDASAN TEORI

Pada bab ini dijelaskan mengenai teori, konsep, serta teknologi pendukung yang digunakan sebagai acuan guna menunjang proses pembuatan aplikasi pemeriksa ejaan bahasa Indonesia.

2.1 Morfologi Bahasa Indonesia

Morfologi adalah cabang ilmu linguistik yang mempelajari seluk beluk penyusunan kata secara struktural terhadap morfem-morfem pembentuknya. Morfem merupakan bentuk bahasa terkecil yang tidak dapat dibagi lagi menjadi bagian- bagian yang lebih kecil. Dalam bahasa Indonesia, terdapat dua jenis morfem yaitu morfem bebas atau morfem yang dapat berdiri sendiri (misalnya ‘rumah’) dan morfem terikat misalnya imbuhan (afiks). Imbuhan (afiks) terdiri atas awalan (prefiks), akhiran (sufiks), sisipan (infiks), dan gabungan awalan dan akhiran (konfiks) (Jelita, 2007).

2.1.1 Awalan (Prefiks)

Awalan (prefiks) adalah imbuhan yang dibubuhkan di awal kata. Awalan ‘ber-’, ‘per-’, dan ‘ter-’ berubah menjadi ‘be-’, ‘pe-’, dan ‘te-’ ketika disisipkan pada kata dasar yang memiliki huruf awal ‘r-’ atau pada kata dasar yang memiliki suku kata awal yang diakhiri dengan ‘-er’. Macam-macam imbuhan awalan dalam bahasa Indonesia dapat dilihat pada Tabel 1.

Tabel 1 Macam-macam prefiks

Memulai – mulai

2. Se-

Secerdik – cerdik

3. Ke-

Kedua – dua

4. Di-

Dimakan – makan

Tabel 1 Macam-macam prefiks (lanjutan)

No. Prefiks Contoh 5. Ter- (te-)

Tertidur – tidur

6. Ber- (be-)

Beracun – racun

7. Per- (Pe-)

Perkeras – keras

8. Ku- (*)

Kubaca – baca

9. Kau- (*)

Kaubawa – bawa

Terdapat beberapa pengecualian pada Tabel 1, untuk kata ‘ajar’ dan ‘ujur’ ketika disisipkan dengan prefiks ‘ber-’ berubah menjadi ‘belajar’ dan ‘belunjur’ (bukan ‘berajar’ ataupun ‘berujur’). Ketika prefiks ‘pe-’ disisipkan pada kata dasar ‘ajar’ berubah menjadi ‘pelajar’. Aturan prefiks ‘pe-’ dan ‘me-’ disajikan pada Tabel 2 dan

Tabel 3.

Tabel 2 Aturan prefiks ‘pe-’

No. Kata Dasar

Aturan

Contoh

1. {a | e | i | o | u}...

Pengampun - ampun 2. {g | h}...

peng-...

peng-...

Penggajian – gaji

3. {k}...

Pengurang - kurang 4. {c | d | j}...

peng-[k] ...

pen-...

Pencuci – cuci

5. {t}...

pen-[t] ...

Penikam – tikam

6. {b | f | v}...

pem-...

Pemberi – beri

7. {p}...

Pemotong - potong 8. {s}...

pem-[p]. . .

peny-[s] ...

Penyabar – sabar

9. {l | m | n | r | w | y}...

pe-...

Pelamar - lamar

No. Kata Dasar

Aturan

Contoh

10. {z}... pe-... | pen-... Peziarah – ziarah, penziarah – ziarah

Tabel 3 Aturan prefiks ‘me-’

No. Kata Dasar

Aturan

Contoh

1. {a | e | i | o | u}...

Mengambil – ambil 2. {g | h | x}...

Mengecil – kecil 4. {c | d | j | z}

meng-[k] ...

men-...

Menetap – tetap 6. {b | f | v}...

5. {t}...

men-[t] ...

Membantu – bantu 7. {p}...

mem-...

Memrogram – program 8. {s}...

mem-[p] ...

Menyusup – susup 9. {l | m | n | r | w | y}...

meny-[s] ...

me-...

Memakan – makan

2.1.2 Akhiran (Sufiks)

Akhiran (sufiks) adalah imbuhan yang dibubuhkan di akhir kata. Tidak seperti prefiks dan infiks, pembubuhan sufiks tidak akan merubah bentuk kata dasar. Secara gramatikal, hanya terdapat tiga sufiks yaitu ‘-i’, ‘-kan’, dan ‘-an’, namun dalam konteks information retrieval (IR), sufiks dapat dikategorikan seperti pada Tabel 4.

Tabel 4 Jenis-jenis sufiks

Partikel

Possessive Suffixes

Derivative Suffixes

-lah -ku

-i

-kah -mu

-kan

Partikel

Possessive Suffixes

Derivative Suffixes

-tah -nya

-an

-pun (pun)

-wan -wati -is (-ist)

-isme

2.1.3 Sisipan (Infiks)

Sisipan (infiks) adalah imbuhan yang dibubuhkan di tengah kata. Macam-macam sisipan dalam bahasa Indonesia dapat dilihat pada Tabel 5.

Tabel 5 Macam-macam infiks

No. Infiks

Contoh

1. -el-

Telunjuk – tunjuk

2. -em-

Kemilau – kilau

3. -er-

Gerigi – gigi

2.1.4 Gabungan Awalan dan Akhiran (Konfiks)

Konfiks merupakan kombinasi dari prefiks dan sufiks (Moeliono dan Dardjowidjojo, 1988). Kedua prefiks dan sufiks harus disisipkan bersama untuk memperoleh kata yang memiliki arti. Contoh prefiks ‘ber-’ dan sufiks ‘-an’ membentuk konfiks ‘berkejaran’. Jika sufiks ‘an’ dihilangkan (berkejar), kata ‘berkejar’ tidak memiliki makna, juga jika menghilangkan ‘-an’, kata ‘kejaran’ tidak memiliki makna. Kombinasi prefiks-sufiks dapat dilihat pada Tabel 6.

Tabel 6 Kombinasi imbuhan prefiks-sufiks

‘me-’, ‘per-’, ‘ber-’, ‘ter-’, dan ‘di-’

Perkenalan – kenal ‘me-’, ‘per-’, ‘ter-’, dan ‘di-’

‘-kan’

Memiliki – milik ‘ber-’ dan ‘ke-’

‘-i’

‘-an’

Kepercayaan - percaya

‘ter-’ + ‘per-’

‘se-’ + ‘per-’

‘ke-’ + ‘se-’ + ‘per-’

‘mem-’ + ‘per-’

‘di-’ + ‘per-’

Selain itu, terdapat kombinasi imbuhan yang tidak diperbolehkan dalam bahasa Indonesia yang dapat dilihat pada Tabel 7.

Tabel 7 Kombinasi imbuhan yang tidak diperbolehkan

Prefiks Sufiks yang tidak diperbolehkan

‘-i’ dan ‘-kan’

2.2 Imbuhan dari Bahasa Asing

Kata dasar pada bahasa Indonesia tidak hanya dapat dilekatkan oleh imbuhan bahasa Indonesia, namun dapat juga dilekatkan oleh imbuhan yang berasal dari bahasa asing. Kata-kata asing yang diserap dalam bahasa Indonesia pada dasarnya dipandang sebagai kata dasar, namun bentuk-bentuk kata asing itu bermacam- macam, sehingga memungkinkan untuk dilakukan analisis mengenai bentuk- bentuk tersebut dan menemukan awalan atau akhirannya. Contoh kata yang dilekatkan oleh imbuhan yang berasal dari bahasa asing dapat dilihat pada Tabel 8.

Tabel 8 Contoh kata yang dilekatkan imbuhan dari bahasa asing

Imbuhan Kata

Kata dasar

-if Objektivitas

Objek

-itas Objektivisme

Tabel 8 Contoh kata yang dilekatkan imbuhan dari bahasa asing (lanjutan)

Objektivisasi

-isasi Amoral

Awalan-awalan pada kata serapan bahasa asing adalah sebagai berikut.

1. a- seperti pada amoral, asosial, anonym, asimetris. Awalan ini mengandung arti ‘tidak’ atau ‘tidak ber’.

2. anti- seperti pada antikomunis, antipemerintah, antiklimaks, antimagnet, antikarat yang artinya ‘melawan’ atau ‘bertentangan dengan’.

3. bi- misalnya pada bilateral, biseksual, bilingual, bikonveks. Awalan ini artinya ‘dua’.

4. de- seperti pada dehidrasi, devaluasi, dehumanisasi, deregulasi. Awalan ini artinya ‘meniadakan’ atau ‘menghilangkan’.

5. eks- seperti pada eks-prajurit, eks-presiden, eks-karyawan, eks-partai terlarang. Awalan ini artinya ‘bekas’ yang sekarang dinyatakan dengan kata ‘mantan’.

6. ekstra- seperti pada ekstra-universiter, ekstra-terestrial, ekstra linguistic, kadang juga dipakai pada kata-kata bahasa Indonesia sendiri. Contoh: ekstra-ketat, ekstra-hati- hati. Awalan ini artinya ‘tambah’, ‘diluar’, atau ‘sangat’.

7. hiper- misalnya pada hipertensi, hiperseksual, hipersensitif. Awalan ini artinya ‘lebih’ atau ‘sangat’.

8. in- misalnya pada kata inkonvensional, inaktif, intransitive. Awalan ini artinya ‘tidak’.

9. infra- misalnya pada infrastruktur, inframerah, infrasonic. Awalan ini artinya ‘di tengah’.

10. intra- misalnya pad a intrauniversiter, intramolekuler. Awalan ini artinya ‘di dalam’.

11. inter- misalnya interdental, internasional, interisuler, yang biasa di Indonesiakan dengan antar-.

12. ko- misalnya pada kokulikuler, koinsidental, kopilot, kopromotor. Awalan ini artinya ‘bersama-sama’ atau ‘beserta’.

13. kontra- misalnya pada kontrarevolusi, kontradiksi, kontrasepsi. Awalan ini artinya ‘berlawanan’ atau ‘menentang’.

14. makro- misalnya pada makrokosmos, makroekonomi, makrolinguistik. Awalan ini artinya ‘besar’ atau ‘dalam arti luas’.

15. mikro- seperti pada mikroorganisme, mikrokosmos, microfilm. Awalan ini artinya ‘kecil’ atau ‘renik’.

16. multi- seperti pada multipartai, multijutawan, multikompleks, multilateral, multilingual. Awalan ini artinya ‘banyak’.

17. neo- seperti pada neokolonialisme, neofeodalisme, neorealisme. Awalan ini artinya ‘baru’; r. non- seperti pada nongelar, nonminyak, nonmigas, nonberas,

nonOpec. Awalan ini artinya ‘bukan’ atau ‘tidak ber-‘.

2.2.2 Akhiran

Pada kata-kata asing yang diserap ke dalam bahasa Indonesia, terdapat akhiran- akhiran seperti berikut.

1. –al misalnya pada actual, structural, emosional, intelektual. Kata-kata yang berakhiran –al ini tergolong kata sifat.

2. –asi/isasi misalnya pada afiksasi, konfirmasi, nasionalisasi, kaderisasi, komputerisasi. Akhiran tersebut meny atakan ‘proses menjadikan’ atau ‘penambahan’.

3. –asme misalnya pada pleonasme, aktualisme, sarkasme, antusiasme. Akhiran ini menyatakan kata benda.

4. –er seperti pada primer, sekunder, arbitrer, elementer. Akhiran ini menyatakan sifat.

5. –et seperti pada operet, mayoret, sigaret, novelete. Akhiran ini menyatakan pengertian ‘kecil’. Jadi operet itu ‘opera kecil’, novelet itu ‘novel kecil’.

6. –i/wi/iah misalnya pada hakiki, maknawi, asasi, asali, duniawi, gerejani, insani, harfiah, unsuriyah, wujudiyah. Akhiran-akhiran ini menyatakan sifat.

7. –if misalnya pada aktif, transitif, obyektif, agentif, naratif. Akhiran ini menyatakan sifat.

8. –ik 1 seperti pada linguistic, statistic, semantic, dedaktik. Akhiran ini menyatakan ‘benda’ dalam arti ‘bidang ilmu’; -ik 2 seperti pada spesifik, unik, karakteristik, fanatic, otentik. Akhiran ini menyatakan sifat.

9. -il seperti pada idiil, materiil, moril. Akhiran ini menyatakan sifat. Pada kata- kata lain kata-kata ini diganti dengan –al.

10. –is 1 pada kata praktis, ekonomis, yuridis, praktis, legendaries, apatis. Akhiran ini menyatakan sifat; -is 2 pada kata ateis, novelis, sukarnois, Marxis, prosaic, esei. Akhiran ini menyatakan orang yang mempunyai faham seperti disebut dalam kata dasar, atau orang yang ahli menulis dalam bentuk seperti yang disebut di dalam kata dasar.

11. -isme seperti pada nasionalisme, patriotisme, Hinduisme, bapakisme. Isme artinya ‘faham’.

12. –logi seperti pada filologi, sosiologi, etimologi, kelirumologi, -logi artinya ‘ilmu’.

13. –ir seperti pada mariner, avonturir, banker. Akhiran ini menyatakan orang yang bekerja pada bidang atau orang yang mempunyai kegemaran ber-.

14. –or seperti pada editor, operator, deklamator, noderator. Akhiran ini artinya orang yang bertindak sebagai orang yang mempunyai kepandaian seperti yang tersebut pada kata dasar.

15. –ur seperti pada donator, redaktur, kondektur, debitur, direktur. Akhiran ini seperti yang di atas menyatakan agentif atau pelaku.

16. –itas seperti pada aktualitas, objektivitas, universitas, produktivitas. Akhiran ini menyatakan benda.

Beberapa awalan dapat digolongkan sebagai imbuhan yang menyatakan pengertian negative , yaitu awalan a-, in-, non-, dis- dan beberapa awalan lain yang tak tercantum dalam daftar di atas seperti ab-, im-, il- dan akhiran –less, yang artinya ‘tidak’, ‘bukan’, ‘tanpa’, atau ‘tidak ber’. Kata sifat dibentuk dengan penambahan akhiran –al, er-, if-, dan –ik. Selain itu, dapat juga digunakan akhiran dari bahasa Arab yaitu –i, -wi, dan -iah.

Penggunaan akhiran yang sering mengalami keraguan ialah penggunaan akhiran – is dan –il. Akhiran –is diserap dari bahasa Belanda –isch, sedangkan –ik dari bahasa Inggris –ic atau –ical. Sementara itu akhiran –ik diserap juga dari akhiran –ics dari bahasa Inggris yang menandai kata benda, seperti statistic, linguistic, semantic, fonetic . Seperti yang digariskan di dalam Pedoman Pembentukan Istilah, mengingat akhiran –ik banyak digunakan untuk menandai kata benda, seperti statistic, linguistic , semantic, logistic, dan sebagainya, sedangkan untuk kata sifat hendaknya digunakan –is, kecuali pada kata-kata simpatik, unik, alergik, spesifik, karakteristik, analgesik. Akhiran yang berasal dari bahasa Arab yang terasa lebih bersifat Indonesia, dapat digunakan untuk menerjemahkan kata-kata asing, misalnya penalaran mantiki (logika reasoning), antropologi ragawi (physical anthropology), makhluk surgawi (devine being), terjemahan harfiah (letteral translation), dan sebagainya. Di samping itu, untuk menyatakan pengertian seperti yang dinyatakan oleh bentukan-bentukan dalam bahasa asing, dalam bahasa Indonesia digali imbuhan atau kata-kata yang diharapkan dapat menjadi padanan bentukan- bentukan dalam bahasa asing (Johannes, 1982 dan 1983, dan dalam Moeliono dan

Dardjowidjojo (Eds.), 1988:431). Daftar afiks, morfem, atau kata tersebut adalah sebagai berikut.

1. adi- seperti pada adidaya (super power), adikodrati (super natural), adikarya (masterpiece), adibusana (high fashion), dan adimarga (boulevard).

2. alih seperti pada alih aksara (transliteration), alih tulis (transcript), alih teknologi (transfer of technology), dan alih bahasa (translate).

3. antar- seperti pada antarbangsa (internasional), antarnusa (interinsuler), antarbenua (intercontinental), dan antardepartemen (interdepartmental).

4. awa- seperti pada awahama (disinfect), awabau (deodorize), awahubung (disconnect), awawarna (discolor), dan pengawasan (disimilasi).

5. bak- seperti pada bakruang (space-like), bakelektron (electron-like), bakintan (adamantine), dan bakagar (galantineous).

6. dur- seperti pada durjana (evildoer), dursila (immoral), durkarsa (malevolence, malice ), dan durhaka (sinful).

7. lepas seperti pada lepas landas (takeoff) dan lepas pantai (offshore).

8. lir- seperti pada lirkaca (glassy), liragar (galantineous), liritan (adamantine), dan sang lir sari ‘yang seperti bunga’.

9. maha- seperti pada maharaja (kaisar, raja besar), mahaguru (guru besar), mahasiswa, Maha Esa, Mahaadil, Mahakuasa, dan Maha Pemurah.

10. mala- seperti pada malagizi (malnutrition), malabentuk (malformation), malakelola (mismanage), dan malapraktik (malpractice).

11. nara seperti pada narasumber (resource person), narapidana (convicted), narapraja (pegawai pemerintah), dan nararya (nonbleman).

12. nir- seperti pada nirnoda (stainless), nirnyawa (inanimate), niraksara (illiterate), nirgelar (non-degree), dan niranta (infinite).

13. pasca- seperti pada pascapanen (postharvest), pascasarjana (postgraduate), pascadoktor (postdoctoral), dan pascaperang (postwar).

14. peri- seperti pada perijam (clockwise), periujung (endwise), perkipas (fanwise), dan peridolar (dollarwise).

15. pra- seperti pada prasejarah (prehistory), prakira (forecast), pratinjau (preview), dan prakata (foreword, preface).

16. pramu- seperti pada pramugari (stewardes), pramuwisata (tourist guide), pramuria (hostess), dan pramusiwi (babysitter).

17. purna- seperti pada purnawaktu (fulltime), purnakarya (pekerjaan yang telah dilakukan dengan baik), purnakaryawan (pensiunan pegawai negeri), dan purnawirawan (pensiunan ABRI).

18. rupa seperti pada rupa bola (speroid), rupa tangga (scalariform), dan rupa baji (cuneiform).

19. salah seperti pada salah cetak (misprint), salah hitung (miscalculate), salah ucap (misspel), dan salah paham (misunderstanding).

20. serba- seperti pada serbasama (homogeneous), serbabisa (all-round), serbaguna (multipurpose), serbaneka (multivarious), dan serbacuaca (allweather).

21. su- seperti pada sujana (orang baik lawannya durjana), susastra (sastra yang baik, indah), suganda (bau yang harum), sukarsa (good-will), dan sudarma (darma yang baik).

22. swa- seperti pada swakarsa (kemauan sendiri), swasembada (dapat memenuhi kebutuhan sendiri), swadaya (kekuatan sendiri), swakelola (dikelola sendiri), dan swapraja (daerah otonom).

23. tan- seperti pada tanlogam (non-metal), tansuku (non-syllabic), tanvokoid (non- vokoid ), dan tanorganik (anorganic, inorganic).

24. tak- seperti pada taksosial (asocial), taknormal (abnormal), taksah (illegal), takhidup (nonliving), dan takmurni (impure).

25. tata seperti pada tata bahasa, tata hokum, tata kalimat, dan tata nama.

26. tuna- seperti pada tunakarya, tunawisma, tunasusila, dan tunanetra.

27. Sisipan –in- seperti pada tinambah (addent), kinurang (subtrahend), binagi (dividend), minantu (son-in-low), dan linambang (sign).

28. Sisipan –em- seperti pada gemaung (echoic), gemetar (tremulous), timambah (additive), dan temerang (shiny).

29. Awalan bilangan eka- seperti pada ekaprasetya dan ekasila.

30. Awalan bilangan dwi- seperti pada dwiwarna dan dwipihak.

31. Awalan bilangan tri- seperti pada tridarma, triratna, dan tritunggal.

32. Awalan bilangan catur- seperti pada caturwarga.

33. Awalan bilangan panca- seperti pada pancamarga dan pancasila.

34. Awalan bilangan sad- seperti pada sadpada.

35. Awalan bilangan sapta- seperti pada saptaprasetya dan saptamarga.

36. Awalan bilangan hasta- seperti pada hastabrata.

37. Awalan bilangan nawa- seperti pada nawaaksara.

38. Awalan bilangan dasa- seperti pada dasasila.

39. Akhiran –wan/-man/-wati Akhiran –wan ditambahkan pada kata-kata benda yang berakhir dengan vokal

a seperti pada gunawan, bangsawan, hartawan, negarawan, sastrawan, dan sebagainya. Untuk kata-kata yang berakhir dengan vokal i atau u dulu digunakan akhiran – man seperti pada seniman, budiman, dan hanuman. Sekarang varian –man sudah tidak produktif lagi, akhiran –wan digunakan juga untuk kata benda yang tidak berakhir dengan vokal a, contohnya rokhaniwan, bahariwan, dan ilmuwan. Terkadang ada kecenderungan untuk menambahkan vokal a pada kata yang berakhir dengan vokal i, misalnya industriawan.

2.3 Ejaan Bahasa Indonesia yang Disempurnakan (EYD)

Ejaan adalah kaidah tulis menulis baku yang didasarkan pada penggambaran bunyi. Ejaan tidak hanya mengatur cara menulis huruf, tetapi juga cara menulis kata dan cara menggunakan tanda baca (Kushartanti, 2005).

Ejaan yang digunakan dalam bahasa Indonesia saat ini dikenal dengan sebutan Ejaan yang Disempurnakan (EYD), yang terdiri atas empat bab, yaitu pemakaian huruf, penulisan kata, pemakaian tanda baca, dan penulisan unsur serapan.

Salah satu yang diungkapkan pada EYD adalah penulisan kata. Hal-hal yang diuraikan dalam penulisan kata ini menyangkut petunjuk penulisan kata dasar, kata berimbuhan, bentuk ulang, gabungan kata, pemenggalan kata, kata depan, partikel, Salah satu yang diungkapkan pada EYD adalah penulisan kata. Hal-hal yang diuraikan dalam penulisan kata ini menyangkut petunjuk penulisan kata dasar, kata berimbuhan, bentuk ulang, gabungan kata, pemenggalan kata, kata depan, partikel,

2.3.1 Kata Berimbuhan

1. Imbuhan (awalan, sisipan, akhiran, serta gabungan awalan dan akhiran) ditulis serangkai dengan bentuk dasarnya. Misalnya ‘berjalan’, ‘berkelanjutan’, ‘mempermudah’, ‘gemetar’, ‘lukisan’, ‘kemauan’, dan ‘perbaikan’. Catatan: Imbuhan yang diserap dari unsur asing, seperti –isme, -man, -wan, atau –wi, ditulis serangkai dengan bentuk dasarnya. Misalnya ‘sukuisme’, ‘seniman’, ‘kamerawan’, dan ‘gerejawi’.

2. Bentuk terikat ditulis serangkai dengan kata yang mengikutinya. Misalnya ‘adibusana’, ‘aerodinamika’, ‘antarkota’, ‘antibiotik’, ‘awahama’, ‘biokimia’,

‘bikarbonat’, ‘dekameter’, ‘demoralisasi’, ‘dwiwarna’, ‘ekabahasa’, ‘ekstra- kurikuler ’, ‘infrastruktur’, ‘inkonvensional’, ‘kontraindikasi’, ‘kosponsor’, ‘mancanegara’, ‘multilateral’, ‘narapidana’, ‘nonkolaborasi’, ‘paripurna’, ‘pascasarjana’, ‘pramusaji’, ‘prasejarah’, ‘proaktif’, ‘purnawirawan’, ‘sapta- krida ’, ‘semiprofesional’, ‘subbagian’, ‘swadaya’, ‘telewicara’, ‘transmigrasi’, ‘tunakarya’, ‘tritunggal’, ‘tansuara’, dan ‘ultramodern’. Catatan:

a. Bentuk terikat yang diikuti oleh kata yang berhuruf awal kapital atau singkatan yang berupa huruf kapital dirangkaikan dengan tanda hubung (-). Misalnya ‘non-Indonesia’, ‘pan-Afrikanisme’, ‘pro-Barat’, ‘non-ASEAN’, dan ‘anti-PKI’.

b. Bentuk maha yang diikuti kata turunan yang mengacu pada nama atau sifat Tuhan ditulis terpisah dengan huruf awal kapital. Misalnya:

1) Marilah kita bersyukur kepada Tuhan Yang Maha Pengasih.

2) Kita berdoa kepada Tuhan Yang Maha Pengampun.

c. Bentuk maha yang diikuti kata dasar yang mengacu pada nama atau sifat Tuhan, kecuali kata esa, ditulis serangkai. Misalnya:

1) Tuhan Yang Mahakuasa menentukan arah hidup kita.

2) Mudah-mudahan Tuhan Yang Maha Esa melindungi kita.

2.3.2 Gabungan Kata

1. Unsur gabungan kata yang lazim disebut kata majemuk, termasuk istilah khusus, ditulis terpisah. Misalnya ‘duta besar’, ‘kambing hitam’, ‘orang tua’, ‘simpang empat’, ‘mata acara’, ‘model linier’, ‘persegi panjang’, ‘rumah sakit jiwa ’, ‘meja tulis’, dan ‘cendera mata’.

2. Gabungan kata yang dapat menimbulkan salah pengertian ditulis dengan membubuhkan tanda hubung (-) di antara unsur-unsurnya. Misalnya: anak-istri pejabat

anak istri-pejabat

ibu -bapak kami

ibu bapak-kami

buku -sejarah baru

buku sejarah-baru

3. Gabungan kata yang penulisannya terpisah tetap ditulis terpisah jika mendapat awalan atau akhiran. Misalnya ‘bertepuk tangan’, ‘menganak sungai’, ‘garis bawahi ’, dan ‘sebar luaskan’.

4. Gabungan kata yang mendapat awalan dan akhiran sekaligus ditulis serangkai. Misalnya ‘dilipatgandakan’, ‘menggarisbawahi’, ‘menyebarluaskan’, ‘peng- hancurleburan ’, dan ‘pertanggungjawaban’.

5. Gabungan kata yang sudah padu ditulis serangkai. Misalnya ‘akhirulkalam’, ‘adakalanya’ , ‘Alhamdulillah’, ‘apalagi’, ‘astagfirullah’, ‘bagaimana’, ‘bea-

siswa ’, ‘barangkali’, ‘belasungkawa’, ‘bilamana’, ‘bismillah’, ‘bumiputra’, ‘daripada’, ‘darmabakti’, ‘darmasiswa’, ‘darmawisata’, ‘dukacita’, ‘halal- bihalal ’, ‘hulubalang’, ‘kacamata’, ‘kasatmata’, ‘kepada’, ‘keratabasa’, ‘kilo- meter ’, ‘manakala’, ‘manasuka’, ‘mangkubumi’, ‘matahari’, ‘olahraga’, ‘pada- hal ’, ‘paramasastra’, ‘peribahasa’, ‘perilaku’, ‘puspawarna’, ‘radioaktif’, ‘sapu- tangan ’, ‘saptamarga’, ‘sebagaimana’, ‘sediakala’, ‘segitiga’, ‘sekalipun’, ‘silaturahmi’, ‘sukacita’, ‘sukarela’, ‘sukaria’, ‘syahbandar’, ‘titimangsa’, ‘waralaba’, ‘wassalam’, ‘wiraswasta’, ‘apabila’, ‘kosakata‘, dan ‘lokakarya’.

2.3.3 Kata depan

Kata depan di ditulis terpisah dari kata yang mengikutinya. Misalnya:

1) Di mana dia sekarang?

2) Kain itu disimpan di dalam lemari.

2.4 Text Preprocessing

Proses text preprocessing bertujuan untuk menghilangkan noise yang terdapat pada dokumen teks dan mengambil fitur atau parameter penting yang terdapat pada dokumen teks. Istilah lain dari proses ini adalah feature extractor. Tahapan-tahapan pada text preprocessing dapat dilihat pada Gambar 2.

1. Tokenizing Tokenizing adalah pemotongan string input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan men-scan kalimat dengan pemisah (delimeter) white space (spasi, tab, dan newline ) (Triawati, 2009). Deretan karakter dikatakan satu token apabila diakhir karakter ada tanda titik (.), tanda koma (,), tanda spasi ( ), dan tanda enter, namun apabila diakhir karakter ada tanda minus (-), maka dianggap satu term. Misalnya ‘kunang-kunang’, kumpulan karakter tersebut dianggap satu token.

Gambar 2 Flowchart text preprocessing

2. Filtering

Filtering adalah proses pengambilan kata-kata yang dianggap penting atau mempunyai makna saja. Pada proses ini kata-kata yang dianggap tidak mempunyai makna seperti kata sambung dihilangkan (Triawati, 2009). Pada

proses ini digunakan daftar stopword yang tersimpan dalam suatu tabel basis data, yang nantinya digunakan sebagai acuan penghilangan kata. Daftar stopword berbeda untuk setiap bahasanya. Stopword/stoplist adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah ‘yang’, ‘dan’, ‘di’, ‘dari’ dan seterusnya (Triawati, 2009). Selain kata penghubung, stopwords bisa terdiri atas beberapa kata keterangan atau yang lainnya. Menurut Kabul (2012) contoh dari stopwords dalam bahasa Indonesia adalah sebagai berikut.

1. Kata penghubung (sesudah, selesai, sebelum)

2. Kata penghubung (bagi, dari, dengan, pada)

3. Kata keterangan (sangat, hanya, lebih)

4. Kata bilangan (berapa, banyak, sedikit)

5. Kata ganti (kami, mereka, kita, itu)

3. Case Folding Case Folding merupakan tahapan yang mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan huruf ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter (pembatas) (Triawati, 2009).

2.5 Lemmatization Technique in Bahasa: Indonesian Language

A. K. Ingason (2008) mengemukakan bahwa lemmatization adalah sebuah proses untuk menemukan bentuk dasar dari sebuah kata. Nirenburg (2009) mendukung teori ini dengan kalimatnya yang menjelaskan bahwa lemmatization adalah proses yang bertujuan untuk melakukan normalisasi pada teks dengan berdasarkan pada bentuk dasar yang merupakan bentuk lemmanya. Normalisasi disini adalah dalam artian mengidentifikasikan dan menghapus prefiks serta sufiks dari sebuah kata.

Lema adalah bentuk dasar dari sebuah kata yang memiliki arti tertentu berdasar pada kamus (Suhartono, 2014).

Algoritme lemmatization didasarkan pada algoritme Enhanced Confix-Stripping Stemmer (ECS) hasil pengembangan Arifin, Mahendra, dan Ciptaningtyas. Algoritme ECS ini memiliki tingkat akurasi yang tinggi, khususnya untuk subjek stemming bahasa Indonesia. ECS merupakan algoritme yang dikembangkan dari algoritme Confix-Stripping Stemmer yang dikembangkan oleh Asian, Nazief, Adriani, dan Tahaghoghi (2007). Pengembangan tersebut dilakukan dengan memperbaiki aturan-aturan dan menambahkan langkah suffix backtracking untuk meningkatkan tingkat akurasi.

Algoritme lemmatization tidak melakukan pengembangan dari algoritme ECS karena keduanya memiliki tujuan yang berbeda, namun keduanya memiliki kemiripan pada beberapa proses, contohnya, removal of affix, yaitu proses untuk mendapatkan bentuk dasar lema.

Terdapat beberapa kasus yang tidak dapat ditangani oleh algoritme ECS, sehingga lemmatization ini adalah solusi untuk kasus-kasus tersebut, diantaranya:

1. Ineffectice rules , khususnya aturan ‘meny-’ dan ‘peny-’. Contohnya kata ‘penyanyi’ dan ‘menyatakan’ tidak dapat dilakukan stemming.

2. Compound word , seperti kata ‘diberitahukan’ tidak dapat dilakukan stemming.

3. Overstemming , seperti kata ‘penyidikan’ apabila dilakukan stemming menghasilkan kata ‘sidi’.

4. Understemming , seperti kata ‘mengalami’ apabila dilakukan stemming menghasilkan kata ‘alami’.

Remove

Remove Remove

Inflectio nal

Input Word

Dictionary Failed

Check Rule

Remove Remove

Inflectio nal

inp ut word

Lemma

END

Gambar 3 Flowchart algoritme Lemmatization (Suhartono, 2014)

Tahapan proses-proses yang dilakukan pada algoritme lemmatization ini dapat dilihat pada Gambar 3. Tahapan-tahapan tersebut adalah sebagai berikut.

1. Dictionary Lookup Proses ini dilakukan untuk mencari lema pada kamus, yang dimaksud kamus di sini ialah daftar kata dasar bahasa Indonesia. Jika lema ditemukan, proses dihentikan kemudian lema dikembalikan sebagai hasil dari proses. Proses ini dilakukan pada setiap lema yang dicari pada kamus untuk mengembalikan lema tersebut sebagai hasilnya.

2. Rule Precedence Check Proses ini dilakukan untuk menentukan urutan proses-proses lain yang harus dilakukan. Proses prefix removal dilakukan sebelum suffix removal jika memenuhi kombinasi berikut.

a. ‘be-’ dan ‘-lah’

b. ‘be-’ dan ‘-an’

c. ‘me-’ dan ‘-i’

d. ‘di-’ dan ‘-i’

e. ‘pe-’ dan ‘-i’

f. ‘te-’ dan ‘-i’ Jika kata yang dimasukkan mengandung salah satu kombinasi prefiks-sufiks di

atas, maka urutan proses selanjutnya derivational prefix removal, recoding, inflectional suffix removal, dan derivational suffix removal, namun jika kata yang dimasukkan mengandung afiks yang tidak sesuai dengan kombinasi di atas, maka proses infectional suffix removal dan derivational suffix removal dilakukan terlebih dahulu.

3. Inflectional Suffix Removal Pada inflectional suffix terdapat dua macam akhiran (sufiks), yaitu partikel (‘- lah’, ‘’kah’, ‘-tah’, ‘-pun’) dan possessive pronoun (‘-ku’, ‘-mu’, ‘-nya’). Dalam struktur bahasa Indonesia, partikel selalu berada pada akhir kata, sehingga proses ini dilakukan untuk menghilangkan partikel tersebut sebelum 3. Inflectional Suffix Removal Pada inflectional suffix terdapat dua macam akhiran (sufiks), yaitu partikel (‘- lah’, ‘’kah’, ‘-tah’, ‘-pun’) dan possessive pronoun (‘-ku’, ‘-mu’, ‘-nya’). Dalam struktur bahasa Indonesia, partikel selalu berada pada akhir kata, sehingga proses ini dilakukan untuk menghilangkan partikel tersebut sebelum

dihilangkan terlebih dahulu s ehingga menghasilkan kata ‘bajuku’, kemudian dilakukan proses dictionary lookup namun pada proses dictionary lookup kata

‘bajuku’ tidak ditemukan, selanjutnya possessive pronoun ‘-ku’ dihilangkan sehingga menghasilkan kata ‘baju’.