Latent Semantic Analysis

b. Latent Semantic Analysis

perbandingan materi mencakup assignment spesifik text. Latent Semantic Analysis (LSA) adalah teori dan

Dengan Menggunakan tiga definisi P(d i ), P(z k |d i ), dan

P(w j |z k ) kita dapat membangun probabilitas dari P(d,w), yaitu:

*+ (8) P(d,w) = P(d)P(w|d), dengan

Atau dengan kata lain untuk P(w j |z k ) jumlah dari P(w|d) =

nilai untuk setiap kolom harus 1, untuk P(d i |z k ) jumlah dari nilai untuk setiap baris harus 1, dan

P(d), P(z|d), P(w|z) dapat ditentukan dengan cara untuk P(z k ) jumlah dari nilai secara diagonal harus memaksimalkan fungsi likelihood berikut:

3. Menjalankan tahap E-Step dengan menggunakan L=

parameter P(w j |z k ), P(d i |z k ), dan P(z k ) saat ini.

4. Menjalankan tahap M-Step dengan menggunakan Dimana n(d,w) merupakan nilai term pada dokumen

parameter yang telah dihitung pada E-Step. (dapat merupakan TF ataupun TFIDF).

5. Menghitung nilai likelihood(L) berdasarkan nilai parameter saat ini.

d. Expectation Maximization Algorithm (EM)

6. Membandingkan nilai likelihood saat ini dengan

nilai likelihood sebelumnya apabila terjadi Algoritma Expectation Maximization (EM) merupakan

peningkatan maka kembali ke langkah 3, apabila prosedur standar untuk memperkirakan maximum

tidak terjadi peningkatan maka berhenti.[7][11] likelihood dalam model variabel laten. Algoritma EM terbagi menjadi dua langkah : langkah Expectation (E- Step) , yaitu langkah dimana posterior probability untuk

e. Mixture Decomposition

variable z dihitung berdasarkan kepada perkiraan Dekomposisi PLSA menggunakan teknik mixture parameter saat itu, dan langkah kedua Maximization (M-

decomposition yang berasal dari kelas model laten dan Step) , yaitu langkah untuk mengupdate parameter yang

didalamnya menggunakan algoritma EM yang dipergunakan untuk menghitung posterior probability

Dekomposisi PLSA untuk variabel z, parameter yang diupdate pada langkah

dijalankan secara

berulang.

menggunakan notasi :

ini digunakan untuk menghitung likelihood dan bergantung pada posterior probability yang dihitung

X=UV t (9) pada tahap E-Step. [7][5] Pada E-Step, posterior probability yang dihitung

Dengan U merupakan matriks P(d|z), V merupakan yaitu probability untuk variabel z dengan mengamati

matriks P(w|z) , dan merupakan matriks diagonal P(z). parameter word w dalam suatu dokumen d. Rumus dari

Ilustrasi dekomposisi ditunjukkan pada gambar 3. E-Step :

P (z k |d i ,w j ) =

Pada M-Step parameter yang diupdate yaitu parameter P(z), P(d|z), dan P(w|z) dengan menggunakan bantuan dari probability z yang dihitung pada E-Step. Rumusnya adalah:

P (w j |z k ) =

Gambar 3 Ilustrasi Dekomposisi

Untuk mendapatkan dekomposisi yang optimal PLSA P (d i |z k ) =

menggunakan fungsi likelihood dengan memaksimalkan

nilai dari fungsi likelihood.[1][7] P (z k )= % "

, dengan

f. Cosine Simmilarity

R=

Untuk menentukan kemiripan antara dua buah Prosedur yang digunakan untuk menjalankan

dokumen kita gunakan teknik cosine similarity.[11] [9] algoritma EM ini yaitu :

Rumus dari cosine similarity adalah :

1. Tahap inisialisasi yaitu memberikan nilai untuk

P (w |z ) , P (d i |z k ), dan P(z ) secara acak (random).

Cos(x,y) =

2. Nilai acak yang telah diberikan kepada P(w j |z k ),

P (d i |z k ), dan P(z k ) kemudian dinormalisasi dengan

g. Euclidean Distance

aturan: Untuk menghitung nilai dari essay kita gunakan aturan: Untuk menghitung nilai dari essay kita gunakan

soal yang tertera pada system. Kemudian mahasiswa menginputkan nomor induk mahasiswa (NIM) dan

D(q,p) = ""4 ,)$ 5 , −7 ,8

menginputkan (entry) jawaban kedalam system. Dimana diasumsikan bahwa jumlah mahasiswa yang menjawab

Kemudian untuk menghitung jarak Euclidean pertanyaan sistem lebih dari satu. distance ternormalisasi dari vektor fitur kita gunakan

Setelah seluruh mahasiswa input satu persatu rumus :

kedalam system, maka admin (user2) mulai memproses ketiga tipe dokumen tersebut (essay mahasiswa, materi,

9 @ AB <<<=>; :; <<< ?

D(q,p) = ""

C (12)

dan jawaban kunci), dimana didalamnya terdapat proses preprocessing dan stemming, serta pemodelan metode

teknik EM(Expectation Dengan =2 karena sifat dari jarak Euclidean yang Maximization). Seluruh tipe dokumen bertipe .txt ternormalisasi adalah hasilnya berada pada rentang 0 dimana tipe dokumen materi dan jawaban kunci D(q,p) 2. Semakin kecil nilai D(q,p) maka semakin dimasukkan terlebih dahulu dan disimpan dalam bentuk mirip kedua vektor fitur yang dicocokkan. Sebaliknya file, serta oleh system hanya diinputkan sekali untuk semakin besar nilai D(q,p) maka semakin berbeda kedua selanjutnya dilakukan proses perbandingan dengan vektor fitur itu.[10]

PLSA

menggunakan

dokumen jawaban mahasiswa.

Langkah ketiga adalah proses scoring dimana dicari

Perancangan Sistem

nilai similaritas antara dokumen mahasiswa dengan Kasus penilaian essay secara otomatis pada

materi (Essay - Ref) dan nilai similaritas antara dokumen penelitian ini adalah bagaimana memberikan nilai pada

jawaban kunci dengan materi (Prescore - Ref). Disini suatu essay dengan menggunakan metode PLSA.

matriks yang dihitung nilai similaritasnya adalah matriks Dimana inti dari metode PLSA adalah membangun

P(d|z) terupdate dari ketiga tipe dokumen yang telah sebuah model.

diproses dengan teknik EM. Matriks P(d|z) dipilih Dalam menentukan suatu nilai pada sistem

dikarenakan esensi dari metode PLSA adalah kesamaan dilakukan dengan kombinasi 2 cara pendekatan yaitu

dokumen berdasarkan topik yang tersembunyi dimana pertama dengan membandingkan dokumen essay yang

terdapat suatu gejala dimana setiap orang dapat akan dinilai dengan dokumen jawaban kunci dan yang

menggunakan kata berbeda untuk maksud yang sama. kedua membandingkan dokumen jawaban essay dengan

Selanjutnya didapat dua himpunan matriks similarity dokumen materi. Arsitektur detail dari sistem automatic

yaitu matriks similarity Essay – Ref dan matriks essay grading ditunjukkan pada bagian lampiran gambar

similarity Prescore – Ref. Setelah itu nilai Matriks

1. Pertama kali dosen melakukan proses input tipe Similarity Prescore – Ref dijadikan acuan untuk dokumen materi dan dokumen jawaban kunci.

dibandingkan dengan nilai similarity Essay – Ref dimana Kemudian yang kedua sistem melakukan pemodelan

tekniknya menggunakan metode Euclidean Distance PLSA terhadap tipe dokumen yang telah dimasukkan,

yang telah dinormalisasi dikalikan dengan nilai batas yang ketiga kedua tipe dokumen jawaban kunci dan

tertinggi yang dosen berikan untuk ujian. Perancangan materi dibandingkan (Pre - Ref) oleh sistem sehingga

sistem untuk pengujian yang dijelaskan diatas dapat diperoleh batasan nilai sistem. Lalu yang keempat

dilihat pada lampiran.

mahasiswa melakukan proses input jawaban, yang

kelima jawaban-jawaban mahasiswa dimodelkan dengan

Hasil Pengujian dan Analisis

PLSA, yang keenam jawaban mahasiswa dibandingkan Hasil pengujian Automatic Essay Grading ini dengan materi (Ess - Ref) dan dibandingkan dengan (Pre digunakan untuk melihat seberapa miripkah penilaian

- Ref ) menghasilkan nilai akhir dari mahasiswa .

yang dilakukan oleh sistem dengan penilaian jawaban essay yang dinilai secara manual oleh dosen.

Pengujian

Dari pengujian yang telah dilakukan terhadap 2 data Pengujian yang dilakukan terhadap Automatic Essay

uji dimana untuk data 1 jumlah mahasiswa adalah 25 Grading System ini mencakup beberapa langkah.

anak dengan nilai maksimal 19 sedangkan untuk data 2 Langkah pertama adalah seorang admin (user1)

jumlah mahasiswa adalah 30 anak dengan nilai dalam hal ini bisa dosen atau guru menginputkan

maksimal 10 memberikan hasil dan analisa sebagai dokumen jawaban kunci, dokumen jawaban materi, ke

berikut:

dalam system, sedangkan soal telah menjadi satu dengan

system. Dalam penelitian ini soal, jawaban kunci, dan

a. Analisa Pengaruh Variabel Laten terhadap

dokumen materi didapat dan dipilih dari dua dosen mata

Jawaban Mahasiswa

kuliah Bahasa Inggris I(Akademi Writing), yaitu ibu Florita untuk data 1 dan ibu Aisha Hudaya untuk data 2.

D = Dokumen Essay

Langkah kedua setelah dokumen materi dan jawaban

Z = Variabel Laten

kunci dimasukkan maka user2 dalam hal ini bisa

Tabel 1 Pengaruh Variabel Laten terhadap Dokumen Essay (data1)

Tabel 2 Pengaruh Variabel Laten terhadap Dokumen Essay (data2)

Z=9 Z=10 Z=11 Z=12 Z=13 Z=14 Z=15 Z=9 Z=10 Z=11 Z=12 Z=13 Z=14 Z=15

Variabel Laten

Variabel Laten

D=2 D=3 D=4 D=5 D=6 D=7 D=8 D=9 D=2 D=3 D=4 D=5 D=6 D=7 D=8 D=9

Gambar 6 Pengaruh Variabel Laten terhadap

Dokumen Essay(data1) Gambar 7 Pengaruh Variabel Laten terhadap Dokumen

Essay(data2)

Pada gambar 6 dan 7 dapat kita lihat kecenderungan Pada gambar 6 dan 7 dapat kita lihat kecenderungan

peningkatan nilai z baik untuk data 1 maupun data 2

1 (gambar 6) rata-rata tingkat kemiripan tertinggi berada tanpa pengaruh dari input dokumen essay. Pada gambar pada z=12, sedangkan untuk data 2 (gambar 7) rata-rata

8 dan 9 akurasi meningkat sampai tingkat tertinggi pada tingkat kemiripan tertinggi berada pada z=10. Hal ini

nilai z = 12 untuk data 1 dan z=11 untuk data 2 dengan menunjukkan bahwa untuk data 1, mahasiswa cenderung

rata-rata nilai akurasi pada rentang 53-62% untuk data 1 menjawab pada topik atau konsep dengan z = 12.

dan 82-89% untuk data 2. Sebagaimana esensi dari Kemudian untuk data 2, mahasiswa cenderung

metode PLSA dimana melakukan pencocokan dokumen menjawab pada topik atau konsep dengan z = 10.

berdasarkan topik (konsep) maka berdasarkan gambar 8 Keterhubungan antara variabel laten dengan input

dan 9 dapat dikatakan bahwa dokumen jawaban materi dokumen essay untuk data 1 dapat dilihat pada tabel 1

dan kunci (Prescore – Ref ) memiliki kecenderungan dan gambar 3 dimana rata-rata akurasi nilai jawaban

mempunyai topik (konsep) dimana z = 12 untuk data 1 mahasiswa cenderung meningkat seiring dengan

dan z = 11 untuk data 2.[7]

peningkatan variabel laten (z) dan peningkatan nilai Berdasarkan dua pengujian di atas juga dapat input dokumen essay sampai z=12 dan D = 5 selanjutnya

diketahui bahwa tingkat akurasi dari hasil penilaian akan rata-rata akurasi nilai jawaban mahasiswa cenderung

semakin meningkat ketika rentang nilai yang diberikan menurun ketika nilai input dokumen essay dan variable

oleh dosen mengecil. Pada data 1 menghasilkan rata-rata latent meningkat.

tingkat akurasi 53 – 77% pada pengujian pertama dan 55 Begitu pula dengan data 2 pada tabel 2 dan gambar

– 66% pada pengujian kedua dengan rentang nilai yang

7 dimana rata-rata akurasi nilai jawaban mahasiswa diberikan dosen 0 – 19. Kemudian untuk data 2 cenderung meningkat seiring dengan peningkatan

menghasilkan rata-rata tingkat akurasi 83 – 91% pada variable latent (z) dan peningkatan nilai input dokumen

pengujian pertama dan 82 – 89 % pada pengujian kedua essay sampai z=10 dan D =5 selanjutnya rata-rata

dengan rentang nilai yang diberikan adalah 0 – 10. akurasi nilai jawaban mahasiswa cenderung menurun ketika nilai input dokumen essay dan variabel laten

Kesimpulan dan Saran

meningkat.

a. Kesimpulan

Berdasarkan analisis terhadap hasil pengujian,

b. Analisa Pengaruh Variabel Laten terhadap

Penelitian ini memiliki kesimpulan sebagai berikut:

Kemiripan dengan Nilai Manual

1. Sistem automatic essay grading dengan metode PLSA memiliki rata-rata tingkat akurasi dari hasil penilaian sistem meningkat jika rentang nilai yang

60 diberikan oleh dosen mengecil dimana untuk data 1

50 ty

dengan rentang nilai manual 0 – 19 rata-rata tingkat

40 a ri

akurasi 53 – 77% sedangkan untuk data 2 dengan

30 il

rentang nilai manual 0 – 10 rata-rata tingkat akurasi

2. Penilaian jawaban mahasiswa dipengaruhi oleh

0 jumlah input dokumen essay (D) dan variable latent Z=9 Z=10 Z=11 Z=12 Z=13 Z=14 Z=15

(z) dimana rata-rata nilai akurasi akan meningkat

sampai pada nilai input dokumen essay (D) dan Rata-Rata Kemiripan(%)

Variabel Laten

variabel laten (z) tertentu.

3. Pada data 1 rata-rata nilai akurasi cenderung Gambar 8 Pengaruh Variabel Laten terhadap

meningkat seiring dengan peningkatan nilai z dan D Kemiripan (data 1)

hingga nilai z = 12 dan D = 4, sedangkan untuk data

2 peningkatan rata-rata nilai akurasi terjadi sampai nilai z = 10 dan D = 5.

ty

b. Saran

85 a ri

Berdasarkan hasil analisis dan kesimpulan, terdapat

il

80 beberapa saran untuk perbaikan pada penelitian

im S

automatic essay grading sebagai berikut:

1. Proses pengambilan data dapat dikembangkan Z=9 Z=10 Z=11 Z=12 Z=13 Z=14 Z=15

secara online, sehingga proses pengambilan data

Variabel Laten

dapat dilakukan secara otomatis.

2. Diperlukan suatu teknik yang dapat mengetahui Gambar 9 Pengaruh Variabel Laten terhadap

Rata-Rata…

rentang variable latent secara otomatis sehingga Kemiripan (data 2)

diharapkan akurasi tertinggi bisa dicapai dengan cepat.

3. Keseluruhan proses dikembangkan menjadi suatu [6] Kakkonen, Tuomo., Myller, Niko., Timonen, aplikasi online yang diharapkan dapat membantu

Jari., and Sutinen, Erkki. (2005). “Automatic evaluasi belajar mengajar yang menerapkan konsep

Essay Grading with Probabilistic Latent e-learning. Semantic Analysis ”. Proceding of the 2 nd Workshop on Building Educational Aplication

Daftar Pustaka

Using NLP, pages 29 – 36. Ann Arbor. Finland. [1] Hofmann, Thomas. 1999. “Probabilistic Latent

[7] Hoffman,Thomas. 2005. Latent Semantic Semantic Analysis” , To appear in : Uncertainity

Variable Models. Technical University of in Artificial Intelligence, UAI’99, Stockholm.

Fraunhofer IPSI Pascal [2] Salvatore Valenti, Francesca Neri, Alessadro

Darmstadt

Workshop. Slovenia.

Cucchiarelli. 2003. “An Overview of Current [8] Sebastiani, Fabrizio. 2002. Machine Learning Research on Automatic Essay Grading ”,Journal

in Automated Text Categorization . ACM of information Technology Education, Volume

Computing Surveys, vol. 34, No. 1. Consiglio

2. Universita’ Politecnica delle Marche. Nazionale delle Ricerche. Italy. Ancona. Italy.

Christopher., Raghavan, [3] M. Kaplan, Randy., E. Wolff, Susanne., C.

[9] D. Manning,

Schutze, Hinrich. 2009. An Burstein, Jill., Lu, Chi., A. Rock, Donald., and

Information Retrieval.

University Press Cambridge. Automatically Using Surface Features. GRE

A. Kaplan, Bruce. 1998. Scoring Essays

Cambridge

England.

Board Profesional Report No. 94 – 21P. ETS [10] Chavent, Marie. 2005. Normalized K-Means Research Report 93 – 39 . Princeton. New

hyper – rectangles . Jersey.

clustering

of

Mathematiques Appliquees de Bourdeaux, [4] Marti A Hearst. 2000. “The Debate on

UMR 5466 CNRS, Universite Bordeaux 1 – Automated essay grading ”, IEEE Intelligent

351, Cours de la liberation, 33405 Talence Sistems.

Cedex. France.

[5] Kakkonen, T., Myller, N., Sutinen, E., & [11] Kumar, Atul., Sanyal, Sudip. 2010. Efect of Timonen, J. (2008). Comparison of Dimension

Pronoun Resolution on Document Similarity. Reduction Methods for Automated essay

Journal of Computer grading. Educational Technology & Society ,

International

Application(0975-8887) volume 1 – No.16. 11(3), 275-288. Department of Computer

Indian Institut of Information Technology Science and Statistic. University of Joensuu.

Allahabad. India.

Finland.