Latent Semantic Analysis
b. Latent Semantic Analysis
perbandingan materi mencakup assignment spesifik text. Latent Semantic Analysis (LSA) adalah teori dan
Dengan Menggunakan tiga definisi P(d i ), P(z k |d i ), dan
P(w j |z k ) kita dapat membangun probabilitas dari P(d,w), yaitu:
*+ (8) P(d,w) = P(d)P(w|d), dengan
Atau dengan kata lain untuk P(w j |z k ) jumlah dari P(w|d) =
nilai untuk setiap kolom harus 1, untuk P(d i |z k ) jumlah dari nilai untuk setiap baris harus 1, dan
P(d), P(z|d), P(w|z) dapat ditentukan dengan cara untuk P(z k ) jumlah dari nilai secara diagonal harus memaksimalkan fungsi likelihood berikut:
3. Menjalankan tahap E-Step dengan menggunakan L=
parameter P(w j |z k ), P(d i |z k ), dan P(z k ) saat ini.
4. Menjalankan tahap M-Step dengan menggunakan Dimana n(d,w) merupakan nilai term pada dokumen
parameter yang telah dihitung pada E-Step. (dapat merupakan TF ataupun TFIDF).
5. Menghitung nilai likelihood(L) berdasarkan nilai parameter saat ini.
d. Expectation Maximization Algorithm (EM)
6. Membandingkan nilai likelihood saat ini dengan
nilai likelihood sebelumnya apabila terjadi Algoritma Expectation Maximization (EM) merupakan
peningkatan maka kembali ke langkah 3, apabila prosedur standar untuk memperkirakan maximum
tidak terjadi peningkatan maka berhenti.[7][11] likelihood dalam model variabel laten. Algoritma EM terbagi menjadi dua langkah : langkah Expectation (E- Step) , yaitu langkah dimana posterior probability untuk
e. Mixture Decomposition
variable z dihitung berdasarkan kepada perkiraan Dekomposisi PLSA menggunakan teknik mixture parameter saat itu, dan langkah kedua Maximization (M-
decomposition yang berasal dari kelas model laten dan Step) , yaitu langkah untuk mengupdate parameter yang
didalamnya menggunakan algoritma EM yang dipergunakan untuk menghitung posterior probability
Dekomposisi PLSA untuk variabel z, parameter yang diupdate pada langkah
dijalankan secara
berulang.
menggunakan notasi :
ini digunakan untuk menghitung likelihood dan bergantung pada posterior probability yang dihitung
X=UV t (9) pada tahap E-Step. [7][5] Pada E-Step, posterior probability yang dihitung
Dengan U merupakan matriks P(d|z), V merupakan yaitu probability untuk variabel z dengan mengamati
matriks P(w|z) , dan merupakan matriks diagonal P(z). parameter word w dalam suatu dokumen d. Rumus dari
Ilustrasi dekomposisi ditunjukkan pada gambar 3. E-Step :
P (z k |d i ,w j ) =
Pada M-Step parameter yang diupdate yaitu parameter P(z), P(d|z), dan P(w|z) dengan menggunakan bantuan dari probability z yang dihitung pada E-Step. Rumusnya adalah:
P (w j |z k ) =
Gambar 3 Ilustrasi Dekomposisi
Untuk mendapatkan dekomposisi yang optimal PLSA P (d i |z k ) =
menggunakan fungsi likelihood dengan memaksimalkan
nilai dari fungsi likelihood.[1][7] P (z k )= % "
, dengan
f. Cosine Simmilarity
R=
Untuk menentukan kemiripan antara dua buah Prosedur yang digunakan untuk menjalankan
dokumen kita gunakan teknik cosine similarity.[11] [9] algoritma EM ini yaitu :
Rumus dari cosine similarity adalah :
1. Tahap inisialisasi yaitu memberikan nilai untuk
P (w |z ) , P (d i |z k ), dan P(z ) secara acak (random).
Cos(x,y) =
2. Nilai acak yang telah diberikan kepada P(w j |z k ),
P (d i |z k ), dan P(z k ) kemudian dinormalisasi dengan
g. Euclidean Distance
aturan: Untuk menghitung nilai dari essay kita gunakan aturan: Untuk menghitung nilai dari essay kita gunakan
soal yang tertera pada system. Kemudian mahasiswa menginputkan nomor induk mahasiswa (NIM) dan
D(q,p) = ""4 ,)$ 5 , −7 ,8
menginputkan (entry) jawaban kedalam system. Dimana diasumsikan bahwa jumlah mahasiswa yang menjawab
Kemudian untuk menghitung jarak Euclidean pertanyaan sistem lebih dari satu. distance ternormalisasi dari vektor fitur kita gunakan
Setelah seluruh mahasiswa input satu persatu rumus :
kedalam system, maka admin (user2) mulai memproses ketiga tipe dokumen tersebut (essay mahasiswa, materi,
9 @ AB <<<=>; :; <<< ?
D(q,p) = ""
C (12)
dan jawaban kunci), dimana didalamnya terdapat proses preprocessing dan stemming, serta pemodelan metode
teknik EM(Expectation Dengan =2 karena sifat dari jarak Euclidean yang Maximization). Seluruh tipe dokumen bertipe .txt ternormalisasi adalah hasilnya berada pada rentang 0 dimana tipe dokumen materi dan jawaban kunci D(q,p) 2. Semakin kecil nilai D(q,p) maka semakin dimasukkan terlebih dahulu dan disimpan dalam bentuk mirip kedua vektor fitur yang dicocokkan. Sebaliknya file, serta oleh system hanya diinputkan sekali untuk semakin besar nilai D(q,p) maka semakin berbeda kedua selanjutnya dilakukan proses perbandingan dengan vektor fitur itu.[10]
PLSA
menggunakan
dokumen jawaban mahasiswa.
Langkah ketiga adalah proses scoring dimana dicari
Perancangan Sistem
nilai similaritas antara dokumen mahasiswa dengan Kasus penilaian essay secara otomatis pada
materi (Essay - Ref) dan nilai similaritas antara dokumen penelitian ini adalah bagaimana memberikan nilai pada
jawaban kunci dengan materi (Prescore - Ref). Disini suatu essay dengan menggunakan metode PLSA.
matriks yang dihitung nilai similaritasnya adalah matriks Dimana inti dari metode PLSA adalah membangun
P(d|z) terupdate dari ketiga tipe dokumen yang telah sebuah model.
diproses dengan teknik EM. Matriks P(d|z) dipilih Dalam menentukan suatu nilai pada sistem
dikarenakan esensi dari metode PLSA adalah kesamaan dilakukan dengan kombinasi 2 cara pendekatan yaitu
dokumen berdasarkan topik yang tersembunyi dimana pertama dengan membandingkan dokumen essay yang
terdapat suatu gejala dimana setiap orang dapat akan dinilai dengan dokumen jawaban kunci dan yang
menggunakan kata berbeda untuk maksud yang sama. kedua membandingkan dokumen jawaban essay dengan
Selanjutnya didapat dua himpunan matriks similarity dokumen materi. Arsitektur detail dari sistem automatic
yaitu matriks similarity Essay – Ref dan matriks essay grading ditunjukkan pada bagian lampiran gambar
similarity Prescore – Ref. Setelah itu nilai Matriks
1. Pertama kali dosen melakukan proses input tipe Similarity Prescore – Ref dijadikan acuan untuk dokumen materi dan dokumen jawaban kunci.
dibandingkan dengan nilai similarity Essay – Ref dimana Kemudian yang kedua sistem melakukan pemodelan
tekniknya menggunakan metode Euclidean Distance PLSA terhadap tipe dokumen yang telah dimasukkan,
yang telah dinormalisasi dikalikan dengan nilai batas yang ketiga kedua tipe dokumen jawaban kunci dan
tertinggi yang dosen berikan untuk ujian. Perancangan materi dibandingkan (Pre - Ref) oleh sistem sehingga
sistem untuk pengujian yang dijelaskan diatas dapat diperoleh batasan nilai sistem. Lalu yang keempat
dilihat pada lampiran.
mahasiswa melakukan proses input jawaban, yang
kelima jawaban-jawaban mahasiswa dimodelkan dengan
Hasil Pengujian dan Analisis
PLSA, yang keenam jawaban mahasiswa dibandingkan Hasil pengujian Automatic Essay Grading ini dengan materi (Ess - Ref) dan dibandingkan dengan (Pre digunakan untuk melihat seberapa miripkah penilaian
- Ref ) menghasilkan nilai akhir dari mahasiswa .
yang dilakukan oleh sistem dengan penilaian jawaban essay yang dinilai secara manual oleh dosen.
Pengujian
Dari pengujian yang telah dilakukan terhadap 2 data Pengujian yang dilakukan terhadap Automatic Essay
uji dimana untuk data 1 jumlah mahasiswa adalah 25 Grading System ini mencakup beberapa langkah.
anak dengan nilai maksimal 19 sedangkan untuk data 2 Langkah pertama adalah seorang admin (user1)
jumlah mahasiswa adalah 30 anak dengan nilai dalam hal ini bisa dosen atau guru menginputkan
maksimal 10 memberikan hasil dan analisa sebagai dokumen jawaban kunci, dokumen jawaban materi, ke
berikut:
dalam system, sedangkan soal telah menjadi satu dengan
system. Dalam penelitian ini soal, jawaban kunci, dan
a. Analisa Pengaruh Variabel Laten terhadap
dokumen materi didapat dan dipilih dari dua dosen mata
Jawaban Mahasiswa
kuliah Bahasa Inggris I(Akademi Writing), yaitu ibu Florita untuk data 1 dan ibu Aisha Hudaya untuk data 2.
D = Dokumen Essay
Langkah kedua setelah dokumen materi dan jawaban
Z = Variabel Laten
kunci dimasukkan maka user2 dalam hal ini bisa
Tabel 1 Pengaruh Variabel Laten terhadap Dokumen Essay (data1)
Tabel 2 Pengaruh Variabel Laten terhadap Dokumen Essay (data2)
Z=9 Z=10 Z=11 Z=12 Z=13 Z=14 Z=15 Z=9 Z=10 Z=11 Z=12 Z=13 Z=14 Z=15
Variabel Laten
Variabel Laten
D=2 D=3 D=4 D=5 D=6 D=7 D=8 D=9 D=2 D=3 D=4 D=5 D=6 D=7 D=8 D=9
Gambar 6 Pengaruh Variabel Laten terhadap
Dokumen Essay(data1) Gambar 7 Pengaruh Variabel Laten terhadap Dokumen
Essay(data2)
Pada gambar 6 dan 7 dapat kita lihat kecenderungan Pada gambar 6 dan 7 dapat kita lihat kecenderungan
peningkatan nilai z baik untuk data 1 maupun data 2
1 (gambar 6) rata-rata tingkat kemiripan tertinggi berada tanpa pengaruh dari input dokumen essay. Pada gambar pada z=12, sedangkan untuk data 2 (gambar 7) rata-rata
8 dan 9 akurasi meningkat sampai tingkat tertinggi pada tingkat kemiripan tertinggi berada pada z=10. Hal ini
nilai z = 12 untuk data 1 dan z=11 untuk data 2 dengan menunjukkan bahwa untuk data 1, mahasiswa cenderung
rata-rata nilai akurasi pada rentang 53-62% untuk data 1 menjawab pada topik atau konsep dengan z = 12.
dan 82-89% untuk data 2. Sebagaimana esensi dari Kemudian untuk data 2, mahasiswa cenderung
metode PLSA dimana melakukan pencocokan dokumen menjawab pada topik atau konsep dengan z = 10.
berdasarkan topik (konsep) maka berdasarkan gambar 8 Keterhubungan antara variabel laten dengan input
dan 9 dapat dikatakan bahwa dokumen jawaban materi dokumen essay untuk data 1 dapat dilihat pada tabel 1
dan kunci (Prescore – Ref ) memiliki kecenderungan dan gambar 3 dimana rata-rata akurasi nilai jawaban
mempunyai topik (konsep) dimana z = 12 untuk data 1 mahasiswa cenderung meningkat seiring dengan
dan z = 11 untuk data 2.[7]
peningkatan variabel laten (z) dan peningkatan nilai Berdasarkan dua pengujian di atas juga dapat input dokumen essay sampai z=12 dan D = 5 selanjutnya
diketahui bahwa tingkat akurasi dari hasil penilaian akan rata-rata akurasi nilai jawaban mahasiswa cenderung
semakin meningkat ketika rentang nilai yang diberikan menurun ketika nilai input dokumen essay dan variable
oleh dosen mengecil. Pada data 1 menghasilkan rata-rata latent meningkat.
tingkat akurasi 53 – 77% pada pengujian pertama dan 55 Begitu pula dengan data 2 pada tabel 2 dan gambar
– 66% pada pengujian kedua dengan rentang nilai yang
7 dimana rata-rata akurasi nilai jawaban mahasiswa diberikan dosen 0 – 19. Kemudian untuk data 2 cenderung meningkat seiring dengan peningkatan
menghasilkan rata-rata tingkat akurasi 83 – 91% pada variable latent (z) dan peningkatan nilai input dokumen
pengujian pertama dan 82 – 89 % pada pengujian kedua essay sampai z=10 dan D =5 selanjutnya rata-rata
dengan rentang nilai yang diberikan adalah 0 – 10. akurasi nilai jawaban mahasiswa cenderung menurun ketika nilai input dokumen essay dan variabel laten
Kesimpulan dan Saran
meningkat.
a. Kesimpulan
Berdasarkan analisis terhadap hasil pengujian,
b. Analisa Pengaruh Variabel Laten terhadap
Penelitian ini memiliki kesimpulan sebagai berikut:
Kemiripan dengan Nilai Manual
1. Sistem automatic essay grading dengan metode PLSA memiliki rata-rata tingkat akurasi dari hasil penilaian sistem meningkat jika rentang nilai yang
60 diberikan oleh dosen mengecil dimana untuk data 1
50 ty
dengan rentang nilai manual 0 – 19 rata-rata tingkat
40 a ri
akurasi 53 – 77% sedangkan untuk data 2 dengan
30 il
rentang nilai manual 0 – 10 rata-rata tingkat akurasi
2. Penilaian jawaban mahasiswa dipengaruhi oleh
0 jumlah input dokumen essay (D) dan variable latent Z=9 Z=10 Z=11 Z=12 Z=13 Z=14 Z=15
(z) dimana rata-rata nilai akurasi akan meningkat
sampai pada nilai input dokumen essay (D) dan Rata-Rata Kemiripan(%)
Variabel Laten
variabel laten (z) tertentu.
3. Pada data 1 rata-rata nilai akurasi cenderung Gambar 8 Pengaruh Variabel Laten terhadap
meningkat seiring dengan peningkatan nilai z dan D Kemiripan (data 1)
hingga nilai z = 12 dan D = 4, sedangkan untuk data
2 peningkatan rata-rata nilai akurasi terjadi sampai nilai z = 10 dan D = 5.
ty
b. Saran
85 a ri
Berdasarkan hasil analisis dan kesimpulan, terdapat
il
80 beberapa saran untuk perbaikan pada penelitian
im S
automatic essay grading sebagai berikut:
1. Proses pengambilan data dapat dikembangkan Z=9 Z=10 Z=11 Z=12 Z=13 Z=14 Z=15
secara online, sehingga proses pengambilan data
Variabel Laten
dapat dilakukan secara otomatis.
2. Diperlukan suatu teknik yang dapat mengetahui Gambar 9 Pengaruh Variabel Laten terhadap
Rata-Rata…
rentang variable latent secara otomatis sehingga Kemiripan (data 2)
diharapkan akurasi tertinggi bisa dicapai dengan cepat.
3. Keseluruhan proses dikembangkan menjadi suatu [6] Kakkonen, Tuomo., Myller, Niko., Timonen, aplikasi online yang diharapkan dapat membantu
Jari., and Sutinen, Erkki. (2005). “Automatic evaluasi belajar mengajar yang menerapkan konsep
Essay Grading with Probabilistic Latent e-learning. Semantic Analysis ”. Proceding of the 2 nd Workshop on Building Educational Aplication
Daftar Pustaka
Using NLP, pages 29 – 36. Ann Arbor. Finland. [1] Hofmann, Thomas. 1999. “Probabilistic Latent
[7] Hoffman,Thomas. 2005. Latent Semantic Semantic Analysis” , To appear in : Uncertainity
Variable Models. Technical University of in Artificial Intelligence, UAI’99, Stockholm.
Fraunhofer IPSI Pascal [2] Salvatore Valenti, Francesca Neri, Alessadro
Darmstadt
Workshop. Slovenia.
Cucchiarelli. 2003. “An Overview of Current [8] Sebastiani, Fabrizio. 2002. Machine Learning Research on Automatic Essay Grading ”,Journal
in Automated Text Categorization . ACM of information Technology Education, Volume
Computing Surveys, vol. 34, No. 1. Consiglio
2. Universita’ Politecnica delle Marche. Nazionale delle Ricerche. Italy. Ancona. Italy.
Christopher., Raghavan, [3] M. Kaplan, Randy., E. Wolff, Susanne., C.
[9] D. Manning,
Schutze, Hinrich. 2009. An Burstein, Jill., Lu, Chi., A. Rock, Donald., and
Information Retrieval.
University Press Cambridge. Automatically Using Surface Features. GRE
A. Kaplan, Bruce. 1998. Scoring Essays
Cambridge
England.
Board Profesional Report No. 94 – 21P. ETS [10] Chavent, Marie. 2005. Normalized K-Means Research Report 93 – 39 . Princeton. New
hyper – rectangles . Jersey.
clustering
of
Mathematiques Appliquees de Bourdeaux, [4] Marti A Hearst. 2000. “The Debate on
UMR 5466 CNRS, Universite Bordeaux 1 – Automated essay grading ”, IEEE Intelligent
351, Cours de la liberation, 33405 Talence Sistems.
Cedex. France.
[5] Kakkonen, T., Myller, N., Sutinen, E., & [11] Kumar, Atul., Sanyal, Sudip. 2010. Efect of Timonen, J. (2008). Comparison of Dimension
Pronoun Resolution on Document Similarity. Reduction Methods for Automated essay
Journal of Computer grading. Educational Technology & Society ,
International
Application(0975-8887) volume 1 – No.16. 11(3), 275-288. Department of Computer
Indian Institut of Information Technology Science and Statistic. University of Joensuu.
Allahabad. India.
Finland.