abjad pada kata masukkan. Berikut pemaparan metode getCountWordString.
public int getCountWordString kata { int max = 0;
if kata = null { char[] charArr = kata.toCharArray;
for int i = 0; i charArr.length; i++ { if String.valueOfcharArr[i].matches[a-zA-Z] {
max = max + 1; }
} }
return max; }
List Code 4. 10 getCountWord
4.3.4. Pembacaan
File Dokumen
Pembacaan file dokumen dilakukan setelah pembuatan file dokumen. Pembacaan ini digunakan sebelum tahap penyimpanan indek
dokumen pada basis data. Penggunaaan dua data dimaksudkan untuk membantu ketika basis data mengalami error, pengguna masih
mempunyai file dokumen yang sama dengan yang ada pada basis data. Dengan demikian, pengguna dapat melakukan penyimpanan ulang pada
basis data menggunakan file fisik dokumen. Fungsi dari metode ini adalah membaca isi dokumen yang bertipe file. Berikut adalah pemaparan list
untuk melakukan pembacaan file.
public String ambilKataFile file { String isiDok = ;
String hasil = ; FileInputStream fis = null;
BufferedInputStream bis = null; DataInputStream dis = null;
try { fis = new FileInputStreamfile;
bis = new BufferedInputStreamfis; dis = new DataInputStreambis;
while dis.available = 0 { hasil += dis.readLine;
} fis.close;
bis.close; dis.close;
} catch FileNotFoundException e { e.printStackTrace; } catch IOException e {e.printStackTrace;
} char[] charArr = hasil.toCharArray; for int i = 0; i charArr.length; i++ {
if file.getName.equalsIgnoreCasestopword.txt { if String.valueOfcharArr[i].matches[-;a-zA-Z ] {
isiDok = isiDok.concatString.valueOfcharArr[i]; } else {
isiDok = isiDok.concat ; }
} else { if String.valueOfcharArr[i].matches[;a-zA-Z ] {
isiDok = isiDok.concatString.valueOfcharArr[i]; } else { isiDok = isiDok.concat ; }
} }
return isiDok; }
List Code 4. 11 List pembacaan dokumen
Pada metode ini, String yang dikembalikan hanya mengandung abjad dan tanda baca “;”. Hal ini dimaksudkan untuk menghilangkan tanda
baca dan angka. Metode ini juga digunakan pada file stopword.txt yang berfungsi menyimpan daftar stopword.
4.3.5. Stopword Removal
Penghilangan stopword
dilakukan menggunakan metode cekKataString.
Metode ini menggunakan masukkan String, dan mengembalikan nilai integer yang merupakan indek stopword. Nilai
kembalian akan bernilai lebih besar dari 0 nol jika kata masukkan termasuk dalam kategori stopword.
public int cekKataString kata throws SQLException { PreparedStatement statement = null;
ResultSet result = null; int index = -1;
try { connection.setAutoCommitfalse;
statement = connection.prepareStatementSQL_CEKKATA; statement.setString1, kata.toLowerCase;
result = statement.executeQuery; if result.next {
index = result.getInt1; }
connection.commit; return index;
} catch SQLException exception { connection.rollback;
throw exception;
} finally { try {
connection.setAutoCommittrue; if result = null {
result.close; }
if statement = null { statement.close;
} } catch SQLException exception {
throw exception; }
} }
List Code 4. 12 Stopword removal Query
basis data yang digunakan adalah variabel SQL_CEKKATA. Query tersebut berfungsi mengambil nilai indek
stopword. Berikut adalah pemaparan variabel SQL_CEKKATA.
private final String SQL_CEKKATA = SELECT id_stop FROM katastop WHERE lowerkata_stop LIKE ?;
Query 4. 6 Query SQL_CEKKATA
4.3.6. Penyimpanan pada Basis Data