ANALISIS OPTIMISASI FORMULA DISTRIBUTED QUERY
DALAM BASIS DATA RELASIONAL
R. SUDRAJAT
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
BOGOR 2007
ii
RINGKASAN
Proses join query dalam sistem basis data terdistribusi adalah salah satu masalah penting dan cukup rumit dan dapat melibatkan proses komputasi dan
formula yang cukup kompleks. Penelitian dalam tesis ini ditujukan untuk menganalisis optimisasi query secara teoritis yang didukung oleh percobaan
dalam basis data relasional dengan melibatkan ukuran data yang besar. Analisis difokuskan pada join query dengan menggunakan Nested-Loops-
Join, Block-Nested-Loops-Join, Sort-Merge-Join dan Hash-Join yang didasarkan
pada analisis fungsi biaya. Dalam penelitian ini kasus data yang digunakan diambil dari Perusahaan Asuransi yang secara transaksional data tersimpan
tersebar di beberapa cabang perusahaan. Hasil dari analisis dan pecobaan menunjukkan bahwa metode Hash-Join
dapat menyelesaikan join query dengan biaya terendah. Fragmentasi dan partisi dalam jumlah data yang besar diperlukan untuk menghasilkan join query yang
lebih baik. Dengan demikian dalam melakukan proses transaksi dengan jumlah data yang besar lebih dari satu juta record fragmentasi dan optimisasi sangat
diperlukan untuk mengurangi waktu proses. Proses komputasi secara paralel dengan menggunakan multi processors sangat diperlukan agar dapat
meningkatkan unjuk kerja proses query dalam basis data terdistribusi.
Kata Kunci :
basis data terdistribusi, optimisasi, join query, fragmentasi.
iii
ABSTRACT
Joined query is considered an expensive operation therefore specific optimization technique involving formulation, strategy and transformation is
required. The purpose of this thesis is to perform optimization analysis of query, theroretically and experimentaly, on distributed relational databases comprising
large size data tables. The analysis is focused on join query using Nested-Loops-Join, Block-
Nested-Loops-Join, Sort-Merge-Join and Hash-Join with respect to cost function analysis. The data case used in this research has been taken from an Insurance
Company that maintains and operates transactional data stored distributively in several company branches.
The result of the analysis and experiment shows that Hash-Join provides the best smalest cost for join query. It is also shown that fragmentation and
partition of large data contributes to the better performace of join query. Therefore, it is recommended that the transactional data comprising large data
records one million records or more needs to be well partitioned to reducethe query execution time. Furthermore, the use of parallel computation using multiple
processors are recommended to improve futher the performance of query processing on distributed databases.
Keyword : distributed database, optimization, join query, fragmentation.
ANALISIS OPTIMISASI FORMULA DISTRIBUTED QUERY
DALAM BASIS DATA RELASIONAL
R. SUDRAJAT