Ciri-ciri Dasar Data Warehouse
Sebuah gudang data adalah sebuah
koleksi data yang berorientasi subjek, terintegrasi, time-varian, dan non
volatile yang mendukung manajemen dalam proses pengambilan keputusan. (Inmon)
Sifat Berorientasi Subjek
·
Diorganisir sesuai dengan permasalahan utama, seperti
pelanggan, produk, penjualan.
·
Berfokus pada pemodelan dan analisis data untuk pembuat
keputusan, bukan pada operasional sehari-hari atau transaksi pemrosesan.
·
Menyediakan view sederhana dan ringkas dari
permasalahan utama/tertentu dengan mengecualikan data yang tidak berguna dalam
proses pendukung keputusan.
Terintegrasi / Terpadu
·
Dibangun dengan mengintegrasikan beberapa sumber data
heterogen , relational databases, flat files, on-line transaction records.
·
Menerapkan pembersihan data dan teknik integrasi data
– Memastikan konsistensi dalam
konvensi penamaan, penyandian struktur, ukuran atribut, dsb, antara sumber data yang berbeda
• Eg, Hotel price: mata uang,
pajak, sarapan tertutup, dll
– Ketika data tersebut akan
dipindahkan ke gudang, akan diubah.
Time Variant
Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada
rentang waktu tertentu. Untuk melihat keakuratan pada interval waktu tertentu
pada data warehouse, dapat digunakan beberapa cara yaitu :
1. Cara yang paling sederhana adalah menyajikan
data warehouse pada rentang waktu tertentu, misalnya antara 5 sampai 10 tahun
ke depan.
2. Cara yang kedua, dengan menggunakan
variasi/perbedaan waktu yang disajikan dalam data warehouse baik implicit
maupun explicit secara explicit dengan unsur waktu dalam hari, minggu, bulan
dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap
akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit
didalam data tersebut.
3. Cara yang ketiga,variasi waktu yang disajikan
data warehouse melalui serangkaian snapshot yang panjang. Snapshot merupakan
tampilan dari sebagian data tertentu sesuai keinginan pemakai dari keseluruhan
data yang ada bersifat read-only.
Non-Volatile
·
Karakteristik keempat dari data warehouse adalah
non-volatile,maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh
dari sistem operasional secara reguler.
·
Data yang baru selalu ditambahkan sebagai suplemen
bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut
secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan
data sebelumnya.
ETL dalam Data Warehouse
·
ETL (extraction,
transformation, loading) merupakan aplikasi yang terpisah dari data warehouse dan berfungsi sebagai pondasi
dari data warehouse itu sendiri.
·
ETL terdiri dari tiga proses utama. Ketiga proses ini
dilakukan secara berurutan.
Arsitektur dalam Data Warehouse
Extraction
·
Data mentah yang berasal dari sistem informasi
operasional / sistem
·
sumber biasanya ditulis atau di-copy langsung ke dalam media penyimpanan / staging area dengan
restrukturisasi seminimal mungkin. Hal ini dilakukan untuk menjaga
keaslian data yang didapat dari sistem sumber.
·
Ada kalanya sistem sumber yang berbasis struktur seperti
pada mesin-mesin DBMS ditulis dalam bentuk flat file atau dalam tabel relasional pada staging area-nya.
·
Hal ini memungkinkan hasil ekstraksi
menjadi sesederhana dan secepat mungkin untuk diolah.
·
Disamping itu dimungkinkan juga untuk fleksibilitas yang
bagus untuk melakukan restart jika
terjadi gangguan pada saat ekstraksi berlangsung.
Data yang telah diambil dalam
proses ekstraksi ini dapat dibaca beberapa kali sesuai dengan keperluannya.
Dalam beberapa kasus, data hasil
ekstraksi ini bisa dihapus setelah dilakukannya proses transformation karena dianggap sudah tidak berguna lagi.
Kemudian
dalam kasus lain, data ekstraksi ini bisa disimpan sebagai arsip cadangan jangka
panjang namun memerlukan space yang
besar. (Kimball, 2004)
Transformation
·
Perubahan sekecil apapun yang dilakukan pada data mentah
hasil ekstraksi adalah transformasi. Misalnya melakukan proses seleksi dari
data yang mengandung nilai null. Jika
data ditemukan null maka data akan dihapus.
·
Kemudian proses menterjemahkan kode seperti pada data
mentah ditulis jenis kelamin laki-laki adalah 1 dan perempuan adalah 2. Maka semua nilai jenis kelamin 1 akan diubah menjadi
laki-laki dan 2 akan diubah menjadi perempuan. Contoh diatas merupakan contoh kecil dari sebuah proses
transformasi yang dilakukan oleh ETL.
·
Beberapa hal penting yang sering dilakukan dalam
tranformasi ini dan menjamin data yang akan diolah sudah bersih dari data yang
dianggap sampah atau tidak perlu adalah cleaning
dan conforming. Kedua proses ini merupakan proses penting yang wajib
dilakukan jika data mentah dianggap belum bersih. (Kimball, 2004)
Cleaning
·
Dalam kebanyakan kasus, tingkat kualitas data pada
sistem-sistem sumber berbeda-beda.
·
Kualitas data sistem sumber ini juga berbeda dengan
kualitas data yang dibutuhkan pada data
warehouse itu sendiri.
·
Bertolak dari hal tersebut maka pengolahan data
dapat melibatkan banyak proses-proses terpisah antara lain memeriksa nilai-nilai
yang valid, memastikan konsistensi dari nilai-nilai tersebut, membuang duplikasi
atau redudansi dari data.
·
Karena proses pembersihan data ini begitu kompleks,
dimungkinkan melibatkan manusia dalam penilaian apakah data yang akan diolah
sudah bersih atau belum.
·
Perlu diingat bahwa hasil dari cleaning ini tidak bisa dikembalikan ke sistem sumber tempat
data itu berasal.
Conforming
·
Data yang telah bersih kemudian akan dicek lagi sebelum
dilakukan proses berikutnya.
·
Proses ini adalah memisahkan data sumber yang identik
atau jika menggunakan hitungan numeric
data yang tidak termasuk dalam range tertentu.
·
Conforming ini membutuhkan
suatu kesepakatan dari pengguna data untuk menentukan data mana saja yang akan
digunakan dalam data warehouse
Loading
·
Proses loading
atau dikenal juga dengan proses delivering adalah suatu proses dimana
data hasil transformasi siap untuk dimasukkan ke dalam data warehouse itu sendiri.
·
Pembentukan struktur tabel
dari data yang akan di-loading merupakan tugas dari designer dari data warehouse itu sendiri.
·
Loading ini merupakan langkah akhir dan
penting dalam menjamin ketersediaan data dalam data warehouse.
·
Data hasil proses loading
ini siap di-query. Mengenai kecepatan query
yang dihasilkan tergantung dari desain atau skema yang digunakan
dalam data warehouse. Diharapkan skema
yang digunakan bisa secara signifikan mengurangi waktu query dan dapat menyederhanakan dalam
pembangunan aplikasi. (Kimball, 2004)
0 comments:
Post a Comment