latest Post

Data Warehouse

Ciri-ciri Dasar Data Warehouse
Sebuah gudang data adalah sebuah koleksi data yang  berorientasi subjek, terintegrasi, time-varian, dan non volatile yang mendukung manajemen dalam proses pengambilan keputusan. (Inmon)

Sifat Berorientasi Subjek
·         Diorganisir sesuai dengan permasalahan utama, seperti pelanggan, produk, penjualan.
·         Berfokus pada pemodelan dan analisis data untuk pembuat keputusan, bukan pada operasional sehari-hari atau transaksi pemrosesan.
·         Menyediakan view sederhana dan ringkas  dari permasalahan utama/tertentu dengan mengecualikan data yang tidak berguna dalam proses pendukung keputusan.

Terintegrasi / Terpadu
·         Dibangun dengan mengintegrasikan beberapa sumber data heterogen , relational databases, flat files, on-line transaction records.
·         Menerapkan pembersihan data dan teknik integrasi data
   Memastikan konsistensi dalam konvensi penamaan, penyandian struktur, ukuran atribut, dsb,  antara sumber data yang berbeda
     Eg, Hotel price: mata uang, pajak, sarapan tertutup, dll
   Ketika data tersebut akan dipindahkan ke gudang, akan diubah.

Time Variant
Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat keakuratan pada interval waktu tertentu pada data warehouse, dapat digunakan beberapa cara yaitu :
1.  Cara yang paling sederhana adalah menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan.
2.  Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse baik implicit maupun explicit secara explicit dengan unsur waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit didalam data tersebut.
3.  Cara yang ketiga,variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai keinginan pemakai dari keseluruhan data yang ada bersifat read-only.

Non-Volatile
·         Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara reguler.
·         Data yang baru selalu  ditambahkan sebagai suplemen bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya.

ETL dalam Data Warehouse
·         ETL (extraction, transformation, loading) merupakan aplikasi yang terpisah dari data warehouse dan berfungsi sebagai pondasi dari data warehouse itu sendiri.
·         ETL terdiri dari tiga proses utama. Ketiga proses ini dilakukan secara berurutan.

Arsitektur dalam Data Warehouse



Extraction
·         Data mentah yang berasal dari sistem informasi operasional / sistem
·         sumber biasanya ditulis atau di-copy langsung ke dalam media penyimpanan / staging area dengan restrukturisasi seminimal mungkin. Hal ini dilakukan untuk menjaga keaslian data yang didapat dari sistem sumber.
·         Ada kalanya sistem sumber yang berbasis struktur seperti pada mesin-mesin DBMS ditulis dalam bentuk flat file atau dalam tabel relasional pada staging area-nya.
·         Hal ini memungkinkan hasil ekstraksi menjadi sesederhana dan secepat mungkin untuk diolah.
·         Disamping itu dimungkinkan juga untuk fleksibilitas yang bagus untuk melakukan restart jika terjadi gangguan pada saat ekstraksi berlangsung.
Data yang telah diambil dalam proses ekstraksi ini dapat dibaca beberapa kali sesuai dengan keperluannya.
Dalam beberapa kasus, data hasil ekstraksi ini bisa dihapus setelah dilakukannya proses transformation karena dianggap sudah tidak berguna lagi.
Kemudian dalam kasus lain, data ekstraksi ini bisa disimpan sebagai arsip cadangan jangka panjang namun memerlukan space yang besar. (Kimball, 2004)

Transformation
·         Perubahan sekecil apapun yang dilakukan pada data mentah hasil ekstraksi adalah transformasi. Misalnya melakukan proses seleksi dari data yang mengandung nilai null. Jika data ditemukan null maka data akan dihapus.
·         Kemudian proses menterjemahkan kode seperti pada data mentah ditulis jenis kelamin laki-laki adalah 1 dan perempuan adalah 2. Maka semua nilai jenis kelamin 1 akan diubah menjadi laki-laki dan 2 akan diubah menjadi perempuan. Contoh diatas merupakan contoh kecil dari sebuah proses transformasi yang dilakukan oleh ETL.
·         Beberapa hal penting yang sering dilakukan dalam tranformasi ini dan menjamin data yang akan diolah sudah bersih dari data yang dianggap sampah atau tidak perlu adalah cleaning dan conforming. Kedua proses ini merupakan proses penting yang wajib dilakukan jika data mentah dianggap belum bersih. (Kimball, 2004)
Cleaning
·         Dalam kebanyakan kasus, tingkat kualitas data pada sistem-sistem sumber berbeda-beda.
·         Kualitas data sistem sumber ini juga berbeda dengan kualitas data yang dibutuhkan pada data warehouse itu sendiri.
·         Bertolak dari hal tersebut maka pengolahan data dapat melibatkan banyak proses-proses terpisah antara lain memeriksa nilai-nilai yang valid, memastikan konsistensi dari nilai-nilai tersebut, membuang duplikasi atau redudansi dari data.
·         Karena proses pembersihan data ini begitu kompleks, dimungkinkan melibatkan manusia dalam penilaian apakah data yang akan diolah sudah bersih atau belum.
·         Perlu diingat bahwa hasil dari cleaning ini tidak bisa dikembalikan ke sistem sumber tempat data itu berasal.

Conforming
·         Data yang telah bersih kemudian akan dicek lagi sebelum dilakukan proses berikutnya.
·         Proses ini adalah memisahkan data sumber yang identik atau jika menggunakan hitungan numeric data yang tidak termasuk dalam range tertentu.
·         Conforming ini membutuhkan suatu kesepakatan dari pengguna data untuk menentukan data mana saja yang akan digunakan dalam data warehouse

Loading
·         Proses loading atau dikenal juga dengan proses delivering adalah suatu proses dimana data hasil transformasi siap untuk dimasukkan ke dalam data warehouse itu sendiri.
·         Pembentukan struktur tabel dari data yang akan di-loading merupakan tugas dari designer dari data warehouse itu sendiri.
·         Loading ini merupakan langkah akhir dan penting dalam menjamin ketersediaan data dalam data warehouse.
·         Data hasil proses loading ini siap di-query. Mengenai kecepatan query  yang dihasilkan tergantung dari desain atau skema yang digunakan dalam data warehouse. Diharapkan skema yang digunakan bisa secara signifikan mengurangi waktu query dan dapat menyederhanakan dalam pembangunan aplikasi. (Kimball, 2004)



About Unknown

Unknown
Recommended Posts × +

0 comments:

Post a Comment