Dec 14

ETL (Extraction, Transformation, Loading)

Proses ETL (Extraction, Transformation, Loading) merupakan proses yang harus dilalui dalam pembentukan data warehouse (Kimball, 2004). Berikut adalah penjelasan dari tiap proses.

Ekstraksi Data (Extract)

Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu :

  1. Ekstraksi data secara otomatis dari aplikasi sumber.
  2. Penyaringan atau seleksi data hasil ekstraksi.
  3. Pengiriman data dari berbagai platform aplikasi ke sumber data.
  4. Perubahan format layout data dari format aslinya.
  5. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.

Transformasi Data (Transformation)

Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam transformasi data adalah sebagai berikut :

  1. Memetakan data input dari skema data aslinya ke skema data warehouse.
  2. Melakukan konversi tipe data atau format data.
  3. Pembersihan serta pembuangan duplikasi dan kesalahan data.
  4. Penghitungan nilai-nilai derivat atau mula-mula.
  5. Penghitungan nilai-nilai agregat atau rangkuman.
  6. Pemerikasaan integritas referensi data.
  7. Pengisian nilai-nilai kosong dengan nilai default.
  8. Penggabungan data.

Pengisian Data (Loading)

Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan menjalankan SQL script secara periodik.

Dec 14

Arsitektur Data Warehouse

Arsitektur Datawarehouse

Arsitektur data warehouse (lihat gambar di bawah) mencakup proses ETL (Extraction, Transformation, Loading) untuk memindahkan data dari operational data source dan sumber data eksternal lainnya ke dalam data warehouse .

Data Mart

Data warehouse dapat dibagi menjadi beberapa data mart, berdasarkan fungsi bisnisnya (contoh data mart untuk penjualan, pemasaran, dan keuangan). Data dalam data warehouse dan data mart diatur oleh satu atau lebih server yang mewakili multidimensional view dari data terhadap berbagai front end tool, seperti query tools, analysis tools, report writers, dan data mining tools.

Dec 14

Data Warehouse

Data warehouse merupakan kumpulan data dari berbagai sumber yang disimpan dalam suatu gudang data (repository) dalam kapasitas besar dan digunakan untuk proses pengambilan keputusan (Prabhu, 2007). Menurut William Inmon, karakteristik dari data warehouse adalah sebagai berikut :

Subject Oriented

Pada sistem operasional, data disimpan berdasarkan aplikasi. Set data hanya terdiri dari data yang dibutuhkan oleh fungsi yang terkait dan aplikasinya. Sedangkan pada data warehouse, data disimpan bukan berdasarkan aplikasi, melainkan berdasarkan subjeknya. Misalnya untuk sebuah perusahaan manufaktur subjek bisnis yang penting, yaitu penjualan, pengangkutan, dan penyimpanan barang.

Integrated

Data yang tersimpan dalam data warehouse terdiri dari berbagai sistem operasional. Oleh sebab itu terdapat kemungkinan bahwa terjadi beberapa perbedaan, yaitu dalam konvensi penamaan, representasi kode, atribut data, dan pengukuran data. Keempat perbedaan tersebut harus disamakan terlebih dahulu sesuai dengan standar tertentu agar data yang nantinya tersimpan dalam data warehouse dapat terintegrasi.

Time variant

Pada data warehouse, data yang tersimpan adalah data historis dalam kurun waktu tertentu, bukan data terkini. Oleh karena itu data yang tersimpan mengandung keterangan waktu, misalnya tanggal, minggu, bulan, catur wulan, dan sebagainya. Karakteristik time variant pada data warehouse memiliki karakteristik sebagai berikut :

  1. Melakukan analisa terhadap hal di masa lalu.
  2. Mencari hubungan antara informasi dengan keadaan saat ini.
  3. Melakukan prediksi hal yang akan datang.
  4. Non-volatile.

Data dalam sistem operasional dapat di-update sesuai transaksi bisnis. Setiap kali terjadi transaksi bisnis. Namun dalam data warehouse, data tidak dapat diubah karena bersifat read only.

Nov 28

Non Volatile – Data Warehouse

Non Volatile

Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara reguler. Data yang baru selaluĀ  ditambahkan sebagai suplemen bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya.

Datawarehouse VS Database Operasional

Berbeda dengan database operasional yang dapat melakukan update,insert dan delete terhadap data yang mengubah isi dari database sedangkan pada data warehouse hanya ada dua kegiatan memanipulasi data yaitu loading data (mengambil data) dan akses data (mengakses data warehouse seperti melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan updating data).

Nov 28

Time Variant – Data Warehouse

Time Variant

Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan dalam mengukur keakuratan suatu data warehouse, kita dapat menggunakan cara antara lain :

  • Cara yang paling sederhana adalah menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan.
  • Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse baik implicit maupun explicit secara explicit dengan unsur waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit didalam data tersebut.

Snapshot

Cara yang ketiga,variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai keinginan pemakai dari keseluruhan data yang ada bersifat read-only.

Nov 28

Terintegrasi – Data Warehouse

Inetgrated

Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri.

Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik dari data.

Konsistensi Data

Contoh pada lingkungan operasional terdapat berbagai macam aplikasi yang mungkin pula dibuat oleh developer yang berbeda. Oleh karena itu, mungkin dalam aplikasi-aplikasi tersebut ada variable yang memiliki maksud yang sama tetapi nama dan format nya berbeda. Variable tersebut harus dikonversi menjadi nama yang sama dan format yang disepakati bersama. Dengan demikian tidak ada lagi kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah data tersebut bisa dikategorikan sebagai data yang terintegrasi karena kekonsistenannya.

Nov 28

Subject Oriented – Data Warehouse

Subject Oriented

Data warehouse berorientasi subject artinya data warehouse didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi aplikasi tertentu.

Data warehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan(customers,products dan sales) dan tidakĀ  diorganisasikan pada area-area aplikasi utama(customer invoicing,stock control dan product sales). Hal ini dikarenakan kebutuhan dari data warehouse untuk menyimpan data-data yang bersifat sebagai penunjang suatu keputusan, dari pada aplikasi yang berorientasi terhadap data.

Jadi dengan kata lain, data yang disimpan adalah berorientasi kepada subjek bukan terhadap proses.

Data Operasional VS Data Warehouse

Secara garis besar perbedaan antara data operasional dan data warehouse yaitu :

Data Operasional

Data Warehouse

Dirancang berorientasi hanya pada aplikasi dan fungsi tertentu Dirancang berdasar pada subjek-subjek tertentu(utama)
Focusnya pada desain database dan proses Focusnya pada pemodelan data dan desain data
Berisi rincian atau detail data Berisi data-data history yang akan dipakai dalam proses analisis
Relasi antar table berdasar aturan terkini(selalu mengikuti rule(aturan) terbaru) Banyak aturan bisnis dapat tersaji antara tabel-tabel