Langsung ke konten utama

Data Cube Technology

Pendahuluan



      Sistem data warehouse menyediakan alat pemrosesan analitik online (OLAP) untuk interaktif analisis data multidimensi pada tingkat granularitas yang bervariasi. Alat OLAP biasanya digunakan kubus data (data cube) dan model data multidimensi untuk menyediakan akses yang fleksibel untuk dirangkum. Sebagai contoh, sebuah kubus data dapat menyimpan langkah-langkah precomputed, seperti count() dan total penjualan() yang membentuk kombinasi dimensi data (seperti barang, wilayah, dan pelanggan).
      Pengguna dapat mengajukan pertanyaan OLAP pada data. Mereka juga dapat mengeksplorasi data secara interaktif dengan cara multidimensional melalui operasi OLAP seperti drill-down (untuk melihat lebih khusus data seperti total penjualan per kota) atau roll-up (untuk melihat data secara lebih umum tingkat seperti total penjualan per negara).

      Meskipun konsep data kubus awalnya ditujukan untuk OLAP, itu juga berguna untuk penambangan data.  Penambangan data multidimensi adalah pendekatan untuk penambangan data yang mengintegrasikan analisis data berbasis OLAP dengan teknik penemuan pengetahuan. Hal ini juga dikenal sebagai eksplorasi penambangan data multidimensional dan penambangan analitik online (OLAM), mencari pola yang menarik dengan menjelajahi data dalam multidimensional ruang dan memberi pengguna kebebasan untuk secara dinamis fokus pada setiap bagian yang menarik. Pengguna dapat menelusuri atau menggulung secara interaktif ke berbagai tingkat abstraksi ke temukan model klasifikasi, kluster, aturan prediksi, dan outlier.

      Konsep awal untuk perhitungan kubus adalah dengan cara meringkas gagasan kubus data sebagai kisi kubus, dan menggambarkan bentuk dasar dari perwujudan kubus. Hal yang perlu diketahui sebelumnya adalah materialisasi penuh (yaitu, di mana semua cuboids yang mewakili kubus data telah diolah sebelumnya dan dengan demikian siap untuk digunakan) dan materialisasi kuboid parsial (di mana hanya lebih banyak bagian "berguna" dari kubus data yang sudah di-precomputed). Ada juga kumpulan multiway array metode rinci untuk perhitungan kubus penuh. Metode untuk perhitungan kubus parsial, pada metode standar perhitungan kubus diantaranya BUC, Star-Cubing, dan penggunaan fragmen cube shell.
      Terdapat pula pemrosesan kueri berbasis kubus. Teknik-teknik yang akan dijelaskan pada materi selanjutnya diharapkan dapat membantu bagaimana cara menghitung kubus peringkat untuk kueri top-k (peringkat) yang efisien tentang kubus pengambilan sampel untuk menjawab pertanyaan OLAP pada data pengambilan sampel (misalnya, data survei, yang mewakili sampel atau subset dari populasi data target yang menarik). Dan dapat menjelaskan berbagai cara untuk melakukan analisis data multidimensi menggunakan kubus data. Kubus prediksi diperkenalkan, yang memfasilitasi prediksi dalam ruang multidimensi.






Referensi:
Jiawei Han, M. K. (2012). Data Mining Concepts and Technique. In M. K. Jiawei Han, Data Mining Concepts and Technique 3rd Edition (pp. 187-200). USA: BritishLibrary Cataloguing-in-Publication Data.

Komentar

Postingan populer dari blog ini

Komputasi Data Cube : Konsep Awal

Cube Materialization: Full Cube, Iceberg Cube, Cube Tertutup, dan Cube Shell             Ukuran yang umum digunakan antara lain; count(), sum(), min(), max(), dan total penjualan(). Setiap kubus mewakili kelompok demi kelompok. Misalkan ada ABC yang basisnya berbentuk kubus, mengandung ketiga dimensi. Di sini, ukuran agregat, M, dihitung untuk setiap kemungkinan kombinasi dari tiga dimensi. Basis kubus adalah paling umum dari semua cuboids dalam kubus data. Kubus yang paling umum adalah apex berbentuk kubus.         Untuk menelusuri kubus data, kita mulai dari kubus apeks, untuk menggulung, kita mulai dari kubus dasar ke atas.  Referensi: Jiawei Han, M. K. (2012). Data Mining Concepts and Technique. In M. K. Jiawei Han, Data Mining Concepts and Technique 3rd Edition (pp. 187-200). USA: BritishLibrary Cataloguing-in-Publication Data.

Strategi Umum untuk Komputasi Data Cube

       Ada beberapa metode untuk perhitungan kubus data yang efisien, secara umum, ada dua data dasar struktur yang digunakan untuk menyimpan kubus. Implementasi OLAP relasional (ROLAP) menggunakan tabel relasional, sedangkan array multidimensional digunakan dalam multidimensional OLAP (MOLAP). Meskipun ROLAP dan MOLAP masing-masing dapat menjelajahi kubus yang berbeda teknik perhitungan, beberapa "trik" optimasi dapat dibagi di antara yang beberapa  representasi data. Berikut ini adalah teknik pengoptimalan pada perhitungan Data Cube. Teknik Optimasi 1: Sorting, hashing, dan grouping. Operasi pengelompokan harus diterapkan pada atribut dimensi untuk menyusun ulang dan kluster yang berkaitan dengan tupel. Dalam perhitungan data cube, agregasi dilakukan pada tupel (atau sel) yang dibagikan set nilai dimensi yang sama. Jadi, penting untuk mengeksplorasi sorting, hashing, dan grouping untuk mengakses dan mengelompokkan da...