Strategi Umum untuk Komputasi Data Cube

Ada beberapa metode untuk perhitungan kubus data yang efisien, secara umum, ada dua data dasar struktur yang digunakan untuk menyimpan kubus. Implementasi OLAP relasional (ROLAP) menggunakan tabel relasional, sedangkan array multidimensional digunakan dalam multidimensional OLAP (MOLAP). Meskipun ROLAP dan MOLAP masing-masing dapat menjelajahi kubus yang berbeda teknik perhitungan, beberapa "trik" optimasi dapat dibagi di antara yang beberapa representasi data. Berikut ini adalah teknik pengoptimalan pada perhitungan Data Cube.

Teknik Optimasi 1: Sorting, hashing, dan grouping.

Operasi pengelompokan harus diterapkan pada atribut dimensi untuk menyusun ulang dan kluster yang berkaitan dengan tupel. Dalam perhitungan data cube, agregasi dilakukan pada tupel (atau sel) yang dibagikan set nilai dimensi yang sama. Jadi, penting untuk mengeksplorasi sorting, hashing, dan grouping untuk mengakses dan mengelompokkan data tersebut bersama-sama untuk memfasilitasi perhitungan dari agregat tersebut.

Untuk menghitung total penjualan berdasarkan cabang, hari, dan item, misalnya, akan lebih efisien apabila mengurutkan tupel atau sel dengan cabang, dan kemudian mengelompokkannya sesuai dengan nama barang. Implementasi yang efisien dari operasi semacam itu secara luas set data yang telah dipelajari secara ekstensif di komunitas riset basis data. Implementasi dapat diperluas ke perhitungan kubus data. Teknik ini juga dapat diperluas untuk melakukan pembagian bersama (dapat menyortir biaya di beberapa kubus ketika metode menggunakan metode sorting), atau untuk melakukan partisi bersama (berbagi biaya partisi di beberapa cuboids ketika algoritma berbasis hash digunakan).

Teknik Optimasi 2: Simultaneous aggregation and caching of intermediate (Agregasi simultan dan caching menengah)

Dalam perhitungan kubus, akan lebih efisien untuk menghitung agregat tingkat yang lebih tinggi dari pada menghitung agregat tingkat lebih rendah. Selain itu, agregasi simultan dari hasil perhitungan menengah di-cache dapat menyebabkan pengurangan operasi input / output disk (I/O) yang mahal.

Untuk menghitung penjualan dengan cabang, misalnya kita dapat menggunakan hasil antara perhitungan kubus tingkat rendah seperti penjualan menurut cabang dan hari. Teknik ini dapat diperluas lebih lanjut untuk melakukan scan yang diamortisasi (komputasi sebanyak mungkin cuboids pada saat yang sama untuk mengamortasi disk yang dibaca).

Teknik Optimasi 3: Aggregation fromthe smallest childwhen there existmultiple child cuboids.

Ketika ada beberapa cuboids anak, biasanya akan lebih efisien untuk menghitung induk yang diinginkan yang berbentuk dari kubus terkecil, kubus anak yang dihitung sebelumnya.

Banyak teknik pengoptimalan lain yang dapat lebih meningkatkan efisiensi komputasi. Misalnya, atribut dimensi string dapat dipetakan ke bilangan bulat dengan nilai mulai dari nol ke kardinalitas atribut. Dalam perhitungan data cube, teknik pengoptimalan berikut ini sangat diperlukan dan mempunyai peran penting.

Teknik Optimasi 4: The Apriori pruning method can be explored to

compute iceberg cubes efficiently.

Dalam konteks data kubus, "Jika sel yang diberikan tidak memenuhi dukungan minimum, maka tidak ada keturunan sel (sel yang lebih khusus) akan memenuhi dukungan minimum juga. Properti dapat digunakan untuk substansial yang dapat mengurangi perhitungan.

Spesifikasi iceberg cube mengandung kondisi iceberg, dimana ada kendala pada sel yang akan terwujud. Kondisi iceberg yang umum adalah sel harus memenuhi ambang batas dukungan minimum yaitu jumlah atau jumlah minimum. Di situasi ini, properti Apriori dapat digunakan untuk memangkas eksplorasi keturunan sel. Sebagai contoh, jika hitungan sel, c, dalam satu kubus kurang dari ambang batas dukungan minimum, v, lalu hitungan sel-sel turunan c di dalam cuboids tingkat rendah tidak pernah bisa lebih besar dari atau sama dengan v, dan dengan demikian dapat dihapus. Dengan kata lain, jika suatu kondisi dilanggar untuk beberapa sel c, maka setiap keturunan c juga akan melanggar kondisi itu. Ukuran yang mematuhi properti ini dikenal sebagai antimonotonic.

Referensi:

Jiawei Han, M. K. (2012). Data Mining Concepts and Technique. In M. K. Jiawei Han, Data   Mining Concepts and Technique 3rd Edition (pp. 187-200). USA: BritishLibrary Cataloguing-in-Publication Data.

Data Cube Technology

Pendahuluan Sistem data warehouse menyediakan alat pemrosesan analitik online (OLAP) untuk interaktif analisis data multidimensi pada tingkat granularitas yang bervariasi. Alat OLAP biasanya digunakan kubus data (data cube) dan model data multidimensi untuk menyediakan akses yang fleksibel untuk dirangkum. Sebagai contoh, sebuah kubus data dapat menyimpan langkah-langkah precomputed, seperti count() dan total penjualan() yang membentuk kombinasi dimensi data (seperti barang, wilayah, dan pelanggan). Pengguna dapat mengajukan pertanyaan OLAP pada data. Mereka juga dapat mengeksplorasi data secara interaktif dengan cara multidimensional melalui operasi OLAP seperti drill-down (untuk melihat lebih khusus data seperti total penjualan per kota) atau roll-up (untuk melihat data secara lebih umum tingkat seperti total penjualan per negara). Meskipun konsep data kubus awalnya ditujukan untuk OLAP, itu...

Baca selengkapnya

DATA CUBE TECHNOLOGY

Cari Blog Ini