粒度与分割
1)粒度
粒度是数据仓库的重要概念。粒度可以分为两种形式。第一种粒度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度是必不可少的。由于数据仓库的主要作用是DSS分析,因而绝大多数查询都基于一定程度的综合数据之上,只有极少数查询涉及细节。所以应该将大粒度数据存储在快速设备如磁盘上,小粒度数据存储在低速设备如磁带上。
第二种粒度是样本数据库.它根据给定的采样率从细节数据库中抽取出一个子集,这样样本数据库中的粒度就不是根据综合程度的不同来划分,而是由采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。
2)分割
分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它是将数据分散到各自的物理单元中去,以便能分别独立处理。有许多数据分割的标准可供参考,如日期、地域、业务领域等,也可以是其组合。一般而言,分割标准总应包括日期项,因为它十分自然而且分割均匀。