4.3.1 数据仓库设计的三级数据模型
所谓数据模型,就是对现实世界进行抽象的工具,抽象的程度不同,也就形成了不同抽象级别层次上的数据模型。数据仓库的数据模型与操作型数据库的三级数据模型又有一定的区别,主要表现在:
(1)数据仓库的数据模型中不包含纯操作型的数据。
(2)数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分。
(3)数据仓库的数据模型中增加了一些导出数据。
可以看出,上述三点差别也就是操作型环境中的数据与数据仓库中的数据之间的差别,同样是数据仓库为面向数据分析处理所要求的。虽然存在着这样的差别,但在数据仓库设计中,仍然存在着三级数据模型,即概念模型、逻辑模型和物理模型。
1.概念模型
概念模型是主观与客观之间的桥梁,它是为一定的目标设计系统收集信息而服务的一个概念性的工具。具体到计算机系统来说,概念模型是客观世界到机器世界的一个中间层次。人们首先将现实世界抽象为信息世界,然后将信息世界转化为机器世界,信息世界中的这一信息结构,即是我们所说的概念模型。
概念模型最常用的表示方法是E-R法(实体-联系法),这种方法用E-R图作为它的描述工具。E-R图描述的是实体以及实体之间的联系,在E-R图中,长方形表示实体,在数据仓库中就表示主题,在框内写上主题名,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,菱形框内写上联系的名字。用无向边把菱形分别与有关的主题连接,在无向边旁标上联系的类型。若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。
由于E-R图具有良好的可操作性,形式简单且易于理解,便于与用户交流,对客观世界的描述能力也较强,在数据库设计方面更得到了广泛的应用。因为目前的数据仓库一般建立在关系数据库的基础之上,为了和原有数据库的概念模型相一致,采用E-R图作为数据仓库的概念模型仍然是较为适合的。
2.逻辑模型
在前面我们已经介绍过,目前数据仓库一般建立在关系数据库基础之上。因此,在数据仓库的设计中采用的逻辑模型就是关系模型。无论是主题还是主题之间的联系,都用关系来表示。由于关系模型概念简单、清晰,用户易懂、易用,有严格的数学基础和在此基础上发展的关系数据理论,关系模型简化了程序员的工作和数据仓库设计开发的工作,当前比较成熟的商品化数据库产品都是基于关系模型的,因此采用关系模型作为数据仓库的逻辑模型是合适的。下面简单介绍关系模型的基本概念。
关系:一个二维表;
元组:表中的一行称为一个元组;
属性:表中的一列称为属性,给每一列起一个名称即属性名;
主码:表中的某个属性组,它们的值唯一地标识一个元组;
域:属性的取值范围;
分量:元组中的一个属性组;
关系模式:对关系的描述,可用关系名(属性名1,属性名2,……,属性名n)表示。
数据仓库设计中的逻辑模型描述就是数据仓库的每个主题对应的关系模式的描述。
3.物理模型
所谓数据仓库的物理模型就是逻辑模型在数据仓库中的实现,如物理存取方式、数据存储结构、数据存放位置以及存储分配等。物理模型是在逻辑模型的基础之上实现的,在进行物理模型设计实现时,所考虑的主要因素有:I/O存取时间、空间利用率和维护代价。在进行数据仓库的物理模型设计时,考虑到数据仓库的数据量大但是操作单一的特点,可采取其他的一些提高数据仓库性能的技术,如:合并表、建立数据序列、引入冗余、进一步细分数据、生成导出数据、建立广义索引等。
上一篇:正常重力公式
下一篇:供职报告的基本结构和写法