[返回]
微电脑世界1999年第29期
赵广慧 陈 革
数据仓库的概念最初是美国信息工程学家William
Inmon 博士在90 年代提出的,他认为:"一个数据仓库通常是一个面向主题的、集成的及随时间变化的,但信息本身又相对稳定的数据集合,它用于对管理决策过程的支持。”所谓主题,在这里是指用户使用数据仓库进行决策时所关心的重点方面,如银行存款情况、贷款情况、客户群情况、利润情况等;面向主题是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息;集成是指数据仓库中的信息不是从各个业务处理系统简单抽取出来的,而是经过系统加工、汇总和整理的,保证数据仓库内的信息是关于整个企业的一致的全局信息;随时间变化则是指数据仓库内的信息并不只是关于企业当时或某一时点的信息,而是系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势作出定量分析和预测。所谓信息本身相对稳定是指一旦某个数据进入数据仓库后,一般情况下将被长期保留,也就是数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少。
广东发展银行大连分行的计算机网络以AS/400
小型机为中心,在银行综合业务处理系统的基础上,又结合数据仓库的管理思想开发出一套基于Web
的金融MIS 系统,主要数据源通过Symbiator( 数据复制工具)
将数据实时采集到NT 服务器上的Microsoft SQL Server
数据库中,构成了实时的Intranet
企业网。用户端可使用浏览器方便地进行银行各项动态信息的查询,特别是该系统具有开放、通用、先进、易扩展的性能,可在此基础上进一步开展银行的网上业务,为广大客户提供方便、多样的服务。
银行业务数据主要有银行内部账数据( 科目账) 和分户账数据(
客户账),两类前台综合业务处理系统存储的数据只是为满足连机交易(OLTP)
和生成银行报表的时点数据,要根据原始数据进行平均、汇总、分析预测(OLAP)
比较困难。定时将前台账务型数据经过过滤、转换,抽取到后台数据库中按时间序列(
随时间变化) 长期保存,并按数据用途、种类( 主题)
划分成不同的数据集市,再将数据集市中的数据在时间、业务种类、所属机构等几个维度上进一步进行层次划分和数据聚合处理(
集成),如时间维可划分为按日→按月→按季→按年汇总的数据,机构维可划分为按网点→按支行→按分行汇总的数据等。经过上述处理就将原始的账务型数据转换成了适合MIS
系统使用的分析性数据。在此基础上进行查询、统计、分析则效率会大大提高。图1
可基本说明这一过程。

Symbiator
是一个实时的跨平台的数据工具,前台数据的变化可根据抽取的条件,实时地转换到NT
Server
对应数据库中。日终结束后系统自动提交数据整理程序,将原始数据经过予一致性校验后,按时间序列保存到数据集市中,然后按照每个维度上划分的层次进行聚合后放到相应的数据库中。用户查询统计涉及到的数据大都是在聚合后的数据库中,所以效率很高。如要查询某支行某个季度的日均存款情况,则只要从支行级按时间汇总的聚集表中取出此支行此季度的相关记录,做简单运算即可。参见图2。

数据仓库工程是一个复杂的信息集成工程,需要有事先周密的规划。通过对数据仓库工程进行规划,要明确企业的业务信息需求和现状,提出如何通过采用相应技术,实施可行的工程化步骤,达到工程项目的预期目标。本系统采用了数据仓库的数据处理思想,对数据进行了事前处理,以磁盘的存取空间换取了用户查询时间,提高了数据存储和查询的效率,以往需要几十分钟才能统计出的报表,现在只需几秒钟即可完成,使金融MIS
的性能大大提高。对大量数据快速准确地汇总、统计、分析和预测,不仅提高了工作效率,也为防范金融风险提供了积极的信息支持。