返回
计算机世界2000年第30期

数据仓库与企业信息门户

西安交通大学 朱国昱

  随着市场竞争的加剧和信息社会需求的发展,企业在面临大量数据,包括企业内部数据如企业财务状况、产品销售情况等,以及企业的外部数据,如企业产品的市场占有率、供应商状况、客户的偏好等等,如何快速从中提取(检索、查询)信息、制定市场策略,以便对市场机会做出及时灵活的反应,成为企业在信息时代的市场竞争中立于不败之地的关键所在。这种需求既要求联机服务,又涉及大量用于决策的数据。

数据仓库使企业有了统一的数据视图

  随着C/S技术的成熟和并行数据库的发展,信息处理技术的发展趋势已变为:从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,也就是为决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,这种支持决策的、特殊的数据存储即被称为数据仓库(Data Warehouse, DW)。

  数据仓库是一种管理技术,它能够将分布在企业网络中不同站点的商业数据集成到一起,为决策者提供各种类型的、有效的数据分析,起到决策支持的作用。美国著名信息工程学家W.H.Inmon在《建立数据仓库》一书中对数据仓库做了如下定义:“数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策制定过程。”

  所谓主题,它是数据归类的标准,每个主题对应一个客观分析领域,如销售状况、人事状况、整个企业的利润状况等。它可以辅助决策集成多个部门不同系统的大量数据。所谓面向主题,是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息。

  所谓集成,是指数据仓库中的信息不是从各个业务处理系统中简单抽取出来的,而是经过系统加工、汇总和整理,以确保数据仓库内的信息是关于整个企业的一致的全局信息。

  所谓稳定,是指一旦某个数据进入数据仓库,一般情况下将被长期保留,也就是数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少。

  所谓包含历史数据,是指数据仓库内的信息并不只是关于企业当时或某一时点的信息,而是系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

  可见,数据仓库是跨越企业时空界限,把不同企业不同事务处理系统的数据集成起来提供一个统一的视图,获得有关公司运作状况和客户行为的更为综合的信息(如图1所示)。数据仓库的管理是基于元数据(Meta data)的管理。所谓元数据是关于数据的数据,它描述了数据仓库的数据和环境,记录了数据仓库中数据间的关系,以及与操作型数据(Operational data),即业务处理系统中的业务数据间的关系。元数据分为两类:一是管理元数据(Administrative Meta data),它是对源数据及其内容、数据仓库主题、数据转换及各种操作信息的描述;另一类是用户元数据(User Meta data),它帮助用户查询信息、理解结果、了解数据仓库的数据和组织。这些元数据既对管理有用又对用户有用。

数据仓库支持决策的作用及其局限性

  从以上的概念来看,数据仓库似乎是一个静态的概念,有些人认为数据仓库是一个大型的数据存储机制。事实上,数据仓库是一个工程的概念,是一个动态的概念。数据仓库的根本任务是把数据加以整理归纳,并及时提供给相应的管理决策人员,供他们做出改善其业务经营的决策,使信息发挥作用,支持决策。主要表现在:

  第一, 数据仓库有效集成了企业的业务数据,提供了标准的报表和图表的功能。数据仓库的报表和图表是关于整个企业集成信息的报表和图表,其中的数据可来源于不同的多个事务处理系统。从而为企业提供了按照主题的多方位的决策支持。

  第二,数据仓库可以对分布在不同系统的业务数据进行清洗和加工。数据仓库的源数据可能来自许多异构的事务处理系统,它们具有不同的数据格式和数据存储管理组织,数据仓库可以按照面向主题的原则对这些数据进行清洗和加工,使它们成为统一格式的易于使用的支持决策的数据。

  第三, 数据仓库支持多维分析。多维分析是通过把一个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理解角度,例如,时间和地理区域是经常采用的维度。应用多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过程中非常有用。

  第四, 数据仓库技术可以帮助企业决策者对企业未来状况作出预测。数据挖掘技术是数据仓库表现的关键技术。数据挖掘技术可以在已有数据中识别数据的模式,以帮助用户理解现有的信息,并在已有信息的基础上,对未来的状况作出预测。在数据仓库的基础上进行数据挖掘,就可以针对整个企业的状况和未来发展作出比较完整、合理、准确的分析和预测。

  第五, 成功的数据仓库系统可以为企业带来高的投资回报。结合企业业务现状,数据仓库可以建立在原有运行系统之上,企业可以在以分主题方式对原来运行数据重组的基础之上,为了某种支持特定决策的需要,再跨主题进行数据重组,这就需要数据集市(Data Marts)了。数据集市是聚集的、面向主题的数据仓库,它简单、灵活,并且建立速度更快,花费也更低廉。通常情况下,企业将建立一系列数据集市,用来处理一定范畴的问题,快速决策意味着企业可以对市场机会做出快速反应,这将为企业带来巨大的商业利益。

  但在能够为企业带来利益的同时,数据仓库在支持企业信息决策中也存在一些局限性。突出表现在:

  ·无法使用企业内部非结构化数据,如Word、Excel 文件、声音、图像;

  · 数据仓库的主要使用对象是高层决策者,不面向各层次用户;

  · 提供了千篇一律的操作界面,缺乏个性化。

企业信息门户提供了一个统一的应用界面

  由于Internet的普及和发展,当今的商业竞争已经到了比技术、比服务、比反应速度的以客户为中心多企业协作的阶段。Internet已经把产品与服务的供需双方,把企业和所有合作伙伴紧紧连接起来。数据仓库使企业跨越时空界限,把客户信息和合作伙伴信息集成起来,提供一个统一的视图,供企业决策者进行信息的提取、检索、查询和分析来支持企业市场定位和制定市场策略。但鉴于数据仓库的局限性,为进一步加速和优化企业与合作伙伴的协作,使不同层次的决策者或用户都能简单便捷地访问数据仓库,利用数据仓库提供的信息做出多方位的决策策略,就要建立企业信息门户。

  企业信息门户(Enterprise Information Portal),就是采用标准浏览器,如Internet Explorer,提供对企业的Intranet和Extranet的单点访问,使每个人能通过统一界面访问经授权的公司内部和外部信息,从而提高决策水平(如图2为EIP的基本结构图)。企业信息门户为企业的决策者、客户、供应商、雇员和合作伙伴提供了一个统一的应用界面,使数据仓库的使用者可以根据自己的需要获得想要的信息,它是通过提供全面的企业信息和应用来支持企业决策和客户选择的,主要作用体现在:

  第一, 企业信息门户(EIP)是将Web技术与企业的运作过程相集成的解决方案,它提供了一个单独的网关来访问信息和应用。企业门户可以对未组织的信息进行编目和跟踪,例如字处理文件,并将其发送给用户的桌面电脑,这是数据仓库技术无法实现的。企业门户也可以访问国际互连网上的内容,并根据用户的商业需求和在企业中的角色来过滤这些内容。一个企业门户通过开放和封闭的网络,提供了数据和信息的传递,使用户更方便地来了解与企业有关的信息。

  第二, 企业信息门户能够将存储在公司数据库、数据仓库和文件中的数据转换为可用的信息。它可以使你在公司内和公司外快速地改变信息,并通过浏览器传送信息。分散的公司通过网络连接在一起,加上最新型的信息传递方式,这就意味着在很短的时间内,获取正确的信息,传送给正确的用户,从而提高生产率。

  第三, 企业信息门户提供了一个对传统的个人桌面工作模式的改进方法,可以在通过简便的方法定制出的图形化的用户界面下进行工作(就像目前的商业门户,如Netcenter),能够实现信息的有效处理和系统的稳定性,就如同在原来的应用和信息系统下独立工作一样。

  第四, 企业信息门户使得企业和客户、合作伙伴以及供应商之间的商业往来变得很容易。它控制事务的处理和内容,使得企业内部和相互之间的通信和交易变得更加有效率。企业门户提高商业的运行效率,因此减少了商业运作的成本,并且解放了大量人力、物力资源,使其可以用于解决新的难题和市场。企业门户可以减少生产循环的时间,提高客户服务质量。它还能够用来建立客户和供应商之间的交互式关系,更快、更好地发送新的产品,传送新的服务,从而增加收益、扩大市场份额。

结束语

  当前企业面临的挑战是在时间上的竞争需求,这种需求不是出于自身的生产速度,而是指市场中的高收益,可以创立品牌并赢得商业优势。实际上这个挑战就是要把很多应用、人员和信息资源统一到一起,这需要加速革新进程,建立客户关系(Customer Relationships),并确实建立起完整的价值链(Integrated Value Chains)。数据仓库和企业信息门户都是力图让企业实现这一目标而出现的解决方案,这些都将成为企业电子商务的关键驱动。

  可以这么说,数据仓库为企业提供了一个统一的数据视图,而企业信息门户则为企业及其客户、合作伙伴和供应商提供了一个统一的应用界面,使他们方便快捷地访问数据仓库,进一步加速决策速度,提高决策水平。企业信息门户的贡献不只在于帮助一个企业了解手中大量信息的意义,更重要的是使他们能够应付那些由于分散的信息资源和处理过程维护能力下降而产生的问题。企业信息门户能够通过超越现在的分散的应用环境实现这个目标,把原来不同的相互关系连接到一起,形成广泛的、相互关联的企业应用环境,从而缩短企业响应时间。但我们决不能认为企业信息门户可以替代数据仓库系统。事实上,数据仓库系统是企业信息门户的基石,为企业信息门户的建立提供了一个完整的基础框架和统一的数据视图;而企业信息门户的建立是对数据仓库系统查询、检索、集成等功能的优化,二者是相辅相成的、统一的、都是为企业的决策信息系统服务的,也是企业实现电子商务关键因素。

  在数据库技术领域,一个关系解决方案的出现,要提供比硬件多层处理器所实现的更高的灵活性。21世纪电子商务将更加复杂,在很多内部和外部信息、人员和处理过程等资源都需要新层次的连接。建立起数据仓库系统和企业信息门户系统将会让企业能够不断对变化的市场信息进行高度集成和快速响应,促进企业的知识链和供求链的活跃,使其具有巨大的竞争优势。