douces 2007-8-25 12:59
数据仓库让数据变成知识(二)
上一部分
王小虎
ibm软件集团
信息管理技术经理
数据仓库的建设是一个过程,并非一蹴而就。在这个过程中,业务需求和信息基础设施规划两者都不可或缺。首先,我们不是先建设一个数据仓库,再来寻找它可以解决的问题,即空有数据的积累但没有真正的业务价值;同时我们也不能仅仅看重目前需要解决的业务问题,而忽略了数据仓库应当作为it基础设施平台的一部分,将高楼大厦建立在了沙滩之上。
企业的困扰
很多企业在实施数据仓库项目上,都有选择企业级数据仓库还是部门级数据仓库(数据集市)的困扰,这也一定程度上决定了企业未来数据仓库的应用关键。
首先,我们有必要先了解一下数据仓库系统体系结构和数据集市。整个数据仓库系统是一个包含四个层次的体系结构,具体由右图表示。
数据源是包括存放于关系数据库管理系统(rdbms)中的各种业务处理数据、各类文档数据、相关法律法规、市场信息和竞争对手的信息等等
olap系统的应用主要是对用户当前以及历史数据进行多角度、多层次的分析,辅助领导进行决策,以及进行大量的实时数据查询操作。其典型的应用有对银行
信用卡风险的分析与预测和公司市场营销策略的制定等。
前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。
数据的存储与管理是整个数据仓库系统的核心。也是数据仓库的关键。数据仓库按照数据的覆盖范围,可以分为企业级数据仓库和部门级数据仓库(数据集市)。
如果说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,它主要面向部门级业务,并且只面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。它和数据仓库除了在数据量大小和服务对象上有所区别外,逻辑结构并无多大区别。
企业在计划实施数据仓库时,如果出于项目成本、信息化程度、项目周期等多方面的考虑,可以选择建立独立数据集市。例如:用户可以将第一个数据仓库的实现定位于一个特定的部门和应用或者业务线,用来解决个别部门比较迫切的问题。以后再用几个数据集市组成一个完整的数据仓库。这样可以降低开发成本,缩短实现周期,并有助于为未来的数据仓库的发展培训it人员。
但企业在实施项目前,前提是必须需要根据企业全面的业务信息和全局的视点制定一个整体决策结构和规划。这个决策是要面对未来企业级数据仓库的建设和整合上。一定要保证现在所使用的数据模型能够向将来企业范围的数据存储扩展,以便于将来其他数据集市和战略数据仓库的实现。否则,当企业做商业决策时,需要从多个数据集市或资源系统提取信息,由于数据集市各自独立,每个都由一个应用软件支持,因此造成信息调用不方便而影响到整个数据仓库系统。
实施案例
2002年,民生银行制定了其新的五年战略规划,根据该战略规划,民生银行将在未来五年内迅速增加资产规模和扩大业务范围,在继续巩固和发展对公业务的同时,加速拓展
零售业务。为保证在高速增长期内实现高利润率和最大化增加股东价值,民生银行从2002年开始加快了信息智能化建设步伐。
中国民生银行将构建全行统一的基础数据平台,即企业级的数据仓库系统,作为全行信息化建设的基础。中国民生银行希望基于企业级的数据仓库系统,重点建设客户信息及客户关系管理、管理会计、信用风险管理等应用系统,有效地进行客户信息整合并实施客户关系管理,进一步增强银行与客户之间的关系,将客户关系转化为持久的竞争优势,从而使中国民生银行得以比其竞争对手更快和更有效率地挖掘客户价值,以实现业务的快速增长。
下图是民生银行在五年战略规划中确定的企业级数据仓库系统及其支持的应用系统的示意图。
在过大量调研和考察,ncr teradata成为民生银行实施企业级数据仓库系统的合作伙伴。根据总体规划、分布实施的原则,双方确定了三年的项目实施计划,对未来三年双方在数据仓库服务系统的硬件、软件和专业技术服务的合作等方面进行了前瞻性规划,同时也签订了项目第一期的合同。
民生银行与ncr teradata共同明确:企业级数据仓库系统的建设是一个持续不断的过程。在项目第一期,将重点建设民生银行企业级的逻辑数据模型,并在此基础上整合民生银行的核心业务系统和十多个外围交易处理系统的数据,建成民生银行的基础数据平台,为民生银行所有的决策支持和管理信息系统提供数据支持。在以后各期中再不断地扩充数据源和扩展逻辑数据模型,不断增强和完善数据仓库系统数据支持能力。
应用系统方面,在项目的第一期首先专注于客户信息的整合,实现客户单一视图和客户信息查询与分析等功能。在项目第二期实施客户关系管理系统,实现闭环的市场化营销活动管理。在项目第三期实施客户贡献度分析和不断优化客户关系管理。
从2003年4月开始,ncr teradata开始了项目第一期的实施,到2003年年底,项目一期顺利结束。
在数据方面,对民生银行的数据源进行详细分析;设计民生银行企业级数据仓库逻辑数据模型(cmbc-ldm);完成民生银行核心业务系统和其他13个外围产品系统的数据抽取、清洗、加载和转换(etl)工作;建成民生银行企业级数据仓库基础环境。
在应用方面,实现统一的客户信息管理;提供目标客户搜索功能;实现客户细分分析;提供业务统计分析功能;建立金融同业信息库。
在一期成功实施的基础上,民生银行和ncr teradata又继续开始了项目二期的实施工作。项目二期历时一年至2004年年底结束。
项目建设第二期主要是数据仓库系统扩展与增强和客户关系管理系统建设,数据仓库系统扩展与增强主要包括新的数据源加载,逻辑数据模型的扩展,数据质量的改进,备份与恢复系统建设,数据接口实现和提供数据,为管理会计,信贷风险,非现场稽核,客户经理系统,人行征信系统。
客户关系管理系统建设主要包括tcrm5.0系统安装与客户化;设计客户关系管理数据模型;实现客户服务渠道的整合;客户行为分析;产品关联性分析;客户交差细分分析;客户百分比轮廓分析;示范性营销活动案例的设计与实施;其他功能。
目前民生银行的数据仓库及应用系统的建设已进入第三期,数据仓库系统及基于其上的应用系统都在不断地完善和继续深入实施。民生银行基于ncr teradata系统建设的数据仓库系统的作用日益明显。
目前数据平台为其他系统提供数据支持的情况包括:每月为管理会计系统提供数据约800mb,涉及50张数据表;每日为稽核系统提供数据约200mb,涉及70张数据表;每月为客服系统提供数据约10mb,涉及20张数据表;每月为人力系统提供数据约80mb,涉及到4数据表,包括银监会个人征信系统等。
从实施数据仓库的经济效益来看,数据仓库系统的建设实现全行帐户、客户和交易数据及所有历史数据的集中统一存放和管理,基本实现了民生银行全行数据的整合,这种企业级的数据仓库基础环境,从宏观上基本避免了对数据的冗余存放、重复抽取和处理,无论在系统运行效率还是总体投资方面都可以为银行带来巨大的经济效益。在这一点上,民生银行数据仓库系统建设和应用的实际经验对国内银行具有借鉴意义。
此外在应用系统建设方面,民生银行也获得了很好的回报。随着客户信息整合和客户关系管理系统建设的完成,民生银行开始逐步实施其以客户为中心的市场化营销活动,营销活动的客户反馈率稳步提高。通过规划有针对性的营销活动,极大地改善了营销活动的流程,提高了市场营销的效率,明显降低了各部门的营销活动成本。同时促进了各业务部门的营销观念和管理方式的进一步完善和更新。
数据仓库发展趋势
根据teradata数据仓库事业部05年9月公布的大型企业高级经理人年度调查报告显示,商业决策数量、复杂程度和数据量呈现持续综合性增长趋势。企业每日决策数量正在增长,决策复杂程度不断提升,数据量持续加大,这些已经成为企业界的普遍现象。
与往年受访者反映的“被数据淹没”的调查结果相比,2005年的调查显示有些人已经开始脱离困境。其中57%的受访人认为他们已经逐渐开始适应这种新状态,决策质量比去年有所提升。他们将这一改善的首要原因归于提升的分析能力、能快速取得详细信息以及更为丰富的经验。
teradata在2005年进行的另外几项研究也表明,数据激增造成的决策挑战是一个全球现象,欧洲和亚太的企业主管认同决策数量、复杂程度和数据量在激增。中国受访主管中85%认为每日决策的数量比去年有所增长,76%认为决策变得更加复杂,89%认为数据量已增加。
从数据访问的发展趋势来看,纵向整合机构被“虚拟”机构所取代,整个价值链共享数据,将客户整合到价值链中,此外访问数据的用户数量高速增长。机构的虚拟化意味着数据仓库用户数量的高速增长转向基于事件的分析,加之无人为决策参与,使得数据模式趋向由事件驱动和软件代理程序处理。
随着企业信息化程度的提高和数据仓库技术的不断跟进,我们有理由相信,数据仓库会越来越多的应用在更多更广泛的行业,为企业的决策支持和联机分析提供更有价值的信息和服务,让企业长期积累的数据变成正确决策宝贵的知识。