发新话题
打印

如何找到适合你的数据仓库

如何找到适合你的数据仓库

   可以供货的日期
  在测试报告中,除了说明完成测试的日期外,还会说明系统可以供货的日期。一般来说,由于对系统进行各种优化以及技术的不断更新等原因,后来进行测试的数据仓库系统一般都会比以前的更好。
  测试系统与厂商实际建议系统的差别
  用户在引用TPC-H/TPC-R的结果时,应该注意测试系统与厂商实际建议系统的差别。如果连基本平台(例如在UNIX上测试,建议系统却是基于NT)都不一样,则根本不具有可比性。另外,作为用户还应该特别关注一点,是否有与测试系统配置类似的成功案例;如果没有的话,进行实际实施时的风险相对就会比较高。  
  分析系统的可扩展性
  正如前面所说,数据仓库中的数据量增长很快,特别是投产初期的增长速度更加显著。事实上,除了数据量的增加外,查询复杂度的增加、并发用户数的增加等都要求数据仓库系统的可扩展能力很强。
  我们在分析一些TPC-H/TPC-R的测试报告时,发现同一个厂商在不同级别的测试环境中,使用了不同的硬件平台、不同的数据库系统或者不同的操作系统,这样就很难说明其可扩展能力。另外,有些测试系统的配置已经到了极限,没有任何可以扩展的空间,在引用其结果时也应加以注意。
  找到适合自己的标准
  当需要考察数据仓库系统性能时,除了参照TPC-H/TPC-R的测试结果外,建议用户根据自己的实际情况设计相应的性能测试标准。需要考虑的指标和因素应该在测试开始之前就明确定义,并且确定各项指标对自己的优先级或者重要程度。  
  1、推敲进行测试前的计划、测试执行的过程与所花的时间,从这一点可以看出厂商在项目管理与实施方面的经验。
  2、测试时尽量使用真实或者接近真实的数据进行测试。有时候客户使用很小的数据集通过自连接等手段来生成很大规模的测试数据,使得数据的冗余非常高。有一些索引技术对这种分布规律的数据具有非常好的效果。但由于数据分布与实际情况相去甚远,测试结果也很难反映真正的效果。
  3、除了考察系统处理预定义查询的性能外,还应评估系统处理动态查询的能力。可以在测试时临时给出一些动态查询,测试厂商来不及也不允许对系统进行优化。另外,在测试时应该尽量使用能够代表真正业务问题的复杂查询,特别是那些以前无法得到答案的复杂业务问题,这样能够对将来可以获得的实际业务价值与回报有比较感性的认识和把握。
  4、系统投入生产的可能性。是否能与现有生产环境进行连接,并从现有生产环境中抽取数据;从生产环境抽取数据并加载到数据仓库系统的性能如何,是否满足日常运作的要求;与现有的或准备使用的前台应用工具的连接性如何,用户信息存取是否简单等等。
  5、系统是否容易使用与管理。系统能够提供什么样的工具进行管理、使用是否方便、需要管理哪些内容(空间分配、负载管理、是否存在第三方厂商的工具来进行系统管理等方面。
  6、系统的线性扩展能力:在测试时主要可以从这样几方面来考虑系统的线性扩展能力:当数据量增加或者并发用户数增加时,同一个查询的响应时间线性增加而不至于饱和;当系统配置增加时,同一个查询的响应时间成线性比例缩短。 

TOP

发新话题