数据仓库设计的最佳实践

2017-05-27
标签: 数据仓库    数据仓库设计   

  数据仓库可以是高成本的项目,有很大的投资回报 —— 如果正确执行的话。

  数据仓库是一个过程,在数据中心连接多个数据库,以便更高的输出性能,低能耗,,节约成本以及释放TB甚至是PB的数据存储空间。当移动到一个数据仓库时,架构设计结合存储结构的实施一起确保性能和未来开发项目的可伸缩性。

数据仓库设计的最佳实践

  云数据仓库托管提供内部仓库无法提供的可扩展性和可信性,而且按需使用资源,,降低公司的成本。

  维持数据完整性

  当移动到一个新的云数据仓库时,一定要获得业务单位的规范,这样数据库管理员才可以识别新仓库设计需要的表。当确定出重要数据后,创建一个维护数据的完整性,避免冗余的表设计。

  数据冗余是指同一数据可用在仓库的几个地方。所以一个没更新的值会导致处理上的问题。关系数据库不需要数据冗余,维护更高效的查询。

  数据质量

  当开发人员感到疲倦或要在最后期限内移动到数据仓库时,数据质量可能被遗忘。数据质量要求保持一个高效的数据集保证性能和获取准确的信息。当表不标准,索引和主键和外键没被设置时, 数据仓库可能表现不佳。在生产环境里发布和部署仓库之前确保数据和数据库结构设置适当。

  即时查询和夜间运行

  在报表方面,加上夜间运行和非工作时间运行的即时查询,在单独的报表数据库存储数据。云托管可以在背后运行这些查询,同时提供其他如公司的网站和数据转换项目的接口。这减少了在生产数据库返回大数据集的查询的次数。夜间运行在主要生产服务器上运行查询并在报表服务器转换数据到一个表或一组表。在某些情况下, 企业复制所有新数据到报表服务器存储生产数据的副本。

  如果数据不需要实时报表,那就可以用24小时的延迟报表。例如, 计费部门可能需要前一天的发票清单。有24小时数据的报表服务器足以存储数据,生产服务器只用来实时查询。

  执行审计表

  审计表跟踪数据的改变,是监控重要数据的任何数据更改或数据访问的最好方式。记录被浏览或更新时,谁浏览了这些数据,哪个应用程序来访问的数据,审计表会跟踪。按日期和时间字段索引进行排序和执行。这些表可以增长到兆字节的存储空间。如果表增长太多, 将单独的表或数据库不需要的旧数据存档。

  能源效率

  谷歌最近为公司自己的数据中心发布了能源效率信息。该公司创建自己的可再生能源和能效标准。并不是将数据中心保持低温,谷歌允许数据中心在中心部分的温度上升并使用冷却单元消除热空气。这减少了A / C和能源成本。一些由谷歌开创的基本标准变化可以帮助新数据中心管理员创建业务的节省成本仓库。

  创建一个设计良好的数据仓库需要几个月的计划和考虑。虽然最初的成本看起来很高, 但月成本的降低是值得投入的,尤其是当公司将数据转移到云主机时。


速鸿科技是一家专注于为企业提供 BI商业智能大数据分析智能分析智能软件以及 数据挖掘 等服务的大平台

咨询热线:020-37267822

粤ICP备15039093号