关系经济人类预测化学自然
投稿投诉
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产

网站数据分析的一些问题三

9月21日 不将就投稿
  之前的文章网站数据分析的一些问题(二)中主要整理了BI相关的问题,这篇文章主要想整理一些数据仓库相关的问题。因为最近重新在看一些数据仓库的资料和书籍,想把之前以及当前遇到的主要问题提出来(博客中有关数据仓库的相关内容请参阅网站数据仓库这个目录),同时自己也对数据仓库方面的知识进行下重新的整理和认识,而且很久没有在博客发新的文章了,不能让自己过于懒散了。
  之前看过Inmon的《构建数据仓库》和《DW2。0》,而另外一位数据仓库大师Kimball的《数据仓库生命周期工具箱》一直没有时间阅读,最近才有时间看完了大部分,就迫不及待想写点东西了。其实数据仓库领域普遍认为Inmon和Kimball的理论是对立的,两者在构建数据仓库上方向性的差异一直争论不休,谁也无法说服谁到底哪种方法更好。我的Evernote的笔记里面不知什么时候从哪里摘录过来了对两者观点的概括性描述,非常简洁明了而一针见血:
  InmonvsKimball
  KimballLeteverybodybuildwhattheywantwhentheywantit,we’llintegrateitallwhenandifweneedto。(BOTTOMUPAPPROACH)
  Pros:fasttobuild,quickROI,nimble
  Cons:hardertomaintainasanenterpriseresource,oftenredundant,oftendifficulttointegratedatamarts
  InmonDon’tdoanythinguntilyou’vedesignedeverything。(TOPDOWNAPPROACH)
  Pros:easytomaitain,tightlyintegrated
  Cons:takeswaytoolongtodeliverfirstprojects,rigid
  其实看了《数据仓库生命周期工具箱》之后,发现两者的观点没有那么大的本质性差异,可能随着数据仓库的不断发展,两者在整体的架构上慢慢趋同。基本上,构建统一的企业级数据仓库的方向是一致的,而Inmon偏向于从底层的数据集成出发,而Kimball则趋向于从上层的需求角度出发,这可能跟两者从事的项目和所处的位置有关。
  有了上面这段高质量的概括,第一个问题你更偏向于以何种方式搭建数据仓库(BOTTOMUPorTOPDOWN),分别有什么优劣势?其实就不用问了,所以下面主要提几个在实际中可能经常遇到或者需要想清楚的问题:
  Q1、数据仓库的技术解决方案有哪些,这些解决方案的优势在哪,瓶颈在哪?
  随着数据仓库的不断发展和成熟,大数据概念的风靡,有越来越多的相关产品出来,最常见的技术解决方案包括hadoop和hive,oracle,mysql的infobright,greenplum及nosql,或者多个结合使用。
  其实归纳起来就两类:一是用传统RDBMS为主导的数据库管理数据,oracle、mysql等都是基于传统的关系型数据库,优势就是有更严谨的数据结构,关系型数据库对数据的管理更加规范,数据处理过程中可能出现的非人为误差极小,而且标准的SQL接口使数据获取的成本较低,数据的查询和获取更加灵活和高效;但劣势也很明显,对海量数据的处理和存储的能力不足,当数据量达到一定程度的时候就会出现明显的瓶颈。而是基于文本的分布式处理引擎,hadoop、greenplum和nosql都是基于文本数据的处理和存储,优势是强大的数据处理能力,分布式的架构支持并行计算,并且具备超强的扩展延伸能力;劣势就是上层接口不方便,因此Hadoop上层的hive和greenplum上层的postgreSQL都是为了解决数据接口的问题,并且数据的查询和获取很难做到实时响应,灵活性不足。
  Q2、数据仓库是否就应该保存聚合数据,细节数据不应该放入数据仓库?
  其实这个问题基本已经达成共识,如果是构建企业级的数据仓库,那么对细节数据的集成和存储是必不可少的,但现实中还是存在很多直接从外部数据源计算聚合之后导入数据仓库的实例。如果对数据仓库只是轻量级的应用,仅存放聚合数据也无可厚非,毕竟没人规定数据仓库一定要是怎么样的,最终的目的无非就是满足对数据的支持和需求。
  但对于企业的长期发展来看,数据仓库中存放细节数据有两方面的好处:一方面从技术层面,数据仓库存储细节数据可以释放前台数据库的查询压力,同时对于文本类数据和外部文档类数据入库之后管理更加规范,数据仓库保留历史和不可变更的特性可以让信息不被丢失;另一方面就是从数据的使用上,数据仓库让数据的获取和使用更加简便,集成细节数据让大量的文本型数据可查询,可关联,而面向主题的设计让数据的展现和分析更有方向性和目的性,而且细节数据是支持数据分析和数据挖掘应用所必不可少的。所以,如果数据仓库要不断地催生出更大的价值,细节数据的存储是必不可少的。
  Q3、你会把数据仓库分为几层,每层的数据作用是什么?
  没有标准答案,根据数据仓库中数据的复杂性和对数据使用的需求程度,数据仓库可以有不用的层级划分。
  我一般会把数据仓库划成三层:最底层的细节数据,管理策略是优化存储,一般存储导入的原始数据,便于进行向上的统计汇总,因为数据量较大所以需要优化存储;中间层是多维模型,管理策略是优化结构和查询,面向主题的多维模型的设计,需要满足OLAP和数据查询的多样需求,同时保证查询的便捷性,关键在与维表的设计和维度的选择及组合,事实表需要关注存储和索引的优化;最上层是展现数据,管理策略是优化效率,一般会存放每天需要展现的汇总报表,或者根据多维模型拼装的视图,展现层的数据需要以最快的速度展现出来,一般用于BI平台的Dashboard和报表。
  Q4、数据仓库搭建中最繁杂的事情是什么,最容易缺失的是哪一块?
投诉 评论 转载

枇杷种植的种子育苗枇杷可以人工种植,也可以大棚种植。枇杷的生活习性:枇杷喜光,稍耐阴,喜温暖气候和肥水湿润、排水良好的土壤,稍耐寒,不耐严寒,生长缓慢,枇杷种植的种子育苗技术是怎样的呢?枇……怎样提高抽象思维能力提升学习能力如何同样的书,同样的课程,不同的人学习,却有截然不同的结果。有的人看似读了很多的书籍,却依然不得要领。在我们上学的时候,一些学霸对于学习这件事,相较大多数普通人来说,似乎毫不……吃货圈新讨论汽油和机油到底谁更好喝一不小心喝进嘴里了点汽油可能老司机都经历过,特别在摩友中更是常见,摩托车在半路上没油了,从其他车里拿皮管抽油的时候,很容易吸到嘴里。这个味道圈哥是尝过的,差评,很苦,很涩,不好……给初三孩子的家长寄语经典的初三家长寄语中考的意义是在于你真正的投入过程。请务必坚定信念,守得云开见月明!接下来分享初三家长鼓励寄语,供参考。经典的初三家长寄语1。亲爱的孩子,你有着最令人羡慕的年龄,你的……网站数据分析的一些问题三之前的文章网站数据分析的一些问题(二)中主要整理了BI相关的问题,这篇文章主要想整理一些数据仓库相关的问题。因为最近重新在看一些数据仓库的资料和书籍,想把之前以及当前遇到的主要……基于原则的一些设计思考一、Gestalt是什么?词意为形式,但与我们说的形式的意义不完全相同,它揭示了人的感知,特别是占主要地位的视知觉,并不是直接的镜像反应,它能对所看到的的形(视觉、声音或……有没有不用抠图能把红底证件照换白底的办PS对证件照换底色的方法有很多种,想要不抠图的情况下更换证件照底色也是可以的,我之前的文章问答都有过这类型的教程,那么我今天给大家带来红底证件照换白底的超简单方法,不需要抠图的……有了这三款软件在线视频你想下就下在线视频(比如优酷、搜狐、B站、微博视频、秒拍等),看容易下载难,之前大家比较熟悉的两款在线视频下载软件:维棠:http:www。vidown。cn硕鼠:http:……戴维尤里奇所谓领导力是要拿结果说话大多数领导者收到过无数邀请函,被邀请参加一些由大学、专业机构和商业机构举办的领导力发展研讨会或讨论会。邀请函内容吸人眼球:会议内容对每位领导者事业的成败至关重要;由具有专业资质……家居草坪地垫巧用毛线做草坪地垫草坪地垫DIY的选择也是家庭装修不可忽视的,草坪地垫的选购十分的重要,选好了能体现个人的修养和品位。草坪地垫DIY分为几种,关于草坪地垫DIY其实也有很多种类型的区分你都知道吗……民间秘传掐指神算口诀作者:董加永在我国民间有这样的一种人,哪家丢了东西或者牲口走失了,甚至家里有人出走了,只要找到他们掐算一下,就能知道往哪个方向寻找,离家有多远。或是你的东西没有丢失,就在……年月日黄历黄道吉日吉时一览表2017年9月4日黄历吉日查询表2017年9月4日农历2017年7月14日丁酉(鸡)年农历七月月十四日农历七月小十四星期一处女座岁次:丁酉年鸡戊申月甲午日每日……
蒲公英的陪伴磨难造就人才勇敢面对心里恐惧会神功的妈妈有范儿炒菜加这物竟能治好这么多病睡眠不好吃什么药睡眠大禁忌要牢记益智补脑粥有哪些产妇喝黑米粥的好处有哪些岁小孩牙齿松动怎么办呢减肥效果超级好的中药花茶十大最佳绿化树木盘点你知道几个二

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找菏泽德阳山西湖州宝鸡上海茂名内江三亚信阳长春北海西安安徽黄石烟台沧州湛江肇庆鹤壁六安韶关成都钦州