关系经济人类预测化学自然
中准网
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产

数据仓库的基本架构

12月4日 终不悔投稿
  数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。其实数据仓库本身并不生产任何数据,同时自身也不需要消费任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫仓库,而不叫工厂的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层源数据、数据仓库、数据应用:
  从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。
  数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra,转化Transfer,装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。
  下面主要简单介绍下数据仓库架构中的各个模块,当然这里所介绍的数据仓库主要是指网站数据仓库。
  数据仓库的数据来源
  其实之前的一篇文章已经介绍过数据仓库各种源数据的类型数据仓库的源数据类型,所以这里不再详细介绍。
  对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,对于分析网站Outcome这类数据更加精准;其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。
  数据仓库的数据存储
  源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存入数据仓库。其实这个过程一直有很大的争议,就是到底数据仓库需不需要储存细节数据,一方的观点是数据仓库面向分析,所以只要存储特定需求的多维分析模型;另一方的观点是数据仓库先要建立和维护细节数据,再根据需求聚合和处理细节数据生成特定的分析模型。我比较偏向后面一个观点:数据仓库并不需要储存所有的原始数据,但数据仓库需要储存细节数据,并且导入的数据必须经过整理和转换使其面向主题。简单地解释下:
  (1)。为什么不需要所有原始数据?数据仓库面向分析处理,但是某些源数据对于分析而言没有价值或者其可能产生的价值远低于储存这些数据所需要的数据仓库的实现和性能上的成本。比如我们知道用户的省份、城市足够,至于用户究竟住哪里可能只是物流商关心的事,或者用户在博客的评论内容可能只是文本挖掘会有需要,但将这些冗长的评论文本存在数据仓库就得不偿失;
  (2)。为什么要存细节数据?细节数据是必需的,数据仓库的分析需求会时刻变化,而有了细节数据就可以做到以不变应万变,但如果我们只存储根据某些需求搭建起来的数据模型,那么显然对于频繁变动的需求会手足无措;
  (3)。为什么要面向主题?面向主题是数据仓库的第一特性,主要是指合理地组织数据以方面实现分析。对于源数据而言,其数据组织形式是多样的,像点击流的数据格式是未经优化的,前台数据库的数据是基于OLTP操作组织优化的,这些可能都不适合分析,而整理成面向主题的组织形式才是真正地利于分析的,比如将点击流日志整理成页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,这样可以明显提升分析的效率。
  数据仓库基于维护细节数据的基础上在对数据进行处理,使其真正地能够应用于分析。主要包括三个方面:
  数据的聚合
  这里的聚合数据指的是基于特定需求的简单聚合(基于多维数据的聚合体现在多维数据模型中),简单聚合可以是网站的总Pageviews、Visits、UniqueVisitors等汇总数据,也可以是Avg。timeonpage、Avg。timeonsite等平均数据,这些数据可以直接地展示于报表上。
  多维数据模型
  多维数据模型提供了多角度多层次的分析应用,比如基于时间维、地域维等构建的销售星形模型、雪花模型,可以实现在各时间维度和地域维度的交叉查询,以及基于时间维和地域维的细分。所以多维数据模型的应用一般都是基于联机分析处理(OnlineAnalyticalProcess,OLAP)的,而面向特定需求群体的数据集市也会基于多维数据模型进行构建。
  业务模型
  这里的业务模型指的是基于某些数据分析和决策支持而建立起来的数据模型,比如我之前介绍过的用户评价模型、关联推荐模型、RFM分析模型等,或者是决策支持的线性规划模型、库存模型等;同时,数据挖掘中前期数据的处理也可以在这里完成。
  数据仓库的数据应用
  之前的一篇文章数据仓库的价值中介绍过数据仓库的四大特性上的价值体现,但数据仓库的价值远不止这样,而且其价值真正的体现是在数据仓库的数据应用上。图中罗列的几种应用并未包含所有,其实一切基于数据相关的扩展性应用都可以基于数据仓库来实现。
  报表展示
  报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,提供了最为简单和直观的数据。
  即席查询
  理论上数据仓库的所有数据(包括细节数据、聚合数据、多维数据和分析数据)都应该开放即席查询,即席查询提供了足够灵活的数据获取方式,用户可以根据自己的需要查询获取数据,并提供导出到Excel等外部文件的功能。
  数据分析
  数据分析大部分可以基于构建的业务模型展开,当然也可以使用聚合的数据进行趋势分析、比较分析、相关分析等,而多维数据模型提供了多维分析的数据基础;同时从细节数据中获取一些样本数据进行特定的分析也是较为常见的一种途径。
  数据挖掘
投诉 评论 转载

包里造句用包里造句大全31我一回到家锁上房门,就赶紧把书包里的厚厚一沓书都倒在书桌上,争分夺秒、分秒必争地看了起来。共2页:12下一页。32之前我把签名改成:“老板发我多少年终奖,我祝老板活多……有爱真好四年级作文生活中,有很多种人是关爱我们的,就像我们的亲人、朋友、老师、同学当我遇到挫折时,是他们给了我爱,给了我鼓励,使我重新抬起头。我真想说一句:有爱真好!没有人是一帆风顺的,我……面试经验总结应届毕业生面试十大常见问题毕业之后用得最多的词是迷茫,说太多了自己也觉得烦躁,然后很自然地想起了彷徨,意思也就那样,掺和着用吧!想想高中毕业仿佛还是昨天的事,今天就大学毕业了,唯一不同的还是那份彷徨和迷……疫情期间花鸟市场还会开吗疫情期间花鸟市场什么时候我们都知道,花鸟市场是比较常见的一种经营市场,里面会卖各种各样的植物,还会买各种各样的鸟类和鱼类宠物等,很多人都会经常去花鸟市场。那么疫情期间花鸟市场还会开吗?下面让我们具体来……走过冬天初中作文若不经得冬日的凛风寒霜,怎得来日春天的明媚阳光?时有春夏秋冬更替,人有顺逆悲欢转换,此乃人间常事,不可违反。冬日,天寒地冻,唯有披蓑老翁孤舟垂钓;冬日,一片沉寂,唯有缀雪……旦旦造句用旦旦造句大全(61)尼特先生信誓旦旦地告诉麦格,他是专门为她而来的。麦格听了真是受宠若惊。(62)卡马拉曾经信誓旦旦地表示终止品交易及开创反腐败新局面,把军官纳入政府编制。(6……离婚心理咨询有助伤心人找回心理健康随着人们对生活质量要求的不断提升,离婚,成了厌旧后寻找新鲜刺激一种手段。离婚给人心理健康的损害是免不了的,特别是被离婚的一方,往往伤心欲绝,对爱情对婚姻都产生不信任感,甚至出现……数据仓库的基本架构数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。其实数据仓库本身并不生产任何数据,同时自身也不需要消费任何的数据,数据来源于……鹅的孵化技术在鹅蛋的孵化过程中,要先进行收集鹅蛋,选择比较健康的鹅蛋,可以为提高鹅蛋的孵化率和健康率奠定良好的基础。鹅蛋的孵化逐渐变为电孵化,电孵化更具优势,如恒温、干净、管理方便。通过电……寄到造句用寄到造句大全(31)寄到巴黎的挂号信的邮资多少?(32)新西兰一些农民近日把他们所养的牛羊粪便寄到议会,抗议当局要征收他们牲口排泄出来的废气税。(33)当您的注册码表内的注册码……我的衣柜作文400字我有一个漂亮的衣柜,里面装着我一年四季的衣服呢。这个衣柜大概两米高,长方形的外形,外面刷着蓝白相间的条纹,很雅致,它的一大部分表面都是白色的,为了好看,这个柜子又增加了一……写一个关于鸟的作文鸟,又称作鸟儿。定义:体表被覆羽毛的卵生脊椎动物,下面就是小编整理的写一个关于鸟的作文,一起来看一下吧。(一)写一个关于鸟的作文在我们社区的水果店门口,挂着一只可爱的鹩哥……
读匆匆有感(转载)卧室里电脑辐射距离有多大养金丝熊观察日记四则小学作文母爱无言生命中最美好的时刻古代女人结婚为何要坐花轿养不活苔藓听苔藓高手种植建议感慨诀窍寻找春天小学作文350字宝宝晚上睡觉打鼾的危害大爸妈处理要及时路在手上一时造句用一时造句大全纳税人造句用纳税人造句大全
妈妈的爱英语日记范文双面孙一文无情剑客ampampamp时尚名媛古代嫡优于庶子优于女,那么嫡女和庶子相比,在家中谁的地位高环境保护作文二年级浓情端午多彩的大课间单身女子想入非非的旅游胜地如何更换眼守卫的皮肤毕业感言简短毕业季朋友圈配语短句如何打造美丽的妆容目标是漂亮而非可爱明月有情应识我(月亮是,我能给你的最好的东西)男人健康的几大诀窍,运动排在最后,容易忽。。。

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找菏泽德阳山西湖州宝鸡上海茂名内江三亚信阳长春北海西安安徽黄石烟台沧州湛江肇庆鹤壁六安韶关成都钦州