沧州三亚菏泽经济预测自然
投稿投诉
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

天天在做大数据你的时间都花在哪了

7月19日 阴阳狱投稿
  大数据做了这许多年,有没有问过自己,大数据中工作量最大和技术难度最高的分别是什么呢?
  我每天都在思考,思考很重要,是一个消化和不断深入的过程。
  正如下面的一句话:
  我们从出生开始如果没思考过人生本身这件事情,一切按照社会的习惯前行,那人生是没有意义的。因为
  你连人生都没有想过。
  那么诞生出来,我们有没有想过大数据本身?大数据到底是在做什么,为什么我做了这么多年的大数据,总是做不完呢?
  大数据本质是随着科学技术发展,更多的数据能够被存储了,能被分析了。所以有了大数据的概念。
  机器学习的本质是随着数据变多了,量变导致质变,数据足够大后其内部的隐含的规律会越来越精确和完整。机器学习则是将数据内存存在的这种隐含关联给挖掘出来的一项技术。
  大数据最消耗工作量的地方是哪里
  目前百分之八十的工作量都在于数据收集清理和校验。这个工作本身并不难,但是真的很繁琐、很费力。
  我们天天感叹:
  数据在哪里?如何收集?
  数据要怎么进行清洗?
  无效数据太多,如何去除?
  而让我们心灰意冷的是当一个新的需求来临时,现有的数据形态似乎不能满足需求,我们又要在现有的数据堆里,重新走数据收集、清理和校验的流程。
  这似乎是一种诅咒,如同可怜的西西弗斯,被判要将大石推上陡峭的高山,每次用尽全力,大石快要到顶时,石头就会从其手中滑脱,又得重新推回去,干着无止境的劳动。
  大数据目前遇到的最大技术难点是什么
  是海量数据的adhoc查询
  当Hadoop刚刚兴起,我们可以通过它来操控越来越廉价的PC服务器价格,于是一种暴力弥漫了整个生态:我们因为突然有了强大的算力,这就好比一个穷人突然有了一笔很大的钱。我们开始让强大的算力驾着最低效的程序去跑数据,这是批处理时代的悲哀
  但是随着查询效率要求越来越高,我们不得不被迫做出改变。还记得我们以前的日志都是简单的Raw文本吗?现在各种存储的格式慢慢开花结果:
  Parquet,数砖公司大力发展的一个存储技术
  ORC,Hive常见的一种存储格式
  CarbonData,华为推出的一套可支持PB级别的数据格式
  总之,我们似乎没有找到一个奇妙的技术解决查询的问题,只能做某种折中:
  为了加快查询速度,数据存储慢慢从早期的raw文本转为具备向量化,带索引,支持特定编码和压缩的列式存储结构,当然这种通过调整存储结构的方式必然以消耗数据进入时的时间和资源为代价。
  也就是我们在存储和查询之间做了妥协。
  如何让苦力干的更少
  前面我们提及了,我们可能80的工作都花在了数据的采集、清洗和校验上了。但是,我们该如何压缩这部分的工作呢?
  答案是:
  流式计算
  流式计算上层建筑
  让所有的计算流动起来,就会让下面的事情变得简单。我们可以在已经流动的数据中的任何一个环节引入一个新的支流。当我要获取数据时,我做的本质其实就是连接两个或者多个节点,并且在其中对数据进行转换。就如同河水,我们可以很方便的开一个支流,将水引入灌溉新的额农田。
  而且我们希望流式计算的实现是结合了流式和批量语义的。为什么呢?
  看看华为在Storm上做的StreamCQL,就知道,很多情况实时流式是很有局限的,因为未来我们在流式上能做的事情会非常多:
  数据处理
  AdHoc查询
  机器学习
  报表
  存储输出
  这就需要一定的灵活性,因为只有在数据集上,才会有譬如AdHoc查询,才能高效的进行存储,才能适应一些机器学习算法。单条数据很多情况下,是没有太大意义的。这块我一直是SparkStreaming的支持者。
  那为什么我们需要一个流式计算上层建筑?我们回顾下问题,数据的ETL过程是个苦力活,消耗掉大量程序员的工作时间,那么为了减少这种时间,我们有两个办法:
  将做些任务分散出去,使得每个人都可做,那么在总量不变的情况下,单个人就会变少了;
  提高每个人的工作效率。
  流式计算构建了整个基础,而其上的框架则使得上面两点成为可能。
投诉 评论

发财树如何打芽眼图解发财树截面后多久发芽天后发芽很多花友在养发财树的时候,常在养殖的过程中发生各种各样的问题,比如发财树的枝干长出新芽,却不知道该如何修剪,其实只要掌握发财树如何打芽眼图解,就能够轻松掌握修剪的技巧啦!关于发……考研一场青春的赌局该不该考研究生,是一个永远也争论不完的话题,有的人说读研好处多,读研出来以后找到的工作更好,工资更高;也有人说考研浪费时间,等读出来了机会也溜走了。那么,大学毕业以后究竟……天天在做大数据你的时间都花在哪了大数据做了这许多年,有没有问过自己,大数据中工作量最大和技术难度最高的分别是什么呢?我每天都在思考,思考很重要,是一个消化和不断深入的过程。正如下面的一句话:……家用抛光砖和抛釉砖区别介绍砖随着现如今人们生活品质的提升,在对家装方面也非常的关注,无论是在家装上还是在家具方面上应用的非常多,因此在装修前要有个很好的认识,这样装修才能有品质的保障,下面就随一起装修网……电脑键盘多功能键的用处和技巧电脑标准键盘上那么多键,您都知道是做什么用的么?您又能了解几个多功能键的用处呢?本文详细的为您介绍这些键盘多功能键的用处。1。Win键也就是飘着MicrosoftW……月份桃树需要注意事项都有哪些11月平均气温慢慢刚开始降低,这时桃树叶柄刚开始造成离层,叶子枯落,将要进到休眠状态,而全国各地应依据分别种植园桃树生长发育的具体情况开展休眠状态的管理方法。那么在11月期内桃……女人太强好景不长早晨起来,老婆发了一通感慨:咱家过得好,主要是我包容你。一个家庭的好坏,取决于女人是否包容男人,女人太强,男人受伤,家庭难和睦,好日子过不长。我品咂了一番,把周围的朋友过……方舟周易五种容易闪婚的命格阴阳学说告诉我们,凡事都是一分为二的,比如闪婚,对于有的人来说,可能会因恋爱时间短暂双方缺少应有的了解而为今后的婚姻生活埋下隐忧;而对于有的人来说,则可能是婚姻感情机遇的最佳把……宁波开学还会延期吗宁波开学时间确定了吗宁波开学还会延期吗?疫情期间,很多学校都暂停开学,开启了网课模式,一切行动听教育部安排。目前,有消息传宁波3月份开学,却再次延期。那么,宁波开学时间确定了吗?其实,家长没必要这……心理专家游涵三类考生如何智取中考还有十多天就要中考了,考生目前正处于紧张备战阶段,不同层次的考生该如何复习,家长又要注意什么。针对优、中、差三类考生,有关教育心理专家在做客北京新闻广播《教育面对面》节目时分别……星座运势苏珊米勒每日星座运势苏珊米勒每日星座运势2016。10。20白羊座你可能会感觉现在无法很冷静地去和伴侣交流和沟通。你心里有很强烈的兴奋感,就快喷薄而出了。因此,你会很开心地去和伴侣分享……为什么选择去坎特伯雷大学留学坎特伯雷大学全日制学生共有20000人,其中本科生15000人,硕士生2000人,有教职工1200人,图书馆藏书130万册。接下来小编为你介绍为什么选择去坎特伯雷大学留学……
教你如何在抖音发表评论时添加表情支付宝如何取消刷脸验证中国项世界非物质文化遗产名录有哪几项世界十大空难甜甜的雪花那一刻我激动不已梦想花开小螃蟹贪玩的小猪劳动使我快乐我的妈妈我有一片晴天

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找