沧州三亚菏泽经济预测自然
投稿投诉
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

基于的大数据挖掘技术分析

6月22日 醉殇别投稿
  【摘要】文章主要介绍了以Spark为基础的大数据挖掘,首先分析了以Spark为基础的大数据生态系统,其次介绍了分布式集群与开发环境构建,再次介绍了Apriori算法实现,最后分析了以Spark为基础的分布协同过滤推荐。
  【关键词】S大数据;挖掘技术
  因为大数据具有多样性、数据量大等特点,所以在大数据分析过程中,对于数据处理效率、速度以及实时性拥有较高要求。数据挖掘主要是以海量信息为目标,通过建模算法,找到隐藏的有用信息,充分发挥大数据价值。Spark体系主属于一种低延迟分布系统,以大范围数据集合为对象进行计算分析等操作。
  一、以Spark为基础的大数据系统
  (一)SparkRuntime
  SparkCore中的相关功能包括内存管理和任务调度等内容,内含故障修复和存储交互相关子元素。通过RDD结构在Spark中传送数据包的过程中,应该率先掌握Spark处理关键数据的操作流程,相关数据信息和对象概念之间较为相似。首先全部的数据集都被分成数个子集,而每个子集还能够被传输至集群相关节点当中进行有效处理分析。其次,能够妥善保存计算得到的中间结果,基于可靠性对问题进行详细思考,能够收获相同的计算结果,并在子集节点相关文件内进行备份储存。最后进行计算解析时,如在处理数据子集过程中产生错误,则需要对子集进行重新整理,促进容错机制的有效落实〔1〕。
  (二)GraphX
  在Spark中,GraphX是重要的子项目,为此应该以Spark为基础进行创建,对大规模图进行准确计算的基础上,融入GraphX,同时添加其他组件,实施系统融合,能够提升整体数据处理能力,其中GraphX的主要功能为帮助采集运输计算过程中所需要的数据图形运行符号,由于类库存在诸多定义,通过隐性SCALE语言对特征进行合理转换的过程中,能够控制调节GraphOPS操作符。而GraphX内,需要对相关算法进行深入优化,从而为后期针对图集实施综合处理提供便利条件。GraphX主要优势便是能够进一步扩大数据规模,强化数据吸收力度。
  (三)SparkStreaming
  Spark即分布式的SparkStreaming数据处理的结构系统,对Spark原有数据处理能力进行优化拓展的基础上,使SparkStreaming能够结合相应的操作阶段对单位进行准确分割,从而构成一种RDD,通过短小的时间间隔对流式数据进行有效处理,因为受到处理延时问题的影响,从某一程度而言,还能够将其看作是实施处理结构。SparkStreaming属于一种容错结构形式,其错误恢复和错误处理水平极高,为此在错误处理方面拥有较为突出的应用优势。此外,SparkStreaming还能和Spark的生态模式实施有效对接,为此在协同处理完数据流之后,还可以对各种复杂现象进行有效处理。
  二、以Spark为基础的分布式集群和开发环境构建
  (一)硬件系统条件
  入想进一步提高系统的运行效果和兼容性,在创建Spark集群的过程中,所应用的物理主机应该选择LINUX系统。通过三台虚拟设备和一个主机设备实施环境测试,以此为基础构建分布式集群,具体包括MASTER节点和WORKER节点两个。而MASTER的核心工作任务便是对分布式Spark应用程序进行单机编制,并进行合理调节,其配置要求较高。MASTER节点区域装置设备应该配置四核处理器以及4G的内存,而WORKER节点可以配置2G的内存。每个节点的相关硬件都是在PCIE的条件下创建固态硬盘,拥有较高的读写效率,能够进一步提升工作质量和运行速度。集群的操作形式不但可以进一步缩减运行成本,同时还可以结合现实需求适当调整节点数量,进行适当的减少或增加。
  (二)构建Spark分布式集群
  设置SCALA语言,同时把各个虚拟机装置中的SLAVES文件中的相关内容修改为集群内WORKER节点主机名,此外还应该针对各个节点中的Spark安装目录,即SparkENV。SH文件进行修改。其中,环境变量JDK对系统进行配置,SCALAHOME这一安装路径会修改系统。MASTER内部相关各种节点主机名称和IP选择SparkMasterIP相关属性值,剩余内容则设置为默认值,此外还需要确保集群内的各个节点文件Sparkenv。sh能够始终和文件SLAVES的内容维持良好的一致性,在结束相关配置工作后,利用JPS命令对集群的启动状态进行详细查看〔2〕。
  (三)配置IDE开发环境
  SCALA语言在进行设计研发过程中,需要以IDEA为核心条件,同时也是重要的基础条件,因此可以将其作为对Spark结构程序进行设计、编程的基础环境。如果想要IDEA实际应用中缩减缓存数量,扩大IO资源应用,占据有效空间,应该利用SSD硬盘对相关有用信息进行合理存储,提高系统整体应用性能。结束IDEA的配置工作后,继续检测Spark程序,提高程序的实效性。
  三、以Spark为基础的Apriori算法实现
  (一)概述
  Apriori算法的中心思想是结合Apriori特性,针对频繁项集实施深入挖掘,具体包括下面两种环节:第一是对最小支持度进行定义,并将全部的频繁项集全部筛选出来,第二是結合置信度生成关联规则〔3〕。
  频繁项主要是在一块物品中频繁出现的集合,至于关联规则主要指两种物品之间存在较为明显的关系。而Apriori算法的核心任务便是查询频繁项集。
  (二)Apriori算法实现
  Apriori算法以Spark平台为基础的分布式集群,其算法主要思路如下:第一是生成频繁项集,把事务集利用RDDstring,i形式广泛分布到不同机器当中,不断积累项目数量,维持高于支持度的项集。第二是针对频繁项集所衍生出来的频繁项集,项集之间自动连接,转化为Ck1,随后对数据库进行扫描,并以Ck1为基础构建频繁项集。string,i
  Apriori算法的实现环境主要是以SparkonYARN集群为主。单机Apriori算法选择集群内的MASTER节点作为测试环境。在算法操作中,还需要按顺序将数据集路径以及文件夹输出路径输入进去。Apriori在解析数据集时,Spark集群内的全部节点全部呈现出一种打开状态,其消耗时间也远远比单机模式要低,或仅有MASTER或WORKER单一节点打开过程所消耗的时间,具体原因是随着集群内工作节点的不断增加,集群整体配置水平的提升,其处理速度也将进一步加快。Spark自身所带有的支持伸缩计算功能,也进一步提升了大数据集整体效率。通过实践发现,使用不同编程语言,会对最终的算法结果产生不同程度的影响,导致运行结果之间产生巨大差异,具体原因是Spark结构形式可以准确计算系统呢内存状况,将相关算法融入到内存计算当中,使Apriori相关计算效率能够得到有效提升,这是Spark结构优势之一。但以Spark为基础促进分布式算法和Apriori算法的协同运行,最终的运行效率小于单机运行效率。主要原因是Spark体系结构对数据集进行处理过程中,会和HFDS实施交互作用,从而针对数据实施封装和FDD分块处理,同时还包含DAG恢复相关任务。由此能够看出Spark集群模式较为适合对各种大型数据集实施处理操作。
  四、以Spark为基础的分布协同过滤推荐
  (一)MLIiB算法库
  由于机器算法整个操作流程较为复杂,为此在实施迭代计算的过程中,需要把计算全部融入到磁盘内,等待启动任务,但如此一来便会出现大量的CPU消耗。针对该种状况,可以在应用Spark的过程中,可以直接于内存中运行处理部分任务工作,将迭代计算内容之间转移到内存当中进行处理,进一步提升迭代计算综合实力和运算效率,同时在需要的条件下,还可以实施网络运行和磁盘操作。Spark应用到迭代计算方面拥有极高优势,同时还可以不断扩展,变为分布式学习平台。从通信角度出发进行深入思考,能够发现Spark十分高效,且十分出色,拥有极高的通讯效率。分布式算法学习过程中,相关资源主要在集群节点当中聚集〔4〕。
  (二)协同过滤算法
  协同算法即人们应用过程中,选择比较合理的想法,并将真实想法传递给用户。第一是系统过滤。通过面向全部用户选择拥有相同兴趣爱好的用户,充分结合用户的真实喜好,合理选择所需要的物品,将其组织起来,构建全新的序列与集合。用户还可以简单定义为邻居,但在操作过程中,需要解决的核心问题是针对存在聘问的用户以及满足具体条件标准的用户实施针对性组织和有效利用。
  第二是协同过滤的中心思想。想要促进协同过滤中心思想的有效落实,应该进通过三种环节实施,采集用户喜好,认真分析用户应用物品过程中的相似性,结合最终的计算结果进行推荐。对用户爱好兴趣的处理分析质量能够影响系统推荐效果,由于不同用户各自的喜好方式之间也存在巨大的差异,同时还会被不同场景所影响。在一般的场景环境下,需要挑选出一种用户系统,随后充分结合用户需求,划分成不同的小组,具体包括两种分组方式:第一是结合用户的行为差异,将用户的行为特点作为基础参考依据实施分组操作。第二是针对不同行为,针对用户爱好兴趣实施分组,并实施加权处理,对数据行为进行有效采集之后,针对数据实施预处理操作。以此为基础,充分联系用户的爱好兴趣,为用户推荐其所需要的物品。选择恰当的推荐方式,将协同过滤分成以物品为基础的两种类型,分别是基础用户和协同用户。实施推荐操作中,选择恰当的邻居,当下比较常用的形式是对邻居相似程度进行规定和明确邻居数量。
  五、结语
  综上所述,在分布式集群中结合MLIib和Spark构建协同过滤推荐的运行方案,同时利用大数据集进行验证,能够将其在推荐系统中广泛推广开来。同时以Spark为基础的Apriori分布式算法,能够进一步弥补MLIib关联分析算法中的故障缺陷,并辅助大数据进行关联分析。
  【参考文献】
  〔1〕梁凡,赵丽。基于中智模糊关联规则生成的大数据挖掘分析算法〔J〕。计算机应用與软件,2019(10):285292298。
  〔2〕陈春谋。大数据环境下的档案管理系统信息检索及挖掘技术分析〔J〕。电子测试,2019(14):9294。
  〔3〕李明东,陈小明。基于轨迹大数据技术的行为模式挖掘技术分析〔J〕。宜春学院学报,2019,41(06):3436101。
  〔4〕梁彦。基于分布式平台Spark和YARN的数据挖掘算法的并行化研究〔D〕。中山大学,2014。
投诉 评论

店长个人工作总结第一篇:2014年实习店长个人工作总结自从到公司来的那天起,感觉每天都学习到很多以前不知道的东西,这段工作期间虽然还存在很多问题,但还是总结了很多经验,希望对自己工……基于的大数据挖掘技术分析【摘要】文章主要介绍了以Spark为基础的大数据挖掘,首先分析了以Spark为基础的大数据生态系统,其次介绍了分布式集群与开发环境构建,再次介绍了Apriori算法实现,最后分……公司保卫科上半年述职报告述职报告精选多篇第一篇:公司保卫科上半年述职报告述职报告公司保卫科长2014年上半年述职报告半年来在集团领导和处长的正确领导下,以一种有人负责我服从,无人负责我负责的工作态度,扎扎……新形势下企业思想政治工作方法管窥在市场经济条件下,在建立现代企业制度过程中,企业思想政治工作如何更好的服从和服务于经济工作,如何理顺关系、化解矛盾、以消除对改革的羁绊。这要求思想政治工作在方式方法上不断的探索……学校消防安全演练简报内江九中学校消防安全演练简报为切实做好学校消防安全工作,普及消防安全常识,提升师生消防安全意识和自救互助能力,提高消防安全素质,结合消防安全进校园和11。9消防宣传活动,……德植人生礼润芳华党的十九大报告提出要全面贯彻党的教育方针,落实立德树人根本任务,发展素质教育,推进教育公平,培养德智体美全面发展的社会主义建设者和接班人。这为教育课程与教学改革发展指明了努力方……浅谈信息技术在中职发动机教学中的应用摘要:随着我国经济的不断发展,综合国力的不断增强,我国教育水平也随着时代的发展在不断提高。信息时代教师的教学模式需与时俱进,在中职发动机教学过程中引入信息技术已刻不容缓。本文就……家虎一川师大小小一个后门口不知哪年在革委会眼皮子底下竟然和平演变成为了一个超级自由市场,原本五米宽五十米长度与狮子山菜农互通的一条便道被鸡争鹅斗买卖双方拥堵得水泄不通。少了磨牙凿齿的……刀尖上舔血移动端团队的十一条约定电商的项目往往具有狼性的特性,而在刀尖上舔血的项目经理们需要错综复杂的实践中快速沉淀一些约定、制度,给团队带来一些积极的能量。在考拉移动端项目中,我们吃一堑长一智,通过不……什么样的员工才能晋升为领导成为领导的几职场中,努力的员工不在少数,但是能晋升领导的员工寥寥无几,谁都想着能成为领导,毕竟不想当将军的士兵不是好士兵,更何况晋升管理层是很多人职场生涯中的一个重要阶段。但是……这几个笑话够你笑一年的了1。hr奶奶发微。信给孙子:你赶快躲起来,老师因为你逃学,现在来家里找你了!孙子回道:奶奶您快躲起来吧,我今天向老师请假,说您去世了。这时奶奶已经给老师开了门,老师……几个存钱小妙招让你永远不缺钱转眼一年又快过去了,大家今年存了都少钱呢?好的,我懂今天就给大家分享一个非常实用的办法:定期存单法每个月存一笔定期,等定期开始到期回款了,继续转存,循环……
真正美好的爱情是互相体谅彼此付出文书歌谣01:hr和猫先生刚恋爱的时候,还是异地,两地车程一个小时左右。每到周末,他都会迫不及待驱车赶往我在的地方,带着我到处逛,请我吃各种好吃的。每次一趟下……拍婚纱照穿的鞋子除了婚纱的选择,拍婚纱照穿什么鞋也极为关键。选择时,一定要根据当天穿的婚纱礼服进行搭配,做最好的选择。除了婚纱的选择,拍婚纱照穿什么鞋子也极为关键。选择时,一定要根据当天……学会以退为进化解婆媳大战初次拜见婆婆,率真的邬君梅一进门就亲热地喊妈妈。谁知婆婆却阴冷着一张脸说:别叫我妈妈,你叫我罗黛丝就可以了。满心欢喜的邬君梅碰了个大钉子,脸上不觉一阵发烫。邬君梅和外国老……天龙八部里马夫人康敏为什么要杀段正淳童年的康敏是受过伤害的。因为受过伤害她被激起了复仇的欲望,如果在日后她的创伤能够被抚平,那么她这种复仇欲望会渐渐平息的。但是可怕的命运却给了这个女人最不公平的待遇,在她少女怀春……男友是谁孩子王恋情官宣收到不少祝福说起说唱歌手VaVa、孩子王,大家都熟悉吗?7月31日,VaVa孩子王恋情官宣,受到不少祝福。其中,VaVa是参加《中国有嘻哈》节目而走红的;而孩子王是参加《明日之子》节目而受……产后尿失禁会自愈吗产后尿失禁多久可自愈产后尿失禁会自愈吗产后尿失禁是妈妈产后常见的问题,通常在产后一周内发生,虽然以后症状多会渐渐缓解,但千万不要指望什么都不做就能自愈,一定要坚持做骨盆底的肌肉训练,这个是最……岁幼儿绘本推荐3岁的孩子最喜欢听故事,这时候可以读一些有重复句子和重复情节的短篇绘本,配合一个相对缓慢的语速,抑扬顿挫的语调进行角色扮演可以让孩子更专注。下面集合了一些热门推荐,希望你能和孩……你不知道的小技巧性爱时如何正确爱抚女人乳房从古至今,性都是人类生活过程中至关重要的一个活动。如何提升性活动的质量是每个人都应掌握的技巧。乳房是非常重要的性器官之一。男性只有学会爱抚乳房,才能让女性尝到至高无上的愉……结婚新娘手捧花多少朵不限朵数捧花推荐玫瑰手捧花多少朵在古希腊神话中,玫瑰集爱与美于一身,既是美神的化身,又溶进了爱神的血液。一直以来,玫瑰都是表达爱意的最佳体现。而在婚礼上,玫瑰带来的不仅是对爱情的表达,更……七夕情人节送老婆什么礼物好呢七夕节并不只是小情侣们的节日,夫妻之间也要是过节的,尤其是夫妻之间相互赠送一些礼物,能够增进夫妻之间的感情。那么,七夕的时候男人送些什么礼物给老婆好呢?一起来看看吧。操作……哺乳期是否是安全期许多刚生完孩子的夫妇,性欲十分强,总在寻找机会做爱。安全期没到找哺乳期,哺乳期过了找安全期。对于女性的安全期,我们前面已经用了大量的篇幅讲解这个问题,出门左转还可以看到。那么这……丽江哪里拍婚纱照便宜又好丽江是一个热门的网红打卡城市了,许多景点都成为了节假日必去的地方,因此一部分新人想要在这里拍摄婚纱照,因此就会问丽江哪里拍婚纱照便宜又好一、丽江哪里拍婚纱照便宜又好……

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找