梯度增强机器在机器学习中的应用
9月13日 牵手手投稿 【摘要】梯度增强机器并不是独立的某种技术,而是一系列强大的机器学习技术的集合,它在广泛的实际应用中取得了相当大的成功。它们是高度可定制的,可以满足特殊需求的应用,就像是学会了尊重和适应不同的损失函数。本文介绍了梯度增强方法的入门教程,重点介绍了建模的机器学习方面。
【关键词】梯度增强机器(GBM);机器;应用
一、研究背景
梯度增强器(GBM)实际上是从Boosting算法发展演化而来,Boosting算法其实思想相当的简单,大概是,对一份数据,建立M个模型(比如分类),一般这种模型比较简单,称为弱分类器(weaklearner)每次分类都将上一次分错的数据权重提高一点再进行分类,这样最终得到的分类器在测试数据与训练数据上都可以得到比较好的成绩。
训练集中一共有n个点,我们可以为里面的每一个点赋上一个权重Wi(0n),表示这个点的重要程度,通过依次训练模型的过程,我们对点的权重进行修正,如果分类正确了,权重降低,如果分类错了,则权重提高,初始的时候,权重都是一样的。上图中绿色的线就是表示依次训练模型,可以想象得到,程序越往后执行,训练出的模型就越会在意那些容易分錯(权重高)的点。当全部的程序执行完后,会得到M个模型,分别对应上图的y1(x)yM(x),通过加权的方式组合成一个最终的模型YM(x)。
我觉得Boosting更像是一个人学习的过程,开始学一样东西的时候,会去做一些习题,但是常常连一些简单的题目都会弄错,但是越到后面,简单的题目已经难不倒他了,就会去做更复杂的题目,等到他做了很多的题目后,不管是难题还是简单的题都可以解决掉了。
GradientBoosting方法:
其实Boosting更像是一种思想,GradientBoosting是一种Boosting的方法,它主要的思想是,每一次建立模型是在之前建立模型损失函数的梯度下降方向。这句话有一点拗口,损失函数(lossfunction)描述的是模型的不靠谱程度,损失函数越大,则说明模型越容易出错(其实这里有一个方差、偏差均衡的问题,但是这里就假设损失函数越大,模型越容易出错)。如果我们的模型能够让损失函数持续的下降,则说明我们的模型在不停的改进,而最好的方式就是让损失函数在其梯度(Gradient)的方向上下降。
如果我们考虑与早期发展的联系,就会得出众所周知的级联相关神经网络可以被认为是算法中定义的特殊类型的梯度增强模型。由于每个神经元的输入侧权重在添加到网络之后变得固定,所以整个模型可以被认为是GBM,其中基础学习者模型只是一个神经元,损失函数是标准平方误差。这个算法也最大化了整个网络的误差与新创建的神经元之间的相关性,而且比较明显。
二、梯度增强器在决策树中的应用
一种计算可行的捕获相互作用的方式。GBM模型中的变量基于使用决策树模型。虽然几个解释变量之间的相互作用会消除加性模型的可解释性,但这不能被认为是一个显着的缺点,因为还有几种用于基于树的GBM解释的工具。
决策树背后的想法是分配空间,通过树形输入变量到均匀的矩形区域规则制度。每个树分裂对应于ifthen规则一些输入变量。这种结构的决策树自然而然编码和模拟预测变量之间的相互作用,ABLES。这些树通常用数字参数化分裂,或等效地相互作用深度。它也是可能的,可以将其中一个变量拆分成特定的几倍。
只有一个分裂的决策树(即具有两个终端节点的树)的特殊情况称为树桩。因此,如果想要使用树型基础学习者来拟合一个加法模型,那么可以使用树状树来做到这一点。在许多实际应用中,小树和树桩提供了相当准确的结果(Wenxin,2002)。此外,有很多证据表明,即使是具有丰富的树结构(相互作用深度20)的复杂模型几乎不会对紧凑的树(相互作用)提供任何好处。
决策树的一个重要特征是,通过设计,单个决策树总是以常量值推断函数。这意味着,即使像一个非零角度的直线的简单函数也不能用单个决策树正确地近似。
三、梯度增强器的模型泛化能力
从数据建立机器学习模型的最重要的关注是产生的模型的泛化能力。如果学习算法不适用,该模型可以轻松地过载数据。这意味着它会预测训练数据比输入和响应变量之间的功能依赖性。这些关切显然是相同的GBM。很容易想像一个情况,即新的基础学习者被添加到合奏,直到数据被完全过度使用。使用不同类型的基础学习者可能适应GBM具有非常不同的损失功能。
为GBM引入的最简单的正则化程序是二次抽样。子采样程序已经显示提高模型的泛化属性,同时减少所需的计算量。这种方法背后的想法是引入一些随机变量进入拟合程序。仅在每次学习迭代时训练数据的随机部分用于适应充足的基础学习者。训练数据通常是采样的替换,但是,替换抽样,就像它做的一样引导,是另一种可能的设计选择。子采样过程需要一个称为的参数袋子分数。袋子分数是不大于正值一个,其规定了在每个iteraglue。例如,袋0。1对应于采样和使用每次迭代只有10的数据。另一个有用的属性的抽样是自然地适应了GBM学习程序到大数据集时没有理由使用全部一次潜在的巨大数据量。当数据量,由数据量测量N点不是实际值得关注的,设置默认值bag0。5给出了许多实际任务的合理结果。如果一个最佳的袋子部分是感兴趣的,可以简单的估计它通过比较不同参数下的预测性能值。
在GBM的背景下,收缩用于减少或缩小每个额外安装的基础学习者的影响。它减少增量步长的大小,从而惩罚每次连续迭代的重要性。这种技术是通过采取改进模型更好许多小步骤比采取较少的大步骤。如果其中之一增强迭代证明是错误的,它的负面影响可以在随后的步骤中轻松校正。通过收缩的最简单的正规化形式是直接比例收缩。在这种情况下,收缩的影响直接定义为参数(0,1),正则化应用于最终梯度提升算法的一步。
四、梯度增强器的缺点
梯度增压机是一种强大的方法,可以有效捕获复杂的非线性函数依赖性。这个模型系列在各种各样的显示器上取得了相当大的实际应用。此外,GBM非常灵活,可以轻松地根据不同的实际需要进行定制。然而,所有这些结果和好处并不是免费的。虽然GBM可以被认为是一种方法论框架比一个特定的方法,他们还有几个缺点:
GBM出现的最明显的问题是存储预测模型的成本取决于用于学习的升压迭代次数。正如我们在正则化部分中讨论的,为了减少过拟合的影响,我们要寻求最优迭代次数对于合适的收缩参数可以相当大。在一些精确密集的应用程序(如入侵检测系统)中,所需的迭代次数可以很容易地达到范围数万。处理这种大规模模型需要存储每个适合的基础学习者的所有参数。
GBM的另一个问题自然来自于高内存消耗是评估速度。使用拟合GBM模型获得预测,一个必须评估所有合奏中的基础学习者。尽管每个人都很简单的基础学习者,当合奏相当大时,以快速的速度获得预测可能变得耗时。因此,在密集的在线任务中使用GBM最多可能要求从业者接受这种权衡模型复杂性和所需数量的函数评估每个时间间隔。然而,当GBM合奏是已经学会了,可以充分利用并行化获得预测。尽管功能评估的并行化,学习过程本质上是顺序的,并且通过设计并行化存在问题。
目前,GBM的另一个缺点是没有快速有效的模式和执行顺利持续的基础学习者捕获相互作用。我们从应用实例可以看出,可以在特定的预测模型中发挥至关重要的作用设计。然而,只有决策树才能有效地捕获非在合理计算中,变量之间的微不足道的相互作用时间。值得注意的是,基础学习者可能会忽略这个问题,但是这种算法目前在实践中并没有被使用GBM模型设计。
武夷山正山小种与金骏眉红茶品质有什么区别武夷山正山小种红茶叶,本来是芽叶形状的东西,采制之后放入卷模当中压制威型后取出,放在用粗竹篾编成的状如竹席的笪上用炭火烘烤继2007年普洱茶热退却后,金骏眉、正山小种这两款红茶……
村第一书记工作报告工作报告神符村第一书记李弘按照市委、县委的安排,2016年11月30日我担任汾西县团柏乡仁马庄村第一书记,2017年4月26日到永安镇神符村担任第一书记,工作七个月……
援川办主任个人工作总结?xml:namespaceprefixonsurn:schemasmicrosoftcom:office:office援川办主任个人工作总结2008年8月5日,我……
村党总支创先争优上半年工作小结村党总支创先争优上半年工作小结?xml:namespaceprefixonsurn:schemasmicrosoftcom:office:office按照和市委、县委、镇……
梯度增强机器在机器学习中的应用【摘要】梯度增强机器并不是独立的某种技术,而是一系列强大的机器学习技术的集合,它在广泛的实际应用中取得了相当大的成功。它们是高度可定制的,可以满足特殊需求的应用,就像是学会了尊……
因色彩而生创业邦岁以下青年企业家峰会暨颁奖典礼成1月16日,由创业邦主办、惠普打印战略合作并支持的30岁以下青年企业家峰会暨颁奖盛典在北京维景国际大酒店成功举办。本届峰会以因色彩而生为主题,盘点新生代创新创业力量。创业……
假如给我三天光明读书笔记假如给我三天光明是一本励志书籍,鼓舞了全世界的读者,也让我们学会了珍惜生活和勇敢,提升自己的修养,做一个励志的人!假如给我三天光明好词摘抄:百鸟啁啾、蒙昧、蜷伏、清……
创业年用户过亿沪江从电商到平台如今要全盘移动化9月28日,沪江在上海召开了15年来首次的产品发布会沪江ET2016学以智用,一口气发布了四款产品。之所以要打双引号,是因为这些产品早就默默上线。其中的沪江开心词场,已经是拥有……
个方法显著提高你达成目标的概率找到方法,离目标更近。神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。编者按:你是否也有这样的情况:心血来潮设定……
民生银行面试技巧及面试真题一、民生银行面试常见问题1、你应聘什么岗位?2、你对银行的营销了解么?3、你说说你到公司后会做些什么?4、你认为你能客户经理也就是你说的业务员,能做多长……
时光流转水波清泠出门,一阵风吹,凉意满怀,我喜欢这种感觉,这是自然的语言,黄叶落了一地,软软的,这是大地的声音,提醒着人们天气渐冷,注意保暖防寒,儿时的故事在脑畔浮现,天冷了,孟姜女送寒衣,哭……
投资如足球攻守兼备是王道上周六世界杯14决赛中,德国以4:0完胜夺冠大热门阿根廷令众球迷跌破眼镜。球迷们伤心地发现,阿根廷队的华丽和激情始终未能攻破德国人固若金汤的防线;与之相对,阿根廷队的后防线却显……
拉完摆的三个好朋友,分别多年后聚在一起,大醉之后,三人决定进行拉屎比赛,十分钟后,第一个指着地面说:我拉出了型的大条。第二个大笑:那算什么,看偶的,型。正在这个时候第三个人……
中国其实不止个民族其中还包含犹太族在中国人民的眼里,中国有着56个民族,是一个民族多远话的大国。但是在实际当中,中国不止56个民族,在中国的古代其实犹太族群就已经慢慢的进入到了中国地区。随着时间的推移,时代的演……
动物繁殖现象引出的深思生物老师进行专题讲座:《动物繁殖》,其中列举了几个典型事例:1、螳螂在交尾时,雌螳蜘会转过头来吃掉雄螳螂的头及前肢。没有了头的雄螳螂还可以继续进行交尾,因为其躯体中残存的……
南美洲的动物有哪些盘点南美洲的十大珍稀动物附图片导语:南美洲位于美洲南部,南美洲动植物种类繁多,南美洲的野生栖息地拥有地球生物多样性的很大一部分,其中南美洲的十大珍稀动物分别是小斑虎猫,潘帕斯猫,虎猫,美洲长尾虎猫,美洲虎,……
皮肤为什么会变黑呢现实生活中为啥有那么多黑皮肤的姑娘突然发现自己从白天鹅变成丑小鸭,这是什么原因引起的?皮肤为什么会变黑呢?操作方法01:hr我们的防晒工作做不到位我们出门在外……
苦瓜炒肉片的家常做法大热天到来了,aclasstaghrefwiki10636IadZRoL5。html苦瓜a具有清热解毒、养颜嫩肤、降血糖等功效,夏天多吃对身体有益,但是苦瓜怎么做呢?这里给大家……
冰红茶的简单做法简易冲泡法:1。在茶壶中注入110毫升滚烫的热开水。2。放入红茶茶包,盖上壶盖,闷置5分钟。3。将茶包取出。4。加入60公克的冰块,就可以享用一杯色泽晶……
年机关党支部书记述职报告2019年,我认真履行党建责任人职责,团结带领机关支部党员开拓创新、积极进取,持续夯实党建工作基础,为各项工作提供坚强组织和作风保障。一、履行职责情况一是紧抓党建、……
打造创新创业的强劲引擎孵化基地调研报告打造创新创业的强劲引擎区全力推进创新创业孵化基地建设2015年9月以来,市区认真实施创新驱动战略,投资1。15亿元,全力推进市首家创新创业孵化基地建设。现已全面完成……
档案室工作人员工作总结精选多篇第一篇:公司档案室工作人员工作总结公司档案室工作人员工作总结自xx年9月2日档案室交接三个月以来,在公司领导的支持和帮助下,我在加强理论学习,提高自身素质和工作业务……
探究烹饪专业实践教学模式的构建及完善摘要:烹饪教学是一门具有高度的技术性、重视实践能力培养的科目。随着社会的不断发展,对于应用型人才的需求程度越来越高,如何培养高素质的应用型人才,已经成为了学校和职业院校普遍重视……
霜降快乐的祝福语第1篇:霜降快乐的祝福语霜降快乐的祝福语集合39条霜降日,关怀至,送付手套暖手指,送条围巾挡寒风,送句问候暖如春,句句都可见真心,放在火里烧成金。不信试试扔手机。祝……