关系经济人类预测化学自然
中准网
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产

写给产品经理的几种机器学习算法原理

4月28日 心碎巷投稿
  本文用尽量直白的语言、较少的数学知识给各位产品经理讲清楚:机器学习的过程、什么问题适合机器学习?以及各个算法的原理是什么?
  一、机器学习的过程
  机器学习的过程:从本质上来说,就是通过一堆的训练数据找到一个与理想函数(f)相接近的函数。
  在理想情况下,对于任何适合使用机器学习的问题,在理论上都是会存在一个最优的函数让每个参数都有一个最合适的权重值,但在现实应用中不一定能这么准确得找到这个函数。所以,我们要去找与这个理想函数相接近的函数。只要是能够满足我们的使用的函数,我们就认为是一个好的函数。
  这个训练数据的过程通常也被解释为:
  在一堆的假设函数(Hypothesisset)中,它是包含了各种各样的假设,其中包括好的和坏的假设。
  我们需要做的就是:从这一堆假设函数中挑选出它认为最好的假设函数(g)这个假设函数是与理想函数(f)最接近的。
  机器学习这个过程就像是:在数学上,我们知道了有一个方程和一些点的坐标,用这些点来求这个方程的未知项从而得出完整的方程。
  但在机器学习上,我们往往很难解出来这个完整的方程是什么。所以,我们只能通过各种手段求最接近理想情况下的未知项取值,使得这个结果最接近原本的方程。
  二、什么问题适合用机器学习解决
  机器学习不是万能的,并不能解决所有的问题。
  通过以上机器学习的过程可以看出来,实质上,机器学习是:通过已知经验找到规律来进行预测。
  银行想知道应该发放多少贷款给某个客户时,可以根据过往成功放贷的数据找出每个贷款区间的人群特点、自身的房车资产状况等,再看看这个客户的特点符合哪个区间,以此去确定应该发放多少贷款,这就是适合用机器学习去解决的问题。
  对于适合用机器学习解决的问题,台大的林轩田教授为我们总结了三个要素:
  有规律可以学习
  编程很难做到
  有能够学习到规律的数据
  只要满足这三个条件的问题,我们都可以挑选合适的算法去解决。
  基于以上的条件,通常我们可以用机器学习解决三类问题:
  预测(回归):根据已知数据和模型,预测不同客户应该发放的贷款额度是多少
  判别(分类):与预测有点类似,也是根据模型判别这个客户属于过往哪一类客户的概率有多大
  寻找关键因素:客户的属性非常多,通过模型我们可以找出对放贷影响最大的因素是什么
  三、几种常见的模型和算法
  1。感知机PerceptronLearningAlgorithm,PLA
  感知机学习算法是一种二分类的线性分类算法,一般用来解决二分类(只存在两个结果)的问题。
  例如:判断一个同学的考试成绩合格还是不合格?、银行会不会给某个客户发放贷款?等。
  这种只存正、负两个结果的问题,就称为二分类的问题。
  感知机学习算法的原理非常好理解,有点类似考试的概念:
  把很多个影响因素看成每道题的得分。因为不同题目的权重不同,所以我们每道题的得分由权重(重要程度)和这个因素的得分相乘,最后把所有题目的得分加起来看看有没有超过60分(阈值)。如果超过了就是及格了(正结果),即对应的输出值为1,如果没有超过就是不及格(负结果),对应的输出值为1。
  还是以刚才银行贷款的例子来解释:
  通常银行判断在给不给某个客户放贷款?时,都是已经掌握了客户的各种信息(如:年薪、负债情况、社保缴费、公积金等等)。
  因为数据的维度不同,描述的单位也不同,我们需要把这些数据按照各自维度的标准统一成可以量化的评分可以按照年薪在5W以下得1分、510W得2分这样的方式进行量化。
  每个维度的重要程度都不同,所以我们在相加的时候需要考虑为每个值加上一个权重,再看看最后得出来的结果有没有高过放款的阈值评分如果高过这个分数就放款,低过这个分数就不放款。
  首先看看关于感知机的数学定义:
  我们可以转换到几何的方式去看这个问题:
  在二维空间内,训练的数据就变成了平面上的一个点,这些数据里面有正样本以及负样本(成功放贷款的以及没有放贷款的)。
  感知机算法的学习过程就是:找到一个平面(在二维中表现为一条线)能够把所有的正样本和负样本区分开来。那么,当在应用的时候面对新来的客户,通过模型算出是正结果,我们就可以给这个客户发放贷款;算出来是负结果,我们就不发放贷款。
  怎么去找到这条线(超平面)呢?
  感知机使用的学习策略是梯度下降法。
  这种方法的思想是:先在平面内随便找一条线,然后开始把样本点放到平面内。当一个点被误分类即位于分类超平面错误的一侧时,调整模型的参数(w和b),使分类超平面向该误分类点的一侧移动,以减少该误分类点与超平面的距离,直到超平面越过该误分类点使其被正确分类为止。
  感知机利用梯度下降法的训练过程
  这种方式对于模型的训练非常快速,计算量相对较小。
  但同时,这样的计算方式追求最大程度正确划分、最小化训练数据的错误,效果类似下图的直线会导致比较容易造成过拟合的情况,即:模型对于新数据的包容性差,会过度地把新输入数据分成错误的类别。
  2。线性回归Linearregression,LR
  讲逻辑回归之前,我们先讲讲什么是线性回归?。
  在统计学中,线性回归是指:利用称为线性回归方程的最小平方函数,对一个或多个自变量和因变量之间关系进行建模的一种回归分析。
  举个直观的例子:深圳春运时的客流量可能是与过年的时间相关的越接近过年这天人流量越大。
  如下图所示:
  如果客运站想预测:明天和后天的客流量。
  该这么办?
  我们可以用一条线去尽量准的拟合这些数据,如果有新的数据输入进来,我们就可以找到对应的预测点:
  上述例子就是一个最简单的一元线性回归分析:yaxb。
  该式子中只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示。在收集的数据中,每一个分量,就可以看做一个特征数据。
  例如:上述例子的日期是一个特征,我们还可以找到地区、节假日、其他车站的客流量等等不同的因素,每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数。
  当特征变多时,上述线性回归的向量表示形式为:
  这个矩阵方程由于计算量太大很难直接去求解,那么我们要怎么样去找到这根线的位置呢?
  在这里我们可以退一步,把参数求解的问题,转化为求最小误差的问题,让实际值与预测值之间的误差变得最小,那么我们的预测值就十分接近实际值了。
  这就是损失函数的来源。在机器学习的算法中,实际上存在大量由于计算量巨大从而无法求解的问题。我们都是把这类问题转化成求最小误差,即:实际值与预测值之间的误差(损失)问题,想办法求出让误差最小的情况,就可以得到问题的最优解。
  线性回归方程的损失函数通常是通过最小二乘法,或者梯度下降法进行求解,在这里我们不展开叙述。
  线性回归是目前运用最广泛的模型之一,在金融、经济学、医学等领域常常用来解决预测类问题。
  通过观测数据集拟合出一个预测模型,我们就可以知道:一组特定数据是否在一段时间内会增长或下降?
  3。逻辑回归Logisticregression,LR
  逻辑回归实际上也是一个线性回归模型,但是线性回归常常用来做预测,逻辑回归却常常用来解决二分类问题。
  为什么会有这么大的差异呢?
  如果对于上面的感知机算法来说,目标是为了找到一个能够将正负样本完全分开的超平面的话,从另外一个层面看感知机算法就相当于是一个跃阶函数。
  我们只需要找到阈值,并且拿输入的数据去对比,得出数据是大于还是小于这个阈值,然后就能给出的就是0或1(正负样本)的反馈。
  对应到数学模型上:我们只需要把算出来的结果映射到这个跃阶函数上看看大于0还是小于0,就能说他是一个正样本还是负样本。
  感知器的模型虽然简单直观,但问题在于这个模型不够光滑。
  如果一个新的样本点我们计算出来结果等于0。01只是比0大了一点点,就被分类为正样本,这样在实际应用的时候就可能会不够准确。同时,这个函数在0处有一个跃阶导致这一点不连续,在数学上也不好处理。
  那么有没有什么方法可以让这个函数更光滑一点呢?
  在数学上刚好存在一个sigmoid函数有这样的特性。
  这个函数的输入范围是,而值域则光滑地分布在0到1之间。
  对于这个模型的解释和感知机也稍微有些区别。
  感知机:是根据输入的条件,判断是一个正样本还是负样本。
  而逻辑回归因为值域分布在0到1之间的特性,所以输出的是判断是:一个正样本或负样本的概率是多少?
  我们的学习策略即是:求所有训练样本的条件概率之积的最大值也可以理解为求概率之积尽可能大,这样模型预测的效果就会越准确。
  逻辑回归的本质上是一个线性回归模型,只是在特征到结果的映射中加入了一层函数映射即先把特征线性求和,然后使用函数g(z)将最为假设函数来预测。
  我们看到的参数z,实际上也是一个线性回归的方程,只不过在这里符号化表示。实际上求解的方式与线性回归是相同的都是要通过损失函数的方式逼近最优解。
  逻辑回归的目的是:将样本分成0或1两类。
  但是,我们也关心样本分类的准确性。
  例如:一个肿瘤被预测出来是恶性的,我们也会关心它是恶性的可能性有多大?
  对逻辑回归的理解也可以是:我们通过概率将样本分成了0和1两类。
  因为逻辑回归不像感知机通过一个固定的阀值去判断样本数据的正负性,所以在二维平面上也不再是通过一条直线去判断数据。而是变得更加有包容性,可以把一些不能线性区分的数据集区分开来。
  其根本原因就是:sigmoid函数把因变量和自变量变成了曲线的关系,使得在函数在二维平面上的表现更为柔和。这里面损失函数发挥了很大的作用,这里不再展开说明。
  逻辑回归与感知机相比,有三方面的优势:
  直接对分类可能性建模,不需要事先假设数据的分布情况。感知机算法中如果不先假设一下数据的分布再去确定线的位置的话,很可能会算错,但是逻辑回归算法就避免了这个问题。
  不仅可以预测出类别,还可以给出具体的概率预测值。这对预测结果有更好的解释性。
  有很好的数学性质,方便计算,工程量较小。
  逻辑回归算法因其是现在最广泛使用的算法之一,常常用于寻找某一疾病的危险因素、个人信用评估、贷款金融意图预测等等领域。
  同时,也可以用来对数据做自动判别分析,比如:一条评论是正面还是负面?一个用户的购买路径是男性还是女性?预测用户会不会购买某种商品?等等。
  逻辑回归应用广泛还是因为它的模型与许多现实问题相吻合,能够帮助我们快速解决很多实际的问题。
  4。K近邻分类算法KNearestNeighbor,KNN
  上面我们说到,感知机以及逻辑回归实际上都是一种二分类算法,非黑即白。
  那,如果遇到多分类问题该如何解决呢?
  有一种非常简单的算法可以帮助我们快速解决这个问题K近邻分类算法。
  K近邻分类算法是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。
  用官方的解释来说:所谓K近邻算法,即存在一个样本数据(训练样本)集,并且样本中每个数据都存在标签(类别)也就是说样本集中每一个数据都被分到一个类别中。输入新的数据后,将新数据的每个特征与样本集中的数据对应的特征进行比较,然后算法提取样本集中特征最相似的数据的分类标签,即可以为新输入的数据进行分类。
  在训练数据集中找到与该实例最邻近的K个实例,如果这K个实例的大多数都属于同一个分类,就把该输入实例分类到这个类中。
  一般情况下,我们只选择样本集中前K个最相似的数据,这就是K近邻算法中k的出处(通常K是不大于20的整数)。
  比如:比较3个最近的数据,那么K3。
  最后,选择K个最相似的数据中出现次数最多的分类,作为新数据的分类。
  这种思想实际上也非常好理解,有点像人以类聚,物以群分的说法如果你身边的邻居都来自同一个公司,那么你极有可能也属于某个公司;如果你身边的朋友绝大多数都属于某个学校毕业,那么你极有可能也曾经在这个学校读过书。
  这种方式也很类似投票机制,新来的数据与旧数据相比对,多数都属于某个类别时,采用少数服从多数的原则,给新数据归类。
  同样,我们转化到几何的方式去看这个算法,KNN可以看成:有那么一堆你已经知道分类的数据,然后当一个新数据进入的时候,就开始跟已知数据里的每个点求距离,然后挑离这个训练数据最近的K个点看看这几个点属于什么类型,就把这个新的点归到这个同属大多数的类别里。
  K近邻分类算法的优缺点都非常明显。
  优点主要有两个方面:
  精度很高,对异常数据也不敏感(所属类别是由大多数点决定了,一两个异常点不会有太大的影响)。
  与上面的PLA、LR算法相比,不需要训练模型,易于实现,来一个新数据就可以马上进行比对。
  缺点则是:计算复杂度比较高。
  因为要算新数据与每一个临近点的距离,当维度超过二维时这就是一个空间复杂度很大的矩阵。
  基于KNN算法的特点,目前主要应用在文本分类与商品推荐等场景。
  在文本分类中像信息检索、手写字识别、机器翻译这样的场景都可以使用KNN算法以保证在有限的硬件资源下,提供给用户一个高效的检索系统。
  5。朴素贝叶斯分类器NaiveBayesClassifier,NBC
  贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理和特征条件独立假设为基础,故统称为贝叶斯分类。
  而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。
  朴素贝叶斯的简单之处在于:对于给出的待分类项,求解在此待分类项出现的条件下各个类别出现的概率。哪个概率最大,就认为此待分类项属于哪个类别。
  这就有点像我们走在街上,迎面走过来一个黑色皮肤的人,那我们就猜他是非洲人,因为黑人中非洲人最多。
  通过上述例子我们可以看到:我们判断一个人是非洲人基于一个很关键的信息,因为他是黑色皮肤的人。所以,我们的判断实际上是发生在拥有黑色皮肤这件事的情况下我们的推断。
  这种在其他已知事件发生的基础上去计算某件事发生的概率叫做条件概率。一般我们使用贝叶斯定理求解条件概率。
  要搞懂贝叶斯定理之前,我们首先要搞懂什么是正向概率?和什么是反向(条件)概率?。
  在贝叶斯研究之前,人们已经能够计算正向概率。
  比如:假设袋子里有N个白球M个黑球,你伸手进去摸一把,摸出黑球的概率有多大?。
  然而在我们实际生活中,日常能观察到的只是事物表面的结果往往我们只知道从袋子里取出来的球是什么颜色,并不能看到袋子里的实际情况。这时候我们就希望有一些方法可以通过观察这些取出来的球的颜色,可以推测出袋子里面黑白球的比例是什么样的。
  我们通过下图简单讲一下贝叶斯定理的组成:
  朴素贝叶斯分类器的核心在于训练模型阶段需要计算每个类别在训练样本中的出现频率,以及每个特征属性划分对每个类别的条件概率估计,并将结果记录。
  这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。
  让我们通过一个贝叶斯分类器解决拼写检查纠正的例子加深理解:
  当一个用户输入了一个不在字典中的单词时,我们需要去猜测:这个人到底想要输出的单词是什么呢?如果用户输出了一个theu,那么他到底是想输入they还是then?到底哪个猜测的可能性更大?
  这个问题实际上是在求已知输入theu的情况下,我们猜测他想输出theyhen的概率谁更大?
  用上述符号表示即:P(BA)。
  我们可以很容易计算出theyhen单词的词频P(B),那么要怎么得到P(AB)呢?
  在这里可以用输入单词与正确单词在键盘上的距离来表示P(AB)即通过字母在键盘上的距离判断:下输入哪个字母的可能性更高?
  比如:在键盘上,Y和U离得更近,所以我们会认为要输入Y但是不小心按成了U的概率更大一些。
  通过上述的信息就可以计算出输出哪个单词的概率更大。
  朴素贝叶斯分类器的以下优点:
  生成式模型,通过计算概率来进行分类,可以用来处理多分类问题而且分类的结果很容易被解释
  所需估计的参数不大,对缺失数据不太敏感
  无需复杂的迭代求解框架,适用于规模巨大的数据集
  除了上述说到的拼写纠正以外,贝叶斯分类器还经常被用在垃圾邮件分类、文字广告过滤、识别恶性评论等等领域。
  在许多场景下,朴素贝叶斯分类算法可以与后续讲到的决策树、神经网络算法相媲美,而且方法简单、分类准确率高、速度快。但这个算法也有一些像对输入数据的形式比较敏感、计算先验概率时的分类决策可能存在错误这样的缺点,在使用的时候还是要根据具体的场景选择。
  以上简单介绍了关于机器学习的一些算法,最后,感谢一下我的同行好友中翘。
投诉 评论 转载

宝宝牛奶过敏怎么办宝宝牛奶过敏吃什么奶粉宝宝长到一定的阶段,很多家长就会给宝宝吃牛奶了,但是并不是所有的宝宝都能接受牛奶,有些孩子对牛奶会产生过敏症状,那对牛奶过敏的宝宝,要怎么喂养呢?有什么奶粉可以代替吗?宝……姓童的男孩名字潮一点给宝宝起名是一门非常深的学问,若是爸爸妈妈们给宝宝起了一个好名字的话,那么对宝宝日后的运程也会有好的影响。那么童姓男孩要怎样起名,才会其将来有益处呢?怎样给童姓男孩起名呢?童姓……古代如何尊称对方妻子古代尊称对方的妻子为什么最近有人问了一件非常有意思的事情,那就是古代人和现代人对一些称谓叫法都是不一样的,比如说现在叫对方的妻子可以叫嫂子什么的,但是在中国的古代这个对对方妻子的尊称会是什么呢?这个问……微软主机全球销量创纪录正加紧赶工【宅秘新闻】据外媒MSPoweruser消息,Xbox主管PhilSpencer今天在Twitter上宣布,过去24小时内,微软售出的Xbox主机数量比以往任何时候都要多。这使……微信昵称大全女生优雅四个字下面就让小编来带大家看看微信昵称大全女生优雅四个字,优雅是一种和谐,类似于美丽漂亮,只不过美丽是上天恩赐的,而优雅是艺术的产物,是从文化中陶冶产生的。那么美丽优雅的女生们,你有……男友深夜动手对方竟然是别人都说,没有哪个女人能好好地从男朋友手机里走出来,我还不信,但我没想到,这种事真的会发生在我的身上。我和男友恋爱三年,算是早恋吧,现在我二十一,他二十。我们都辍学比较早……男性真的可以自我控制射精吗是这样的我的ex每次ooxx的时候都可以很长时间半小时以上是常规的最长一次达到三个小时问他原因说是他可以控制自己想射就射不想射就可以不射而且并非是强制自己忍住射精的欲望可是可以……女性微创无痛人流会痛吗虽然几乎每个家庭都会想要自己的孩子,但适当的时机也是很重要。所以就会有很多的女性选择避孕,然而也有遇到意外的时候,这种时候,就需要人流手术了。随着科技的发展,人流手术也渐渐地有……第五次反围剿拼消耗的中央苏区第五次反围剿1933年秋,蒋介石调集50万兵力,购买新式装备,聘请德、意军事顾问,亲自指挥向中央苏区发动第五次围剿。蒋介石研讨了前几次失败的教训,这次改取……富贵不能淫复习资料愚公移山复习资料《富贵不能淫》复习资料一:文学常识作者孟子,名轲,字子舆。战国时期思想家、教育家、散文家。是继孔子之后又一位儒家大师,被尊称为亚圣,与孔子并称孔孟。其在政治上主张法……芍药烂根怎么办一般而言,如果芍药烂根,只有两种情况,一种就是培土过湿导致根部腐烂,这时需要将根部腐烂部分剔除,更换新的干燥培土,另一种则是地下虫对芍药根的啃噬,这个需要用药为芍药进行灌根。……写给产品经理的几种机器学习算法原理本文用尽量直白的语言、较少的数学知识给各位产品经理讲清楚:机器学习的过程、什么问题适合机器学习?以及各个算法的原理是什么?一、机器学习的过程机器学习的过程:从本质上……
招贷消费凭证没有怎么弄为什么小米寸电视那么便宜小米寸电视多少钱取消高考加分政策奥赛市场冰火两重天惊蛰适合结婚吗这些地方都需要注意员工激励你知道多少员工激励的培训发现孩子早恋家长应该怎么办杭州旅游景点推荐王者荣耀怎么获得更多的金币怎么查看号码的年龄有多久在表格中隔一行插入一行的方法汇总苹果相机如何设置金陵是现在的哪里
秦穆公称霸(秦穆公是如何称霸的?)书单20本适合小学生阅读的经典绘本故事韩国女明星秋瓷炫的个人成长历程你了解吗镜报年薪750万英镑,索尔斯克亚即将转正越穷的家庭婚姻关系越牢固,就算经常吵架也难离婚,很现实小学科技小论文怎么让男人更持久一点逮捕就是羁押吗九一八勿忘国耻观后感容纳观众人数最多的十大欧洲足球场爸爸中国男篮迎来坏消息!勇士巨头宣布参加奥运会,男篮锋线恐遭完爆

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找菏泽德阳山西湖州宝鸡上海茂名内江三亚信阳长春北海西安安徽黄石烟台沧州湛江肇庆鹤壁六安韶关成都钦州