沧州三亚菏泽经济预测自然
投稿投诉
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

猜你喜欢是怎么猜中你心思的

7月11日 夜如影投稿
  (文JosephA。KJohnRiedl)如今,到网上购物的人已经习惯了收到系统为他们做出的个性化推荐。Netflix会推荐你可能会喜欢看的视频。TiVo会自动把节目录下来,如果你感兴趣就可以看。Pandora会通过预测我们想要听什么歌曲从而生成个性化的音乐流。
  所有这些推荐结果都来自于各式各样的推荐系统。它们依靠计算机算法运行,根据顾客的浏览、搜索、下单和喜好,为顾客选择他们可能会喜欢、有可能会购买的商品,从而为消费者服务。推荐系统的设计初衷是帮助在线零售商提高销售额,现在这是一块儿规模巨大且不断增长的业务。与此同时,推荐系统的开发也已经从上世纪90年代中期只有几十个人研究,发展到了今天拥有数百名研究人员,分别供职于各高校、大型在线零售商和数十家专注于这类系统的其他企业。
  这些年来,推荐系统有了相当的进展。开始时它们还相对较为粗糙,往往对行为做出不准确的预测;但随着更多的和不同类型的网站用户数据变得可用,推荐系统得以将创新算法应用于这些数据之上,它们迅速得到了改善。今天,推荐系统都是些极其复杂和精专的系统,常常看起来比你自己还要了解你。同时,推荐系统正在向零售网站以外的领域拓展:大学用它们来引导学生选课,移动电话公司靠它们来预测哪些用户有可能转投另一家供应商,会议主办方也测试过用它们来分配论文给审稿专家。
  我们两人从推荐系统的早期开始便一直在开发和研究它们,最初是以学术研究者的身份,参与GroupLens计划(GroupLensProject)。1992年起,GroupLens通过对美国兴趣论坛网站Usenet讨论区里的消息进行排序,将用户指向他们可能会感兴趣、但自己尚未发现的话题线索。几年以后,我们成立了NetPerceptions,这是一家推荐算法公司,在互联网第一次热潮期间(1997年2000年),一直处于业界领先地位。有鉴于此,虽然这些公司极少公开谈论他们的推荐系统是如何运作的,我们的经验使我们能够深入了解亚马逊和其他在线零售商幕后的情景。(在本文中,我们的分析是在观察和推理的基础上得出的,不包含任何内部消息)。
  下面就是我们所看到的。
  推荐算法是怎么猜你喜欢的?
  你有没有想过自己在亚马逊眼中是什么样子?答案是:你是一个很大、很大的表格里一串很长的数字。这串数字描述了你所看过的每一样东西,你点击的每一个链接以及你在亚马逊网站上买的每一件商品;表格里的其余部分则代表了其他数百万到亚马逊购物的人。你每次登陆网站,你的数字就会发生改变;在此期间,你在网站上每动一下,这个数字就会跟着改变。这个信息又会反过来影响你在访问的每个页面上会看到什么,还有你会从亚马逊公司收到什么邮件和优惠信息。
  许多年来,推荐系统的开发者试过用各种各样的方法来采集和解析所有这些数据。最近这段时间,多数人都选择使用被称为个性化协同推荐(PersonalizedCollaborativeRecommender)的算法。这也是亚马逊、Netflix、Facebook的好友推荐,以及一家英国流行音乐网站Last。fm的核心算法。说它个性化,是因为这种算法会追踪用户的每一个行为(如浏览过的页面、订单记录和商品评分),以此进行推荐;它们可不是瞎猫碰上死耗子全凭运气。说它协同,则是因为这种算法会根据许多其他的顾客也购买了这些商品或者对其显示出好感,而将两样物品视为彼此关联,它不是通过分析商品特征或者关键词来进行判断的。
  不同类型的个性化协同推荐系统最晚从1992年开始便已经出现。除了GroupLens计划,另一项早期的推荐系统是MIT的Ringo,它会根据用户的音乐播放列表从而给用户推荐其他他们有可能会喜欢的音乐。
  UserUser算法:计算用户之间的相似度
  GroupLens和Ringo都使用了一种简单的协同算法,被称为用户关联(useruser)的算法。这种类型的算法会计算一对用户之间的距离,根据的是他们对同一物品打分的相似程度。举例来说,如果吉姆和简都给《电子世界争霸战》(Tron)这部电影打了5分,那么他们之间的距离就是0。如果吉姆给它的续集《创:战纪》(Tron:Legacy)这部电影打了5分,而简只打了3分,那么他们之间的距离就变大了。按照这样的计算得出来品味相对靠近的用户,我们把他们称之为共有一个邻集(neighborhood)。
  但是,这种用户关联的策略效果并不是很好。首先,形成有意义的邻集很难:很多用户两两之间只有很少几个共同评分,有的就完全没有;而仅有的那几个都打了分的项目呢,往往是票房大片,基本上人人都喜欢的那种。再来,由于用户之间的距离可以变得很快,算法必须当场就进行大部分的计算;而这可能会比一个在网站上这儿点点那儿戳戳的人下一个动作发出之前需要更久的时间。
  ItemItem算法:计算物品之间的关联
  因此,大部分的推荐系统如今都依靠一种物物关联(itemitem)的算法,这种算法计算的是两本书、两部电影或者两个其他什么东西之间的距离,依据的是给它们打过分的用户的相似度。喜欢TomClancy书的人很可能会给CliveCussler的作品打高分,因此Clancy和Cussler的书就共处一个邻集。一对物品之间的距离可能是根据成百上千万的用户的评分计算得出,在一段时间里往往保持相对稳定,因此推荐系统可以预先计算距离,并更快的生成推荐结果。亚马逊和Netflix都曾公开表示过他们使用的是物物关联算法的变种,但对细节都绝口不提。
  用户关联算法和物物关联算法都有的一个问题,是用户评分的不一致性。当给他们机会再评一次分时,用户往往会对同一件物品给出不同的得分。品味在变、心情在变,印象也在变。MIT在上世纪90年代进行的一项研究表明,在最初打分一年以后,用户的评分会发生平均1分(满分7分)的变动。研究人员们也在一直在尝试不同的方法在模型中纳入这一变量;比如说,如果用户给某个商品了打一个分,但这个评分与推荐算法所了解的关于这个人和这个商品的所有其他信息不相符,有的推荐算法就会邀请用户再次对这个商品进行评价。
  降维算法:把事物特征一般化
  不过,用户关联算法和物物关联算法还存在一个比一致性更大的问题:它们太死了。就是说,它们能发现都喜欢同一样东西的人,但却忽略了爱好非常相似的潜在用户组合。比如说你喜欢莫奈的睡莲。那么,在这个法国印象派大师画的250幅睡莲中,你最喜欢哪一幅?在一群喜欢莫奈的人当中,完全可能每个人喜欢的睡莲都不相同,而基本的算法就有可能识别不出这些人都有着共同的爱好。
  大约十年前,研究者们想出了一个办法,通过一个叫降维(DimensionalityReduction)的过程,把事物更一般化的表现出来。这种方法在计算量上比用户关联和物物关联算法要密集得多,因此也就没有那么快的得到采用。但随着计算机变更快更便宜,降维算法也逐步取得了一些进展。
  为了弄清降维算法是怎么工作的,我们来看看你爱吃的东西,以及如何把它跟其他一百万人爱吃的东西做比较。你可以把这些信息用一个巨型矩阵表示出来,每一条竖线代表一样食物,每个人爱吃什么东西就自然形成了一行。在你的这一行上面或许会显示你给了烤牛排5颗星、红烧小排4星半、烤鸡翅2颗星、冻豆腐卷1颗星、奶酪烤蘑菇5颗星、盐水毛豆4颗星,等等。
  然而,使用这个矩阵的推荐算法并不关心你给哪种食物评了多少颗星。它想要了解的是你一般而言的喜好,这样它可以将这个信息应用到更丰富多样的食物上。比如说,基于你上面给出的信息,算法可能会认为你喜欢牛肉、咸的东西和烤制菜品,不喜欢鸡肉和任何油炸的东西,不喜欢也不讨厌蔬菜,依此类推。你爱吃的食物所拥有的特点或者说维度,它的数量和符合你要求的食物的数量比起来要小得多至多可能50或100。通过查对这些维度,推荐算法可以迅速决定你是否会喜欢一种新的食物(比方说盐焗排骨),方法就是把这种食物的各项维度(咸的、牛肉做的、不是鸡肉、不是炒的、不是蔬菜、不是烤的)同你的资料进行比对。这种更为一般性的呈现使得推荐算法能准确的发现有着相似但不同喜好的用户。而且,它大幅压缩了矩阵的规模,使算法变得更加高效。
  这是一个很酷的解决方案。不过,你爱吃的食物的维度该上哪儿去找呢?肯定不是去问厨师。推荐系统会使用一种称为奇异值分解的数学方法来计算维度。这种方法涉及到把最初的一个巨型矩阵分解为两个口味矩阵其中一个包含了所有的用户和100项口味维度,另一个则包含了所有的食物和100项口味维度再加上第三个矩阵,当乘以前面两个矩阵中的任意一个时,会得到最初的那个矩阵(此处已更改)。
  不像上面例子中说的那样,计算用的维度既不是描述性的,也一点儿都不直观;它们是纯抽象的值。这并没有什么,只要这些值最终生成准确的推荐结果就行了。这种方法的主要缺点是,创建矩阵所需要的时间会随着客户和产品数量的增多而飞速增长创建一个拥有2。5亿名客户和1000万种产品的矩阵,需要花上创建一个25万名客户和1万种产品的矩阵10亿倍那么多的时间。而且这一过程还需要经常重复。一旦收到新的评分,矩阵就已经过时;在像亚马逊这样的公司,每一秒钟都会收到新的评论。幸运的是,就算略微过时,矩阵仍然能以一个挺不错的水平运作。研究人员们也已经在设计新的算法,为奇异值分解提供可用的近似值并显著缩短计算时间。
  本文作者:来自:果壳
投诉 评论

清华大学的学生写作能力不足其他学校01hr近日,清华大学校长邱勇表示,将在2018级新生中开设《写作与沟通》必修课程。计划到2020年,该课程将覆盖所有本科生,并力争面向研究生提供课程和指导。开设这……行驶防追尾完美刹车个技巧驾车加速行驶,这是谁都可以做到的。但是如果我们不能够正确地操作刹车,汽车有可能在一瞬间变成事故的凶器,因此,也许我们可以说刹车技术是驾驶汽车的境界之一。驾校一点通为大家列举八种……猜你喜欢是怎么猜中你心思的(文JosephA。KJohnRiedl)如今,到网上购物的人已经习惯了收到系统为他们做出的个性化推荐。Netflix会推荐你可能会喜欢看的视频。T……卷叶蛾对黄皮树有什么危害附图片危害黄皮树的卷叶蛾主要有褐带长卷叶蛾,受卷叶蛾危害的黄皮树有哪些症状?卷叶蛾一般在什么时候发生?褐带长卷叶蛾如何防治?以下三农网就作简单介绍,供网友们参考。一、卷叶蛾对黄……韦尔奇给大象瘦身经典案例韦尔奇:给大象瘦身在杰克韦尔奇就任通用电气总裁之前,似乎通用电气公司的每个人都或多或少有个头衔:经理大约有25000位,高级经理有500位,副总裁以上职位的……百合莉莉多肉长斑是什么原因百合莉莉多肉长斑的原因较多,在养护期间,将百合莉莉多肉养在室外,受环境影响,百合莉莉多肉的叶片会长斑。在生长期间,百合莉莉多肉感染了病菌,百合莉莉多肉会长出大量的黑斑。百合莉莉……面相看怎样的女人人缘最好都说女人心眼小,爱算计,常折腾实际上不论男女,均有类似性格之人,而在女性之中,自然也不缺少那种人缘上佳,朋友超多的类型。她们为何朋友多?事实上也可从女性面相上来一探究竟哦!……文竹开花有什么兆头能带来好运还保佑家人平安很多花友们都在家里养殖着文竹,因为文竹的姿态优美,观赏价值极高,所以受到人们的喜爱。最近有的花友们反映自己养殖了多年的文竹竟然开花了!可以说是非常稀奇了,因为竹子开花是十分少见……疫情期间隔离要收费吗疫情期间隔离要自己出钱吗我们都知道,为了避免新型冠状病毒的扩散,防止人员流动,全国各地的外地人员都需要隔离观察一段时间才能出门,这是很重要的一种防控措施。那么在疫情期间自己隔离的费用是谁承担呢?下面让……为什么老人家能看出别人怀孕了这些变化要知道很多人都是在有头晕、恶心、呕吐等早孕反应的时候,才会检查发现自己真的怀孕了。但也有的人只是看了对方一眼,就猜别人怀孕了,而且非常准。这个其实是因为怀孕时身体、身形上的变化是看的……洗衣机洗一半不动了什么原因洗衣机能帮我们一次性洗干净很多件衣服,而且现在的洗衣机都是全自动的,从清洗到漂洗再到甩干都会自己完成,还是很方便的。但有的洗衣机在洗衣服的中途会突然自己停掉,开盖之后恢复工作,……家教中如何跟学生沟通很多刚开始在易教网做家教兼职的老师或者大学生教员都说遇到这样一个问题,明明感觉自己讲课还不错,可是学员就是不想跟自己继续上课,甚至以一句我不喜欢这位老师为理由就结束了短暂的家教……
航空延误险的理赔规定是什么产妇见红多久会生治疗脊柱骨折用什么方法最好儿童吃糖会长蛀牙吗在机场哪个柜台换登机牌企业单方解除劳动合同如何赔偿接收木马文件中毒了怎么办敌敌畏中毒皮肤症状有哪些顺产能促进母乳喂养吗抽油烟机废油做肥皂剖腹产为何要备皮呢雇主责任险伤残赔偿比例是多少眼睛怎么保养(眼睛有皱纹怎么消除)60岁刘德华早餐仅啃半个玉米,穿百元棉服太朴素,跷二郎腿仍优文具盒的烦恼茄子炒多久(吃了稍微夹生的茄子)运营商自研小基站,京信通信资本之路还好走吗?努力会有回报作文有用amp183无用第一次做饭猴痘疫情背后的暗黑生意:价值2000亿美元,仅次于毒品和军火吃田螺的危害有哪些?不得不看!《春天》教学反思47岁再怀孕,3年流产4次,拼儿子连怀8胎,女明星生娃各有各

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找