关系经济人类预测化学自然
中准网
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产

连线揭秘与搜索背后的故事

10月14日 壹世缘投稿
  导读:Google搜索引擎已经赢得全球范围的赞誉,而这一切都要归功于Google开创性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后台支持Google算法的基础设施才是真正的幕后英雄,其基础设施可快速的索引链接成千上万台普通服务器。MapReduce的成功也直接推动了Hadoop的发展。现今从Facebook、Twitter、eBay、LinkedIn以及eBay都受其影响,而为了适应大数据时代的浪潮他们必须有进一步的举措。
  HarryShum已经在Microsoft研究院工作了11年,现在他负责研发MicrosoftBing搜索引擎,以对抗Google搜索。(图片来自Microsoft)
  在2010年,Google搜索引擎发生了重大变革。Google将其搜索迁移到新的软件平台,他们称之为Caffeine。Caffeine是Google出自自身的设计,Caffeine使Google能够更迅速的添加新的链接(包括新闻报道以及博客文章等)到自身大规模的网站索引系统中,相比于以往的系统,新系统可提供50新生的搜索结果。
  而这一切都要归功于Google开创性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后台支持Google算法的基础设施才是真正的幕后英雄,其基础设施可快速的索引链接成千上万台普通服务器。MapReduce的成功也直接推动了Hadoop的发展。现今从Facebook、Twitter、eBay、LinkedIn以及eBay都受其影响,而为了适应大数据时代的浪潮他们必须有进一步的举措。
  Google在基于Web的分布式计算系统领域已经赢得了赞誉。而MicrosoftBing搜索引擎的负责人HarryShum认为Microsoft虽然没有Caffeine的支持,但Bing搜索(利用数以万计的服务器软件平台处理数据)的能力丝毫不输给Google。GoogleCaffeine的优势在于快速抓取、编制索引和服务器文档。而Bing在这方面也是非常出色的。但这一切都需要基础设施的支持。
  HarryShum于2007年加入Bing团队,HarryShum已经在Microsoft研究院工作了11年。HarryShum的目标就是让Bing在搜索引擎领域技术赶上Google。在过去五年中,Google仍旧是全球最出色的搜索引擎,有人预计其市场占有率可能高达85或90。但HarryShum深信Bing终将在技术水平上赶超Google。多年来,我们一直在努力完善,在经过持之以恒的努力后,Bing的搜索质量已经接近Google的水平。HarryShum说到。
  毫无疑问,Google不会赞同HarryShum的说法,Google的工程师认为Caffeine是非常重要的。Caffeine索引覆盖1亿GB数据。Caffeine可在几秒或几分钟的时间从新闻网站或博客中添加内容。
  HarryShum认为Bing索引系统与Caffeine不同。他表示虽然Google声称他们一些重大的技术是最新的。但Caffeine的一些功能Bing已经在内部运行了。但同时我们也要构建新的技术,以完善我们的系统,我们也在这样做着。
  当讨论软件时,无论是Google还是Microsoft都避而不谈支撑他们搜索引擎和其他Web服务的技术。但HarryShum表示驱动Bing的专有软件平台被称之为Cosmos。这在Microsoft研究院发布研究论文有所提及。Cosmos类似于Google构建与MapReduce之上的GFS(GoogleFileSystem)。HarryShum同时表示Microsoft正在设法完善并扩大Cosmos平台,以便使之能够帮助Bing搜索引擎达到实时收录的地步。
  在Google采用Caffeine之前,Google使用MapReduce和分布式文件系统(如GFS)来构建搜索索引(从已知的Web页面索引中)。MapReduce是一种处理大型及超大型数据集并生成相关的执行的编程模型。其主要思想是从函数式编程语言里借来的,同时也包含了从矢量编程语言里借来的特性。MapReduce将整个任务分解成成百甚至上千块小任务,然后发送到计算机集群中。
  Google的网络爬虫会从整个网络中抓取相关的文件信息。然后将信息分发到Google全球配置了GFS的网络服务器中。而MapReduce负责在服务器协调数据处理的任务,以便可以将处理好的所有数据分配到人们实际搜索的页面索引中。在Google刚刚推出搜索引擎时,MapReduce每个月都会建立新的索引。后来,Google改善了系统,并逐步减少recrunch索引所需的时间。但当需求达到新的高度时,就需要动态的方式来更新索引。于是Google进入了Caffeine时代。
  Goolge的技术使得系统可以很快的抓取页面并添加到索引之中。在过去,因为在每次更新索引要分析整个Web,这导致Google需要处理大量的索引页(数十亿的文档)。但自从Google采用Caffeine后,Google只需从Web中分析其中的一小部分,所以Google可以持续不断的更新索引。
  在本质上Caffeine丢弃MapReduce转而将索引放置在由Google开发的分布式数据库BigTable上。作为Google继GFS和MapReduce两项创新后的又一项创新,其在设计用来针对海量数据处理情形下的管理结构型数据方面具有巨大的优势。这种海量数据可以定义为在云计算平台中数千台普通服务器上PB级的数据。Bigtable的出现也彻底改变了Google的索引机制。Google正在构建新版本的GFS,其被称为GFS2,但在Google内部GFS2被称为Colossus。
  HortonworksCEOBaldeschwieler认为Google将Caffeine用于搜索中是非常令人信服的创意。当Baldeschwieler还在Yahoo工作时,公司曾考虑过这样的平台,但因为昂贵的成本最终决心走Hadoop路线。
  Microsoft的HarryShum表示相对于GoogleCaffeine,Microsoft选择了不同的道路和发展方向。虽然他并没有透露过多的细节,但HarryShum表示Microsoft目前基于Cosmos平台是更多并行的数据库。
  Dryad在微软软体系结构中的位置
  去年,微软曾公布了建立与Cosmos之上的Dryad框架,这个类似MapReduce的框架一直驱动着Bing。但目前无法得知Dryad在Bing搜索引擎中占据怎样的角色。其实Dryad也并非微软的新产品,Dryad和DryadLINQ早在微软收购Powerset之前就已经存在。微软于2007年首度揭晓了关于技术的研究成果,并于2009年向学术界推出了非商业版Dryad和DryadLINQ。但与MapReduce不同的是,Dryad是针对运行WindowsHPCServer的集群计算设计的,而非Linux。
  MikeOlsen表示Dryad在许多方面都优于Hadoop,Dryad是经过精心设计的。但Microsoft已经在去年决定Hortonworks合作提供Windows平台之上的Hadoop,目前还不清楚Microsoft是否还会继续研究Dryad。然而HarryShum表示Microsoft将继续经营Cosmos以及其周边的平台和基础设施项目。
  HortonworksCEOEricBaldeschwieler表示不会使用Cosmos和其他的Microsoft搜索平台的基础设施工具。在大多数情况下,那些技术仅用于Microsoft内部。同时Baldeschwieler也证实了Cosmos和Dryad确实类似GFS和MapReduce,但他表示他并不了解Cosmos上并行数据库的讯息。
  MikeOlsen表示当MapReduce刚刚出现时,世界领先的数据库设计人员都对它嗤之以鼻,在数据库领域的所有人(包括我自己)都认为这是一个笑话。但MikeOlsen最终意识到MapReduce不应该只是一个数据库,它的目的与众不同,他们从未打算将它作为数据库使用。大数据时代数据呈现不同的类型并需要不同的分析方法,而MapReduce正是为了解决这一问题的方案。
  对MapReduce的全新认识也改变了MikeOlsen的想法,后来MikeOlsen创建名称为Cloudera的公司,公司业务全部围绕Hadoop展开。Cloudera提供的服务不仅提供给网络公司,还跨越了众多的行业。
  Google与Microsoft在搜索领域的游戏还会继续下去,双方都意识到快速的更新索引已经变得非常重要。Google与Microsoft都在想一个新的方向发展(分布式数据库)。存储数据的设备分布在全球的服务器之中将成为未来趋势,但这同时需要更有效的组织方式。但这绝不是终点,搜索引擎技术的演进还会继续下去。(李智编译)
  原文链接:Wired
投诉 评论 转载

我国封建王朝有哪些姓氏曾当过皇帝相信大家都知道,我国有着5000多年的历史,第一个记载的就是夏朝,一直到最后清朝结束。在这个期间,我国经历了几十个朝代,每一个王朝的更迭都会有不同姓氏的君王成为至高无上的存在。……遇到强手抓小偷你给我站住小偷回头看了看那个追他的小伙子:嘿嘿,跟我玩?玩死你,老子可是长跑冠军说着掉头继续往前跑后面的小伙子丝毫没有停止的念头,紧紧跟在他后面一公里下……神话生物凤凰原型之谜凤凰的原型是什么雉类动物杂交凤凰是古人虚构的神话生物,在现实生活中并没有这种生物。但令人奇怪的是,古人是根据什么生物构造的凤凰呢?凤凰原型之谜至今都是未解之谜。民间最为流传的说法是,孔雀变凤凰,但该观念已……平利清明节清明是春夏秋冬二十四节气中的一个节令,也是中华民族传统节日之一。清明节前后,平利民间广泛流传有踏青郊游、赏美景、放风筝和祭祀祖先上坟压纸挂清扫墓之习俗。清明一般在公历四月四日至……如何让你的内容策略像飞轮一样保持惯性后劲十足内容是整个数字营销中最核心的部分。有一个非常有趣的飞轮组件理论,教你如何让你的内容策略像飞轮一样保持惯性,后劲十足。下面是关于如何建立内容的飞轮,分享给大家。关于机……连线揭秘与搜索背后的故事导读:Google搜索引擎已经赢得全球范围的赞誉,而这一切都要归功于Google开创性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后台支持Googl……香肠粽子的做法aclasstaghrefwiki10784I4CKrOr2。html香肠a粽子很好吃,今天为大家讲解一下香肠粽子的做法。操作方法01:hr将糯米放入盆中淘洗干净,……家常蒜香爆花甲的具体做法花甲味道很鲜美,不管是做汤还是做菜都非常受欢迎。而用大蒜爆炒出来的花甲更是有着独特的味道深受大家喜欢,只是这么好吃的蒜香爆花甲是如何做出来的呢?随着这篇指南一起看看吧。操……加盟小吃店选址七法距离目标顾客不要超过20分钟步行路程小吃加盟店选址在主要车站的附近,或者在顾客步行不超过20分钟的路程内的街道设店。选择哪一边较有利于经营,需要观察马路两边行人流量……两节期间纠治四风工作情况报告两节期间纠治四风工作情况报告中共纪委《关于持续发力纠治四风确保廉洁过节的通知》文件下发后,我院高度重视,采取有力措施认真贯彻落实通知要求,确保形成祥和节俭、风清气正的中秋……学校端午节活动总结字多篇学校端午节活动总结800字多篇由好范文网会员buyban投稿推荐,但愿对你的学习工作能带来参考借鉴作用。五月初五,我们传统的节日端午节,是一代又一代绵延下来的习俗。下面给……互联网时代的党建标准化建设探究与思考摘要:互联网是党建标准化发展的有效手段,也是党建标准化创新的推动力。本文从互联网对于党建标准化建设的意义、带来的机遇、存在的问题和实践途径四个方面,阐述了互联网时代的党建标准化……
放风筝第一次学骑自行车我的语文老师大自然的演唱会这里有属于我的世界远和近气味生活教会我有恒心一块橡皮的自述教室里的掌声运动解剖学梨状肌十四夜间突发心衰怎么办
铝平底锅第一次使用怎样清洗铝平底锅第一次使用怎样清洗叫彪哥起床假发会不会是死人头发可以天天戴吗常给孩子喝酸奶有哪些好处?这是宝妈宝爸必须知道的事表达我爱你的简短句子清朝才子纪晓岚是因为长得太丑而不被重用的吗我的好朋友书作文二篇一屋不扫何以扫天下通过使用身体的重量来加强锻炼腿、手臂和肚子双红会一战,500万的蒂亚戈和8000万的马奎尔,谁更值?怎么可以受孕5个基本条件及快速怀孕方法孕妇可以用漂白剂吗

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找菏泽德阳山西湖州宝鸡上海茂名内江三亚信阳长春北海西安安徽黄石烟台沧州湛江肇庆鹤壁六安韶关成都钦州