转载自机器之心 本周,芯片创业公司Cerebras宣布了一个里程碑式的新进展:在单个计算设备中训练了超过百亿参数的NLP(自然语言处理)人工智能模型。 由Cerebras训练的AI模型体量达到了前所未有的200亿参数,所有这些都无需横跨多个加速器扩展工作负载。这项工作足以满足目前网络上最火的文本到图像AI生成模型OpenAI的120亿参数大模型DALLE。 Cerebras新工作中最重要的一点是对基础设施和软件复杂性的要求降低了。这家公司提供的芯片WaferScaleEngine2(WSE2)顾名思义,蚀刻在单个台积电7nm制程的整块晶圆上,该面积通常足以容纳数百个主流芯片具有惊人的2。6万亿个晶体管、85万个AI计算内核和40GB集成缓存,封装后功耗高达15kW。 接近晶圆大小的WaferScaleEngine2,面积比一个iPad还大。 虽然Cerebras的单机在体量上已经类似于超算了,但在单块芯片中保留多达200亿个参数的NLP模型仍然显著降低了数千个GPU的训练成本,以及相关的硬件和扩展要求,同时消除了在它们之间分割模型的技术困难。Cerebras表示,后者是NLP工作负载中最痛苦的方面之一,有时需要几个月才能完成。 这是一个定制化的问题,不仅对每个正在处理的神经网络,对于每个GPU的规格以及将它们联系在一起的网络都是独一无二的这些元素必须在第一次训练开始之前提前设置好,而且也不能跨系统移植。 Cerebras的CS2是一个独立的超级计算集群,其中包括WaferScaleEngine2芯片,所有相关的电源、内存和存储子系统。 200亿的参数量大概是个什么水平?在人工智能领域里,大规模预训练模型是最近各家科技公司和机构正在努力发展的方向,OpenAI的GPT3是一种NLP模型,它可以写出足以欺骗人类读者的整篇文章、做数学运算和翻译,其具有惊人的1750亿个参数。DeepMind的Gopher于去年年底推出,将参数量的纪录提高到2800亿。 最近一段时间,谷歌大脑甚至宣布训练了一个超过万亿参数的模型SwitchTransformer。 在NLP领域中,体量更大的模型被证明效果更好。但传统上,只有极少数公司拥有足够的资源和专业知识来完成分解这些大型模型,将其分散到数百或数千个图形处理单元的艰苦工作,Cerebras首席执行官、联合创始人AndrewFeldman说道。因此也只有极少数公司可以训练大型NLP模型这对于行业的其他人来说太昂贵、太耗时且无法使用。 现在,Cerebras的方法能够降低GPT3XL1。3B、GPTJ6B、GPT313B和GPTNeoX20B模型的应用门槛,使整个AI生态系统能够在几分钟内建立大型模型,并在单个CS2系统上训练它们。 然而,就像旗舰级CPU的时钟速度一样,参数量只是大模型性能的其中一项指标。最近,一些研究在减少参数的前提下已经取得了更好的结果,例如DeepMind今年4月提出的Chinchilla,只用700亿个参数就在常规情况下超过了GPT3和Gopher。 这类研究的目标当然是更智能的工作,而不是更努力地工作。因此Cerebras的成就比人们第一眼看到的更为重要该研究让我们相信现有的芯片制程水平能够适应日益复杂的模型,该公司表示,以特殊芯片为核心的系统具备了支撑数千亿甚至数万亿参数模型的能力。 在单芯片上可训练参数量的爆炸式增长需要依赖Cerebras的WeightStreaming技术。该技术可以将计算和内存占用分离,根据AI工作负载中快速增长的参数量,允许内存进行任意量级的扩展。这使得设置时间从几个月减少到几分钟,并且可以在GPTJ和GPTNeo等型号之间切换。正如研究者所说:只需要敲几次键盘。 Cerebras以低成本、便捷的方式向人们提供了运行大型语言模型的能力,开启了人工智能令人兴奋的新时代。它为那些不能花费数千万美元的组织提供了一个简单而廉价的,参与到大模型竞争之中的方式,Intersect360研究公司的首席研究官DanOlds说道。当CS2客户在大量数据集上训练GPT3和GPTJ级模型时,我们非常期待CS2客户的新应用和新发现。 参考内容: https:www。tomshardware。comnewscerebrasslaysgpusbreaksrecordforlargestaimodelstrainedonasingledevice https:www。cerebras。netpressreleasecerebrassystemssetsrecordforlargestaimodelsevertrainedonasingledevice