萧箫发自凹非寺 量子位公众号QbitAI 真开源GPT模型,终于来了。 参数量级130亿,大小比肩最近Meta开放的LLaMA13B,但从数据集、模型权重到计算优化训练,全部开源。 最关键的是,可商用。 没错,虽然就GPT3而言,之前DeepMind、Meta等组织陆陆续续开源过几个模型,不过基本都是半遮半掩。 尤其最接近GPT3的MetaOPT模型,不仅权重只开放给研究者,而且不可商用: 这意味着之前企业就算能抄作业,抄来的也没办法直接用。 现在,一家名叫Cerebras的公司开源了这一系列GPT模型,业界终于有机会追赶了。模型性能如何? Cerebras一共开源了7个GPT模型,参数量分别达到1。11亿、2。56亿、5。9亿、13亿、27亿、67亿和130亿。 据Cerebras公司表示,他们开放出来的模型不仅包含数据集,可用于研究也可商用,而且关键是预训练模型权重开放(从下图来看文件大小近50G)。 基于他们公开的预训练模型,大伙儿只需要用少量的数据对对模型进行微调,就能构建出效果不错的模型来。 除此之外,这次GPT模型的训练还额外考虑到了计算优化训练(ComputeOptimalTraining)。 这个方法最早由DeepMind在2022年提出,名叫Chinchilla,它认为大语言模型的语料数量和模型效果之间符合一个凸曲线,因此模型参数量和训练程度成一定比例。 依据这个方法,DeepMind认为,包括GPT3在内的超大参数LLM模型,有很多都是训练不足的。 基于此,Cerebras搞出了这一系列GPT模型,并将背后的流程进行了开源。 所以,CerebrasGPT系列模型性能如何呢? 团队将CerebrasGPT系列和LLaMA、GPT3等模型的性能进行了对比。 这是包括GPT3、Gopher、Chinchilla和LLaMA在内的其他GPT模型,在完成句子、问答等特定任务上表现的效果。 这是不同大小的CerebrasGPT模型零次学习(0shot)的效果: 数据对比不是特别直观,团队还将结果进行了可视化。 可以看出,在最终性能相差不大的情况下,CerebrasGPT的训练效率要更高一些。 曾开发最大AI芯片 其实,Cerebras的本职是一家AI芯片公司。 Cerebras公司由SeanLie和AndrewFeldman等人于2016年创立。 其中,AndrewFeldman曾创建微型服务器公司SeaMicro,并以3。34亿美元的价格出售给AMD。 与其他AI芯片公司不同,Cerebras开发的芯片超大,像晶圆一样(但确实是芯片): 他们当年做出来过一个名叫晶圆级引擎(CerebrasWaferScaleEngine,简称WSE)的AI芯片,将逻辑运算、通讯和存储器集成到单个硅片上,一口气创下了4项世界纪录:晶体管数量最多的运算芯片:总共包含1。2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。芯片面积最大:尺寸约20厘米23厘米,总面积46,225平方毫米。面积和一块晶圆差不多。片上缓存最大:包含18GB的片上SRAM存储器。运算核心最多:包含40万个处理核心。 后来这个超大WSE又升级了二代,然后团队基于WSE2打造出了一个名叫CerebrasCS2的AI超算。 这次的CerebrasGPT系列模型,就是在这个CerebrasCS2的AI超算中训练出来的。对此这家公司表示: 虽然训练这么大体量的模型通常需要几个月时间,但我们几周就能搞定。 Cerebras还表示,虽然很多硬件公司都声称训练效果能接近英伟达GPU的水平,但他们还没看到任何一家亲自推动开源LLM的硬件公司,这势必不利于开源LLM的发展。 这波啊,这波Cerebras格局大了(手动狗头) 模型地址: https:huggingface。cocerebrasCerebrasGPT13B 参考链接: https:www。cerebras。netblogcerebrasgptafamilyofopencomputeefficientlargelanguagemodels 完 量子位QbitAI头条号签约 关注我们,第一时间获知前沿科技动态