深度解读特斯拉自研芯片架构

自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产

6月10日孤行者投稿

　　文章转载半导体行业观察
　　对于一家自动驾驶电动汽车制造商来说，花费数亿美元从头开始创建自己的人工智能超级计算机，超大规模人工智能训练的成本和难度有多大？公司创始人必须多么自负和肯定才能组建一支能够做到这一点的团队？
　　像许多问题一样，当您准确地提出这些问题时，他们往往会自己回答。很明显，SpaceX和特斯拉的创始人兼OpenAI联盟的联合创始人埃隆马斯克没有时间或金钱浪费在科学项目上。
　　就像世界上的超级大国低估了完全模拟核导弹及其爆炸所需的计算能力一样，也许自动驾驶汽车的制造商开始意识到，在复杂的世界中教汽车自动驾驶这种情况总是在变化，这将需要更多的超级计算。一旦你接受了这一点，你就可以从头开始，建造合适的机器来完成这项特定的工作。
　　简而言之，这就是特斯拉的ProjectDojo芯片、互连和超级计算机工作的全部内容。
　　在HotChips34大会上，曾在Dojo超级计算机上工作的芯片、系统和软件工程师首次公开了该机器的许多架构特性，并承诺将在特斯拉AI日上谈论Dojo系统的性能。
　　EmilTalpes在AMD工作了近17年，研究各种Opteron处理器以及命运多舛的K12Arm服务器芯片，他介绍了他的团队创建的Dojo处理器。DebjitDasSarma则同期在AMD担任CPU架构师，他在演讲中受到赞誉，目前是特斯拉的自动驾驶硬件架构师，DouglasWilliams也是如此，我们对他一无所知。这家汽车制造商的首席系统工程师BillChang在IBMMicroelectronics工作了15年，设计IP模块并致力于制造工艺，然后帮助Apple将X86处理器转移到自己的Arm芯片上，而RajivKurian一开始在特斯拉工作，然后在Waymo工作。据我们所知，在去年8月的TeslaAIDay1上发言特斯拉自动驾驶硬件高级总监GaneshVenkataramanan负责Dojo项目。过去十五年里，Venkataramanan还是AMDCPU设计团队的领导者。
　　所以以一种奇怪的方式，Dojo代表了一个可替代的人工智能未来，如果特斯拉来帮助从头开始设计定制的人工智能超级计算机，从全新核心内核中的向量和整数单元一直到一个完整的exascale系统，专为AI训练用例的规模化和易于编程而设计。
　　与来自AI初创公司的许多其他相对较新的平台一样，Dojo设计优雅而彻底。最引人注目的是特斯拉工程师在关注规模时抛出的东西。
　　我们应用定义的目标是可扩展性，Talpes在演讲结束时解释道。我们不再强调典型CPU中的几种机制，例如一致性、虚拟内存和全局查找目录，因为当我们扩展到非常大的系统时，这些机制不能很好地扩展。相反，我们依赖于整个网格中非常快速且非常分布式的SRAM存储。与典型分布式系统相比，互连速度高出一个数量级。
　　基于此，让我们深入了解Dojo架构。
　　根据Talpes的说法，Dojo核心有一个整数单元，它从RISCV架构中借用了一些指令，并且有一大堆特斯拉自己创建的附加指令。矢量数学单元主要由特斯拉从头开始实现，Talpes没有详细说明这意味着什么。他确实补充说，这个自定义指令集针对运行机器学习内核进行了优化，我们认为这意味着它不会很好地运行孤岛危机。
　　Dojo指令集支持64位标量指令和64BSIMD指令，它包括处理从本地内存到远程内存传输数据的原语（primitives），并支持信号量（semaphore）和屏障约束（barrierconstraints），这是使内存操作符合指令不仅在D1内核中运行，而且在D1内核的集合中运行。至于特定于ML的指令，有一组通常在软件中完成的shuffle、transpose和convert指令，现在蚀刻在晶体管中，核心还进行随机舍入（stochasticrounding），可以进行隐式2D填充（implicit2Dpadding），即通常通过在一条数据的两侧添加零来调整张量来完成。
　　Talpes明确表示，D1处理器是我们推测的Dojo芯片和系统系列中的第一个，是高吞吐量、通用CPU，它本身并不是加速器。或者更准确地说，Dojo的架构旨在加速自身，而不需要一些外部设备来完成。
　　每个Dojo节点都有一个内核，是一台具有CPU专用内存和IO接口的成熟计算机。这是一个重要的区别，因为每个内核都可以做自己的事情，而不依赖于共享缓存或寄存器文件或任何东西。
　　D1是一个超标量（superscalar）内核，这意味着它在其内核中支持指令级并行性，就像当今大多数芯片一样，它甚至具有多线程设计来驱动更多指令通过该内核。但是多线程更多的是每时钟做更多的工作，而不是拥有可以将独立的Linux实例作为虚拟机运行的独立线程，因此同步多线程（SMT）的Dojo实现没有虚拟内存，保护机制有限，并且Dojo软件堆栈和应用程序管理芯片资源的分配。
　　D1内核是一个64位处理器，具有32B的取指窗口（fetchwindow），最多可容纳8条指令；一个八宽解码器每个周期可以处理两个线程。这个前端馈入（frontendfeedsinto）一个四宽标量调度器（fourwidescalarschedule），该调度器具有四路SMT，它有两个整数单元、两个地址单元和一个用于每个线程的寄存器文件。还有一个带有四路SMT的两侧向量调度器，它馈送到一个64B宽的SIMD单元或四个8x8x4矩阵乘法单元。
　　每个D1内核都有一个1。25MB的SRAM，这是它的主存储器。它不是缓存，如果有的话，挂在更大的Dojo网络上的DDR4内存被视为比其他任何东西都更像大容量存储。该SRAM可以以400GB秒的速度加载并以270GB秒的速度存储，并且该芯片具有明确的指令，可以将数据移入或移出Dojo机器中其他内核的外部SRAM存储器。嵌入在该SRAM中的是一个列表解析器引擎（listparserengine），该引擎馈入解码器对和一个收集引擎（gatherengine），馈入向量寄存器文件，它们一起可以将信息发送到其他节点或从其他节点获取信息，而无需像与其他CPU架构。
　　这个列表解析功能是Dojo芯片设计独有的关键特性之一：
　　这本质上是一种封装不同数据位的方法，以便可以在系统中的D1内核之间高效传输。
　　D1内核支持多种数据格式。标量单元支持8、16、32或64位的整数，而向量单元及其关联的矩阵单元支持多种数据格式，具有精度和数值范围的混合，其中不少是动态的可由Dojo编译器组合。
　　Talpes指出，FP32格式比AI训练应用的许多部分所需的精度和范围更广，IEEE指定的FP16格式没有足够的范围覆盖神经网络中的所有处理层；相反，GoogleBrain团队创建的Bfloat格式范围更广，但精度更低。因此，Tesla不仅提出了用于较低精度和更高吞吐量矢量处理的8位FP8格式，而且还提出了一组可配置的8位和16位格式，Dojo编译器可以在尾数的精度附近滑动和上图所示的指数，以涵盖更广泛的范围和精度。在任何给定时间，最多可以使用16种不同的矢量格式，但每个64B数据包必须属于同一类型。
　　在图的右上角，您将看到片上网络路由器（networkonchiprouter），它将多个核心连接在一起形成一个2D网格。NOC可以处理跨节点边界的8个数据包（boundary），每个方向64B，每个时钟周期，即在所有四个方向上一个数据包输入和一个数据包输出到网格中每个核心最近的邻居。该路由器还可以在每个周期对本地SRAM进行一次64B读取和一次64B写入，因此可以在内核之间移动数据。
　　这些都在在D1核心上完成所有蚀刻，是由其代工合作伙伴台积电以7纳米工艺完成的。之后，特斯拉开始复制D1核心并将它们互连网格，像这样：
　　十几个D1核心排列成一个本地块，创建了一个18核心乘20核心的二维阵列，但由于某种原因，只有354个D1核心可用。D1芯片以2GHz运行，在这些内核上共有440MB的SRAM，在BF16或CFP8上提供376teraflops，在FP32上提供22teraflops。向量单元中没有FP64支持。如此多的HPC工作负载无法在此D1芯片上运行，一些使用64位矢量数学的AI应用也不会。特斯拉不需要关心它只需要运行自己的人工智能应用程序，如果它想在D2或D3芯片上添加FP64支持来运行其HPC模拟和建模工作负载，以便马斯克的公司可以设计宇宙飞船和汽车，好吧，在完成所有这些工作之后，这相当容易。
　　D1die有576个双向SerDes通道，围绕在die周围以链接到其他D1die，并且D1die的所有四个边缘的带宽为8TB秒。这些芯片重达645平方毫米，可通过这些SerDes无缝连接到特斯拉所谓的Dojo训练模块中。像这样：
　　训练tile采用25个已知良好的D1裸片，并将它们打包成一个55阵列，相互连接。训练tile的外部边缘在40个IO芯片上实现了36TB秒的聚合带宽；这是2D网格的网格的二分带宽的一半，它跨越了tile内的D1芯片。该tile具有10TB秒的块上二分带宽，以及跨内核的11GBSRAM内存。每个tile提供9petaflops的BF16CFP8魅力。
　　那些Dojo训练tile消耗15千瓦，显然是水冷的，它们的设计使得多个训练tile可以与相邻tile互连。目前尚不清楚这是如何发生的，但很明显，您需要一排相互连接的tile，水平或垂直方向，而不是带有几个设备托盘的单独机架，然后需要某种巨大比例的光缆或电缆，围绕在tile之间承载数据。垂直工作，如下所示：
　　您将在上图中注意到，在D1网格的边缘有所谓的Dojo接口处理器或DIP，它们连接到D1网格以及为DIP供电并执行各种系统管理的主机系统功能。每个训练tile总共有11GB的私有SRAM主内存，但系统需要某种更大的内存，该内存合理地靠近网格。在这种情况下，Tesla选择创建一个DIP内存和IO协处理器，其中包含32GB共享HBM内存我们还不知道是哪种，但它是HBM2e或HBM3以及以太网接口到外部世界以及在tile和核心之间进行比通过这个巨大的网格更直接的跳跃。图片显示一对主机安装了十个这样的DIP，每组三个Dojo训练图块总共有320GB的HBM内存。但图表上的措辞表明，每个tile分配了160GB，这意味着每个tile一个主机，而不是此处显示的三个tile两个主机。
　　该DIP卡有两个IO处理器，每个处理器带有两个HBM内存组，该卡提供32GB的HBM内存和800GB秒的带宽。对我们来说，这看起来像是稍微降低了HBM2e内存。该卡通过PCIExpress实现了Tesla传输协议（TTP：TeslaTransportProtocol），这是一种专有互连，对我们来说这有点像CXL或OpenCAPI，以将完整的DRAM内存带宽提供给Dojo训练块。在卡的另一端，有一个50GB秒的TTP协议链路在以太网NIC上运行，它连接到现有的以太网交换机，该交换机可以是单个400Gb秒端口或成对的200Gb秒端口。DIP插入PCIExpress4。0x16插槽，每张卡提供32GB秒的带宽。每个磁贴边缘有5个卡，有160GB秒的带宽进入主机服务器和4个。
　　正如我们已经指出的那样，DIP不仅将DRAM实现为fat本地存储，而且还提供了另一种网络维度，可用于绕过2D网格，而需要大量跃点才能跨越所有这些核心和tile。像这样：
　　Chang表示，在整个系统中通过2D网格实现端到端可能需要30hops，但使用TTOoverEthernet协议和fattreeEthernet交换机网络，只需要4hops。显然，带宽要低得多，但在网络的第三维（因此是Z平面）上的延迟要低得多。
　　DojoV1训练矩阵是Tesla正在构建的基础系统，它有6个训练tile、4个主机服务器上的20个DIP，以及一组连接到以太网交换结构的辅助服务器，如下所示：
　　基础DojoV1系统有53，100个D1内核，在BF16和CFP8格式下的额定速度为1exaflops，在Tile上有1。3TB的SRAM内存，在DIP上有13TB的HBM2e内存。完整的DojoExaPod系统共有120个tile，将有1，062，000个可用的D1内核，重量为20exaflops。
　　顺便说一句，这个东西运行PyTorch。没有像C或C那样低级的东西，也没有像CUDA这样的远程。Dojo机器的另一个巧妙之处在于SRAM将自身呈现为单个地址空间。它是一个平坦的内存区域，本地计算悬挂在其内存块上。
　　我们期待看到Dojo在AI基准测试中的表现。

投诉评论转载

2022年大西北甘青环线详解ampampamp路线规划思路（之前写过一篇21天的西北大环线，很多朋友反馈，没有那么长的时间。今天就来讲一条9天的西北环线，而且在这个9天的基础上，可以调整成7天到14天，方便各类长度不同的假期。西北……深度解读特斯拉自研芯片架构文章转载半导体行业观察对于一家自动驾驶电动汽车制造商来说，花费数亿美元从头开始创建自己的人工智能超级计算机，超大规模人工智能训练的成本和难度有多大？公司创始人必须多么自负……绿联小海豚TWS耳机小巧舒适，百元性价比好耳机相比有线耳机，无线耳机没有了线材的束缚，携带更加方便，经过多年的技术积累，无线耳机在音质上有了长足进步，目前市面上的无线耳机琳琅满目，在激烈的竞争下价格越来越亲民，今天三爷为大……网传奔跑嘉宾名单曝光！元老级郑凯下车，王嘉尔成常驻嘉宾？综艺真人秀节目从《奔跑吧兄弟》到《奔跑吧》，从第一季播出以来人气和口碑都相当不错，每一期邀请的嘉宾都有十足的看点，吸引了很多观众的观看《奔跑吧》第十季终于迎来了收官之战，最近网……ChatGpt答中国十大适合居住小城市，江苏最多有四座以下是ChatGpt回答了中国十大宜居小城市。近年来，中国城市化进程不断加快，越来越多的人涌入大城市，导致大城市的人口压力和环境质量逐渐恶化。相对而言，宜居小城市则成为了……孙颖莎离奥运冠军越来越远了孙颖莎虽然夺得了奥运亚军，世界杯亚军，全运会亚军，不好意思，被记住的永远都是冠军，谁见过了那么多年谁还记住几几年，什么比赛的亚军是谁吗？谁见过谁打赢福原爱和冯天薇而被捧上……3D打印火箭的梦想破灭？美国太空初创公司相对论再次发射失败太空探索是人类永恒的梦想，也是科技创新的驱动力。然而，这条道路并不平坦，充满了挑战和风险。就在今年3月12日，美国太空初创公司相对论再次尝试发射全球首枚3D打印火箭，最终仍以失……10岁了还和大人一起睡，发生了什么？我要上头条育儿关于土豆睡觉这件事，早在2年前，我就专门写过一篇分房睡的文章：我决定了！让读小学的儿子搬回来和我们一起睡从那个时候开始，我家基本上就维持2张大床拼床的……全民PK争霸赛谁能问鼎？九天揽月与无所畏惧携手夺冠万众瞩目的《梦幻西游》电脑版全民PK争霸赛总决赛，在经过了两天三轮的激烈争夺后，已于2022年8月28日正式落下了帷幕，在专业组的八支战队和全民组的四支战队中，最终的桂冠，则分……病毒在人体内的生物合成及抗病毒药物作用环节病毒是一种非细胞生命形态，它由一个核酸和蛋白质外壳构成的非细胞型微生物，病毒没有自己的代谢机构，没有酶系统，它的复制、转录、转译的能力都必须在宿主细胞中进行，同时利用宿主细胞中……行走吉林丨好可爱，两只满月不久的小东北虎在嬉闹来源：人民网吉林频道嗷呜一声猛虎咆哮，引得游客小跑而来。听说此处有‘猛虎’出没，我们想着来一睹真容。在长春市动植物公园，市民李女士和家人笑着打趣。今天（9月2……喷射战士3加特林点位推荐喷射战士3加特林怎么玩《喷射战士3》加特林是需要蓄力一段时间启动，启动后火力非常猛的一系列枪械武器，在塔楼模式使用加特林，如何增加胜率呢，下面请看《喷射战士3》加特林点位推荐，希望对各位玩家有帮助。……

<<<<<<－>>>>>>

重金属污染检测的重要性为什么中医不提倡喝牛奶？多数人还不明白，看完你就知道了超市购物车如何防丢失 CBA20支球队主教练名单出炉，仅四位洋帅西游记中猪八戒爱过高翠兰吗如何把手机拍摄的图片复制粘贴到电脑小游戏登顶热搜羊了个羊爆火的背后逻辑是什么？11。711。13一周钢铁市场分析（震荡偏强）震动棒选购指南购买震动棒应该考虑哪些因素阿的江酝酿新交易！瞄准山西探花秀，弥补球队短板，成双赢局面力压高通苹果联发科手机处理器卖成国内市场头名了救世主的门神！助攻扑点！阿利森硬将利物浦拖出泥潭1数据NO。

玫瑰花茶一周喝几次玫瑰花茶一次喝几朵孩子太早说话或太晚说话，哪个更可能是有自闭症？人生要耐得住寂寞励志文章我是一只小鸟作文400字退休职工养老保险工资怎么计算热博聚热点网婚前买车结婚后是夫妻共同财产吗爱的换日线袁弘离百年好合又近了一年，袁弘毕业于哪所大学亲戚来了土豪太多！维珍银河太空游需求强劲，25万美元票价要大幅上调家里网线坏了谁帮你搞定？有了这把网线钳自己在家也能掐本命年红绳要带到掉吗

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找菏泽德阳山西湖州宝鸡上海茂名内江三亚信阳长春北海西安安徽黄石烟台沧州湛江肇庆鹤壁六安韶关成都钦州