近日,Meta揭示了其在人工智能领域的最新进展。
提及Meta时,人们常想到其应用程序,如Facebook、Instagram、WhatsApp或即将推出的元宇宙。然而,许多人不了解的是,该公司设计和构建了非常复杂的数据中心来支持这些服务。
与AWS、GCP或Azure等云服务提供商不同,Meta不需要公开其硅芯选择、基础设施或数据中心设计的细节。用户更关心的是获得更好、更一致的体验,而不是其实现方式。
在Meta,AI工作负载无处不在,构成了许多广泛用例的基础,包括内容理解、信息流、生成式AI和广告排名。这些工作负载在PyTorch上运行,具有一流的Python集成、即时模式(eager-mode)开发和API简洁性。特别是对于改善Meta服务和应用体验而言,深度学习推荐模型(DLRMs)至关重要。然而,随着这些模型的增大和复杂性的增加,底层的硬件系统需要在保持高效率的同时提供指数级增长的内存和计算能力。
Meta发现,对于当前规模的AI运算和特定的工作负载,GPU的效率并不高,不是最佳选择。因此,该公司推出了推理加速器MTIA,以帮助更快地训练AI系统。
MTIA V1
Meta在2020年为其内部工作负载设计了第一代MTIA ASIC推理加速器。该推理加速器是其全栈解决方案的一部分,整个解决方案包括芯片、PyTorch和推荐模型。
MTIA加速器采用了TSMC 7nm工艺制造,运行频率为800MHz,在INT8精度下提供102.4TOPS,在FP16精度下提供51.2TFLOPS。其热设计功耗(TDP)为25W。
MTIA加速器由处理元件(PE)、片上和片外存储资源以及互连组成。该加速器配备了专用控制子系统,用于运行系统固件,管理可用的计算和内存资源,并通过专用主机接口与主机通信,协调加速器上的作业执行。
内存子系统使用LPDDR5作为片外DRAM资源,可扩展至128GB。该芯片还具有128MB的片上SRAM,为频繁访问的数据和指令提供更高的带宽和更低的延迟。
MTIA加速器网格包含64个PE,以8x8配置组织,相互连接,并通过网状网络连接到内存块。整个网格可以作为一个整体来运行作业,也可以分成多个可以运行独立作业的子网格。
每个PE配备两个处理器内核,其中一个配备矢量扩展,并配备一些固定功能单元,经过优化以执行关键操作,例如矩阵乘法、累加、数据移动和非线性函数计算。每个PE还具有128KB的本地SRAM内存,用于快速存储和操作数据。
该芯片同时提供线程和数据级并行性(TLP和DLP),利用指令级并行性(ILP),并通过允许同时处理大量内存请求来实现大量的内存级并行性(MLP)。
MTIA v1系统设计
MTIA加速器安装在小型双M.2板上,可更轻松地集成到服务器中。这些板使用PCIe Gen4 x8链接连接到服务器上的主机CPU,功耗低至35W。
Meta比较了MTIA与其他加速器的性能,结果如下:
MTIA对于低复杂度(LC1和LC2)和中等复杂度(MC1和MC2)的模型能够比NNPI和GPU更高效地处理。
需要注意的是,Meta尚未对高复杂度(HC)模型进行MTIA的优化。
以上是关于Meta发布第一代AI推理加速器的内容,希望这些信息能为您提供参考和帮助。
发表回复