苏妈杀疯了:移动端最强NPU算力达50TOPS,最强AI芯片挑战英伟达

英伟达现场拿出了量产版 Blackwell 芯片,还公布了未来三年的产品路线,包括下一代 Rubin AI 平台。

英伟达现场拿出了量产版 Blackwell 芯片,还公布了未来三年的产品路线,包括下一代 Rubin AI 平台。

一年一度的 Computex 科技大会成为了 GPU 厂商们秀肌肉的舞台,其中当属英伟达和 AMD 最为亮眼。英伟达现场拿出了量产版 Blackwell 芯片,还公布了未来三年的产品路线,包括下一代 Rubin AI 平台。

AMD 当然也不甘示弱,CEO 苏姿丰亮出了旗下的 CPU、GPU 产品及路线图,包括全新 Zen 5 架构的桌面端 Ryzen 9000系列 CPU、AI PC 芯片、数据中心芯片和 GPU。

图片苏姿丰

全新 Zen 5 架构

锐龙 9000 桌面系列芯片首次亮相

苏姿丰在演讲中着重介绍了基于 Zen 5 架构的全新桌面端 Ryzen CPU,它们经过优化可以通过神经网络处理器来加速 AI 工作负载。

下图为下一代高性能 CPU 核心 Zen 5 的各项规格,它不仅是当前 Ryzen 9000 系列处理器的核心,也将成为今年下半年推出的 Turin Epyc 霄龙服务器 CPU 的核心。

图片

苏姿丰表示,Zen 5 是 AMD 迄今设计的性能和能效均最高的核心,而且它是从头开始设计的。其中,该核心拥有一个新的并行双管道前端,旨在提高分支预测准确性并减少延迟,并能够在每个时钟周期提供更高的性能。

此外,Zen 5 具有更宽的 CPU 引擎指令窗口,可以并行运行更多指令,以实现领先的计算吞吐量和效率。与 Zen 4 相比,Zen 5 的指令带宽增加了一倍,缓存和浮点单元之间的数据带宽增加了一倍,AI 性能增加了一倍,同时具有完整的 AVX 512 吞吐量。

苏姿丰现场首次展示了采用 Zen 5 架构的 Ryzen 9 9950X。

图片

Ryzen 9 9950X 拥有 16 个核心和 32 个线程,加速后运行速度可以高达 5.67 GHz。Zen 5 的平均每个核心指令比之前的 Ryzen 芯片以及「Genoa」Epyc 9000 系列处理器中使用的 Zen 4 核心多 16%。此外,TDP 为 170W,L2+L3 缓存为 80MB。

图片

下图为 Ryzen 9000 全系列 CPU,包括了 Ryzen 9 9950X、Ryzen 9 9900X、Ryzen 7 9700X、Ryzen 5 9600X 以及规格比较。这些产品预计今年 7 月上市

图片

AMD 给出的内部游戏测试数据显示,Ryzen 9 9950X 对游戏性能的提升幅度不一。比如在《无主之地 3》中的表现仅比英特尔 Core i9-14900K 高出 4%,在《杀手 3》中高出 6%,在《赛博朋克 2077》中高出 13%。此外,Ryzen 9 9950X 在《F1 2023》中的表现较英特尔提升了 16%,在《DOTA 2》中提升了 17%,在《地平线零之曙光》中提升了 23%。

图片

50TOPS

AMD 最强移动端 NPU 算力

苏姿丰展示了下一代 AI PC 芯片 —— 锐龙 AI 300 系列 APU(第三代)。

图片

下图为锐龙 AI 300系列芯片实拍。

图片

锐龙 AI 300 系列芯片旨在提供下一代 AI PC 体验,因而要求 NPU、CPU 和 GPU 均要达到最佳。

图片

锐龙 AI 300 系列首发提供了两款型号,锐龙 AI 9 HX 370 和锐龙 AI 9 365。下图为锐龙 AI 9 HX 370 的参数规格。

图片

锐龙 AI 300 系列采用了XDNA AI NPU,号称移动端最强 NPU,算力达 50TOPS,不仅达到了微软对新一代 AI PC「NPU 算力 40TOPS 以上」的标准,还超过了高通骁龙 X Elite 的 45TOPS、英特尔 Lunar Lake 的 40-45TOPS。

图片

AMD 表示,搭载锐龙 AI 300 系列的笔记本将于今年 7 月起陆续上市。

最高 192 核心 384 线程

第五代 EPYC 霄龙问鼎数据中心芯片

苏姿丰现场也展示了第五代「Turin」EPYC 霄龙芯片,它号称全球最强数据中心 CPU。

图片

下图为第五代 AMD 霄龙 Turin 芯片的参数规格。目前没有透露太多细节,从基础信息参数来看,Turin 具有 192 个 Zen 5 核心和 384 个线程,采用与 Genoa Epyc 9004s 相同的 SP5 插槽适配。

图片

Turin 芯片可能会被命名为 「Epyc 9005s」。可以期待的是, 在 IPC 方面,它与 Ryzen Zen 5 芯片相近。相较于 Zen 4 核心,IPC 改进可能在 15% 到 20% 之间。苏姿丰展示了 Turin 芯片的一些早期基准测试数据。

如下图所示,图上为具有 128 个核心的 Turin 芯片在 NAMD 分子动力学应用程序中运行 STMV 基准测试的性能。Turin 芯片模拟了 2000 万个原子,并计算了计算引擎在 24 小时内可以处理多少纳秒的分子相互作用。可以看到,128 核心的 Turin 芯片是 64 核心英特尔「Emerald Rapids」Xeon SP-8592 + 工作量的约 3.1 倍。

图下为基于 Meta Llama 2 7B 模型的 AI 吞吐量基准测试,该模型以 INT4 数据格式处理,推理 token 生成设置为 50 毫秒。128 核心的 Turin 芯片是英特尔竞品 CPU 性能的 2.5 倍到 5.4 倍之间,具体数值取决于工作负载。

图片

对标英伟达

AMD 的 Instinct GPU 也一年一更

讲完了 CPU,接下来的重头戏就是 Instinct GPU 了,它将是 AMD 未来产品战略的一个重要抓手。

苏姿丰表示,「Antares」MI300 系列是 AMD 历史上增长最快的产品,在 HPC 和 AI 工作负载方面的可用性看起来有点像英伟达 GPU,不过其所提供的性能优势以及 HBM 内存容量、带宽优势较为突出。

比如在推理工作负载方面,通过对 Llama 3(具有 700 亿参数)进行推理检验性能的结果来看,一台配备 8 个 MI300X GPU 的服务器性能约为一台配备 8 个 H100 GPU 加速器的英伟达 HGX 性能的 1.3 倍。而在 Mistral 7B 模型上,单个 MI300X 的性能则是英伟达 H100 GPU 的约 1.2 倍。

随后,苏姿丰公布了2024-2026 年的 Instinct GPU 路线图,今年推出 MI325X,2025 年推出 MI350,2026 年推出 MI400

图片

MI325X 将具有更大的算力规模,并转向 HBM3E 内存。下图为 MI325X 的基础性能规格,内存增加了 2 倍,最高可达 288GB;带宽增加了 30%,达到了 6TB / 秒。

图片

下图为 MI325X 的数据传输速度与英伟达 H200(141GB 内存)比较的结果。值得一提的是,1 万亿参数的模型将适配一台配有八个 MI325X 的系统主板,每个 GPU 都有 288GB 的 HBM3E 内存容量。

图片

据悉,MI325X 最快将在今年第四季度推出。不过到那时,英伟达将在该领域中凭借 B100 占据一席之地,并将大规模量产 H200。因此,AMD 感受到了危机,并且迅速行动。

这也是为什么 AMD 提前推出 MI350X 的原因,它采用了全新 CDNA 4 架构、台积电 3 纳米工艺、288 GB 的 HBM3E 内存以及 FP6、FP4 数据类型。MI350X 也将成为 AMD Instinct MI350 系列的第一款产品。

图片

在推理性能方面,CDNA 4 架构是 CDNA 3 的 35 倍。

图片

MI350 的内存容量将是英伟达 2025 年推出的 B200(Blackwell Ultra 架构)芯片的 1.5 倍,AI 计算能力是后者的 1.2 倍。

图片

AMD 这波就是奔着英伟达去的,到时候有好戏看了。

©本文为清一色官方代发,观点仅代表作者本人,与清一色无关。清一色对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议,请读者仅作参考,并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络,如侵犯到著作权人的权利,请与我们联系(微信/QQ:1074760229)。转载请注明出处:清一色财经

(0)
打赏 微信扫码打赏 微信扫码打赏 支付宝扫码打赏 支付宝扫码打赏
清一色的头像清一色管理团队
上一篇 2024年6月4日 16:08
下一篇 2024年6月4日 16:08

相关推荐

发表评论

登录后才能评论

联系我们

在线咨询:1643011589-QQbutton

手机:13798586780

QQ/微信:1074760229

QQ群:551893940

工作时间:工作日9:00-18:00,节假日休息

关注微信