cos 足交 创业界新高!联念念 AMD AI 劳动器单机部署满血版 DeepSeek 大模子,极限总隐约高达 6708 token / s
今天cos 足交,联念念晓示旗下首款 AMD AI 大模子历练劳动器联念念问天 WA7785a G3 在单机部署 671B(满血版) DeepSeek 大模子时,可罢了极限隐约量 6708token / s,将单台劳动器启动大模子的性能推向了新高,充分展现了联念念在 AI 基础要领领域工夫的深厚积淀与研发的快速反映材干。在 AI 算力竞争日趋尖锐化的今天,联念念再次以硬核工夫实力建造了行业新标杆。
软硬协同打造业界性能新标杆
依托联念念万全异构智算平台,联念念通过访存优化、显存优化、PCIe 5.0 全互联架构立异以及精选 SGLang 框架中性能最优算子等诸多立异表情,对大模子从预历练、后历练到推理的全历程进行握续优化,在单台部署 DeepSeek 671B 大模子的联念念问天 WA7785a G3 上实测最高隐约量达 6708 token / s。

]article_adlist-->
AI识股
在模拟问题对话场景(高下文序列长度 128/1K)时,最高可支握并发数 158,TPOT 93 毫秒,TTFT 2.01 秒;而在模拟代码生成(高下文序列长度 512/4K )时,并发数可达 140,小色网TPOT 100 毫秒,TTFT 5.53 秒。
这一收成意味着单台联念念问天 WA7785a G3 不错支握 1500 东说念主领域企业的往往使用,是继联念念问天 WA7780 G3 劳动器单机部署满血版 DeepSeek 大模子总隐约量打破 2500 token / s 之后,单机部署该大模子推感性能的又一次打破。
这次打破是联念念中国基础要领业务群、联念念究诘院 ICI 履行室和 AMD 酌量策画、协同调优、共同罢了的。此收尾也并非最终收尾,联念念与 AMD 还在握续尝试深度调优新步伐。罢了更高调优打破。
硬核成就构筑宽阔 DeepSeek 算力底座
联念念问天 WA7785a G3 劳动器是联念念与 AMD 两边深度合作的贤达结晶,恰是两边贯彻历久带来的工夫立异、软硬协同材插手架构打破为 DeepSeek-R1 满血版大模子插上性能起飞的翅膀。
宽阔算力引擎:联念念问天 WA7785a G3 搭载了 2 颗 AMD 措置器和 8 颗 AMD 新一代 Instinct OAM GPU,它们为大模子历练、推理等场景提供了宽阔的算力引擎。
第四色空婷婷超大显存上风:WA7785a G3 领有超大的显存容量,单颗 GPU 的 HBM3e 显存容量高达 192GB,推测达 1.5TB。超大显存使得单机支握全量模子推理情况下,仍保留裕如的 KV 缓存空间。而其显存带宽达到了惊东说念主的 5.3TB/s,GPU 团员带宽达 896GB/s,节点间收罗带宽 3.2TB/s,更高的带宽可为推厚实码罢了极致加快,充分得志了大模子并行推测时对跨节点通讯的高带宽需求,使其成为用户首选大模子推理劳动器。
特有立异架构:联念念问天 WA7785a G3 的特有架构策画也为最猛进度地开释算力潜能、打破带宽规章说明了要津作用,其三重闲隙风说念策画差别针对 CPU 节点、GPU 节点和交换机节点进行精确散热限度,进步了散热成果,为劳动器的厚实性和可靠性提供了有劲保险。
改日,联念念将握续深入与产业伙伴的工夫配合,通过架构立异、算法优化与硬件工夫立异,不断打破性能规模,为各行业提供更高密度、更粗劣耗、更易部署的 AI 算力基础要领,鼓舞 AI 算力向更高效、更普惠、更可握续的标的演进cos 足交,助力中国智算产业的握续发展。
