联想问天WA7785aG3:首款AMDAI服务器刷新大模型推理极限吞吐量6708tokens—秒和毫秒之间的换算
在科技的浪潮中,联想显然不甘人后。3月17日下午,联想正式发布了其首款AMDAI大模型训练服务器——联想问天WA7785aG3,该设备在单机部署满血版DeepSeek大模型时,创下了令人瞩目的吞吐量记录:6708token/s。这一壮举不仅推高了服务器在大模型运行中的性能标准,也为企业级AI应用打开了新的大门。
依托联想万全异构智算平台,该服务器的成功,不仅因为其强大的硬件配置,同时还得益于多项创新,例如访存优化、显存优化、PCIe 5.0全互联架构的革新以及在SGLang框架中精心挑选的算子优化。这一系列技术革新确保了在预训练、后训练到推理的全流程中,均能持续提升性能。
在多种模拟场景下,联想问天WA7785aG3的表现堪称卓越。在处理上下文序列长度为128到1K的问题对话时,最高支持并发数达到158,TPOT为93毫秒,而TTFT为2.01秒;在处理代码生成(上下文序列长度512到4K)时,支持的并发数可达140,TPOT为100毫秒,TTFT则为5.53秒。这意味着,单台联想问天WA7785aG3可以轻松支撑一个1500人规模企业的正常使用需求。
这次的技术突破,除了体现了联想在AI算力领域的持续进步,也标志着与AMD的紧密合作不断深化。联想方面表示,与AMD的合作涉及共同设计、协同调优,全力追求更高性能的目标。
值得注意的是,这一成果并不是终点,联想与AMD正加紧努力探索更深度的调优新方法,力求在未来实现更高的性能突破。联想的野心显然并不止于此,它希望通过这一系列的努力,将科技的前沿推向新的巅峰,让智能变得触手可及,为企业用户提供更灵活、高效的AI解决方案,助力各行业更快适应数字化转型的浪潮。返回搜狐,查看更多