中昊芯英发布了其新一代 TPU 芯片「须臾」,该芯片的单芯片混合精度浮点算力达到了 896 TFLOPS,相较于上一代「刹那」芯片,性能提升了三倍。在 8-bit 推理方面,算力可达 1792TOPS,能够应对大规模词元的高并发推理需求。
「须臾」芯片在显存容量和芯片内部互联速率方面均有显著增强,并支持超长上下文处理。其单卡额定功耗为 600W,相比传统算力芯片,功耗降低了 50%,有助于推动低碳数据中心的建设。
该芯片的所有 IP 核、专用指令集、底层算子加速库以及整机系统软件均由中昊芯英自主研发,不依赖任何海外核心技术,因此能够满足政务、金融、电网等行业的安全合规要求。
同期发布的「泰则 2.0」是高性能智算平台中的基础计算单元,集成了两颗高性能 CPU 处理器和八颗高性能 TPU 处理单元。从物理形态上看,它由一台通用 CPU 服务器连接一台高性能 TPU 算力加速设备构成,总算力可达 7.168 PFLOPS(混合精度)。在执行相同任务时,其整体能耗仅为传统 GPU 服务器的 80%。
在软件层面,「泰则 2.0」平台实现了对所有主流 AI 框架的兼容,原生支持 PyTorch、vLLM、SGLang 等开发工具。在模型训练方面,它适配了 DeepSpeed 和 Megatron-LM 分布式套件。该平台已深度适配了 Qwen 系列、DeepSeek、GLM、MiniMAX 等数十款大语言和多模态模型,方便开发者快速迁移模型。


