开源周第三天,DeepSeek宣布开源DeepGEMM
鞭牛士 2月26日消息,DeepSeek公布开源周第三天的开源项目——DeepGEMM。

DeepGEMM 并非是一个普通的库,而是专门为实现简洁高效的 FP8 通用矩阵乘法(GEMM)而设计的。这一设计理念正如 DeepSeek-V3 中所提出的那样,具有极其出色的细粒度缩放功能。
它不仅支持普通的 GEMM,还能够完美兼容混合专家(MoE)分组的 GEMM,这使得其应用场景更加广泛。该库是采用 CUDA 进行编写的,这为其性能的优化和稳定性提供了有力的技术支撑。
在实际的安装过程中,无需进行繁琐的编译操作,而是通过使用轻量级的即时编译(JIT)模块,在运行时能够迅速编译所有内核。这种便捷的特性,大大降低了用户的使用门槛和操作难度。
FP8GEMM 库的出现,具有重大的意义,为 V3/R1 的训练和推理提供了强有力的支持。在当

DeepGEMM在英伟达Hopper系列GPU上可实现高达1350以上的FP8每秒万亿次浮点运算(TFLOPS);完全即时编译;核心逻辑代码约300行——但在大多数矩阵规模下,其性能超过了经过专家优化调整的内核;支持密集型布局以及两种混合专家(MoE)布局。
本文由设计学习网整理发布,不代表设计学习网立场,转载联系作者并注明出处.