界面新闻记者 | 宋佳楠
2月28日,国内AI明星公司DeepSeek为期五天的 “开源周 ” 告一段落 。其于2月24日正式启动 ,计划开源5个代码库,旨在以完全透明的方式与全球开发者社区分享其在通用人工智能(AGI)领域的研究进展。
回顾这五日,其最先开源的是FlashMLA ,这是专为英伟达Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列设计。
在自然语言处理等任务里,数据序列长度不一 ,传统处理方式会造成算力浪费 。而FlashMLA如同智能交通调度员,能依据序列长度动态调配计算资源。例如在同时处理长文本和短文本时,它可以精准地为不同长度的文本分配恰当的算力 ,避免 “大马拉小车” 或资源不足的情况。发布6小时内,GitHub上收藏量突破5000次,被认为对国产GPU性能提升意义重大 。
第二日开源的是DeepEP。DeepEP是首个用于MoE(混合专家模型)训练和推理的开源EP通信库。MoE模型训练和推理中,不同专家模型需高效协作 ,这对通信效率要求极高 。DeepEP支持优化的全对全通信模式,就像构建了一条顺畅的高速公路,让数据在各个节点间高效传输。
它还原生支持FP8低精度运算调度 ,降低计算资源消耗,并且在节点内和节点间都支持NVLink和RDMA,拥有用于训练和推理预填充的高吞吐量内核以及用于推理解码的低延迟内核。简单来说 ,它让MoE模型各部分间沟通更快、消耗更少,提升了整体运行效率 。
第三日是DeepGEMM,矩阵乘法加速库,为V3/R1的训练和推理提供支持 。通用矩阵乘法是众多高性能计算任务的核心 ,其性能优化是大模型降本增效的关键。DeepGEMM采用了DeepSeek-V3中提出的细粒度scaling技术,仅用300行代码就实现了简洁高效的FP8通用矩阵乘法。
它支持普通GEMM以及专家混合(MoE)分组GEMM,在Hopper GPU上最高可达到1350+ FP8 TFLOPS(每秒万亿次浮点运算)的计算性能,在各种矩阵形状上的性能与专家调优的库相当 ,甚至在某些情况下更优,且安装时无需编译,通过轻量级JIT模块在运行时编译所有内核 。
第四日开源优化并行策略(DualPipe和EPLB)。DualPipe是一种用于V3/R1训练中计算与通信重叠的双向管道并行算法。以往的管道并行存在 “气泡” 问题 ,即计算和通信阶段存在等待时间,造成资源浪费 。DualPipe通过实现 “向前” 与 “向后 ” 计算通信阶段的双向重叠,将硬件资源利用率提升超30%。
EPLB则是一种针对V3/R1的专家并行负载均衡器。基于混合专家(MoE)架构 ,它通过冗余专家策略复制高负载专家,并结合启发式分配算法优化GPU间的负载分布,减少GPU闲置现象 。
在第五日 ,DeepSeep开源了面向全数据访问的推进器3FS,也就是Fire-Flyer文件系统。它是一个专门为了充分利用现代SSD和RDMA网络带宽而设计的并行文件系统,能实现高速数据访问 ,提升AI模型训练和推理的效率。
此外,DeepSeek还开源了基于3FS的数据处理框架Smallpond,它可以进一步优化3FS的数据管理能力,让数据处理更加方便 、快捷 。
全球开发者可基于上述开源项目进行二次开发与改进 ,有望推动AI技术在更多领域的应用。
科技早报 | DeepSeek据悉力求提前发布R2模型;阿里云视频生成大模型万相2.1开源|界面新闻 · 科技
智谱完成超10亿元战略融资,即将发布全新大模型并开源|界面新闻 · 科技
阿里凌晨开源新模型:性能对标DeepSeek-R1,参数仅为其1/20|界面新闻 · 科技
DeepSeek开源生态全面引爆,科技股的重估还会带动哪些相关行业?|界面新闻 · 证券
自称是“小团队”的DeepSeek下周起再开源5个代码库|界面新闻 · 科技
科技早报 | 阿里发布开源全新模型;Manus被质疑“饥饿营销+套壳炒作”|界面新闻 · 科技
科技早报 | 马斯克的Grok 3即将发布;腾讯回应微信接入DeepSeek|界面新闻 · 科技
DeepSeek概念公司云从科技发布业绩快报,去年净亏损6.37亿元|界面新闻 · 证券
还没有评论,来说两句吧...