当前位置:首页 > 生活小窍门 > 正文

DeepSeek现已发布FlashMLA AI推理速度再提升!

在AI技术飞速发展的今天,大模型已成为推动人工智能应用落地的核心引擎。然而,随着模型规模的不断扩大,推理效率低、资源消耗高等问题也逐渐凸显。为了解决这一行业痛点,2025年2月24日,深度求索(DeepSeek)在首届“开源周”活动上,正式发布了首个开源代码库——FlashMLA

DeepSeek现已发布FlashMLA AI推理速度再提升!

1

DeepSeek现已发布FlashMLA AI推理速度再提升!

2

什么是 FlashMLA?

FlashMLA 是一个能让大语言模型在 H800这样的GPU上跑得更快、更高效的优化方案,尤其适用于高性能AI任务。这一代码能够加速大语言模型的解码过程,从而提高模型的响应速度和吞吐量,这对于实时生成任务(如聊天机器人、文本生成等)尤为重要。

3

DeepSeek现已发布FlashMLA AI推理速度再提升!

FlashMLA的用处

1.算力调用提升,降本增效

具体来说,FlashMLA可以突破GPU算力瓶颈,降低成本。传统解码方法在处理不同长度的序列(如翻译不同长度的输入文本)时,GPU的并行计算能力会被浪费,就像用卡车运小包裹,大部分空间闲置。而FlashMLA的改进是:通过动态调度和内存优化,将Hopper GPU(如H100)的算力“榨干”,相同硬件下吞吐量显著提升。这意味着用户可以调用更少的GPU来完成同样的任务,大幅降低了推理成本。

4

DeepSeek现已发布FlashMLA AI推理速度再提升!

2.推理速度提升

经 DeepSeek 实测,FlashMLA 在 H800 SXM5 平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS,可谓是速度提升巨大。

FlashMLA 的使用场景

实时生成任务:如聊天机器人、文本生成、实时翻译等需要低延迟、高吞吐量的场景。

大模型推理加速:适用于 GPT、BERT 等大规模语言模型的推理任务。

节约推理成本:通过减少 GPU 使用量,显著降低推理成本,适合中小企业或硬件资源有限的环境。

5

DeepSeek现已发布FlashMLA AI推理速度再提升!

目前该项目已支持在GITHUB上下载,想要体验的同学可以通过下方地址自行搭载哦~

https://github.com/deepseek-ai/FlashMLA,参数如下图所示;

6

DeepSeek现已发布FlashMLA AI推理速度再提升!

当然,手握消费级显卡的小伙伴也不要灰心~合理运用PC硬件,本地部署一套DeepSeek-R1(INT-4)模型用来办公、学习也是不错的选择!当然,最好是使用影驰最新推出的GeForce RTX 50系列显卡来进行本地部署!

7

DeepSeek现已发布FlashMLA AI推理速度再提升!

影驰GeForce RTX 50系列显卡采用NVIDIA全新Blackwell架构,搭载第二代Transformer 引擎,支持4位浮点 (FP4) AI,从而加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练!选择它们作为你的生产力显卡,可以说是再合适不过!欢迎各位小伙伴们前往影驰官方商城选购哦~

有话要说...