AMD Instinct数据核心GPU第一光阴支撑DeepSeek！FP8高机

日期：2025-02-11 浏览：

快科技2月10日新闻，DeepSeek年夜模子火遍国内外，AMD Instinct数据核心GPU第一时光实现了对最新版DeepSeek V3的支撑，而且集成了SGLang推理框架优化，从而供给最佳机能。据先容，DeepSeek-V3是一种强盛的开源混杂专家MoE模子，共有6710亿个参数，是现在开源社区最受欢送的多模态模子之一，凭仗翻新的模子架构，攻破了高效低本钱练习的记载，取得全部行业交口称颂。DeepSeek-V3不只相沿了此前DeepSeek V2中的多头潜伏留神力机制MLA、MoE架构，还首创了无帮助丧失的负载均衡战略，并设定了多token猜测练习目的，以进步机能。现在，DeepSeek-V3在浩繁主流基准测试中的表示都已比肩天下顶级开源、闭源模子，包含GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等等，尤其是领有超强的长文本处置、数学及代码编程才能。AMD ROCm开源软件、AMD Instinct数据核心GPU减速器软硬结合，形成了强盛的基本设备，在DeepSeek-V3开辟的要害阶段施展了主要感化，再次证实了AMD对开源AI软件的许诺，也能辅助开辟者打造强盛的视觉推理跟懂得利用。DeepSeek-V3的另一年夜亮点是采取FP8低精度练习，而AMD ROCm平台对FP8的支撑，明显改良了年夜模子的盘算进程，尤其是推感性能的晋升。经由过程支撑FP8，AMD ROCm十分高效地处理了内存瓶颈、更多读写格局高耽误等成绩，能够在必定的硬件限度内，运转更年夜的模子或批次。相较于FP16，FP8精度盘算能够明显增加数据传输跟盘算的耽误，实现更高效地练习跟推理。乘着DeepSeek的春风，AMD将持续推动ROCm开源开辟生态，确保开辟者能在第一时光基于AMD Instinct数据核心GPU从事DeepSeek相干的开辟跟利用任务，实现最佳机能跟扩大性。AMD官方博客传递门：https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html附录：AMD Instinct数据核心GPU应用SGLang推理简略教程——开辟者可拜访https://github.com/sgl-project/sglang/releases，获取SGLang对DeepSeek-V3模子推理的完全支撑。创立ROCm Docker镜像1、启动Docker容器：docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host \\ --device=/dev/kfd --device=/dev/dri --security-opt seccomp=unconfined \\ --group-add video --privileged -w /workspacelmsysorg/sglang:v0.4.1.post4-rocm6202、开端应用： 1)登录Hugging Face：应用CLI登录Hugging Face： huggingface-cli login 2)启动SGLang效劳器：在当地呆板上启动一个效劳器来托管DeepSeekV3 FP8模子： python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 -- port 30000 --tp 8 --trust-remote-code 3)天生文本：在效劳器运转后，翻开另一个终端并发送恳求天生文本： curl http://localhost:30000/generate \ -H Content-Type: application/json \ -d { text : Once upon a time, , sampling_params : { max_new_tokens : 16, temperature : 0 } } 3、机能基准测试：单批次吞吐量跟耽误：python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code效劳器：python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codepython3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8精度：0.952有效：0.000留神：因为DeepSeek-v3原生为FP8 练习，且现在仅供给 FP8 权重，假如用户须要 BF16 权重停止试验，能够应用供给的转换剧本停止转换。以下是将 FP8 权重转换为 BF16 的示例：cd inferencepython fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights【本文停止】如需转载请务必注明出处：快科技义务编纂：上方文Q

AMD Instinct数据核心GPU第一光阴支撑DeepSeek！FP8高机

推荐阅读