AMD Instinct数据核心GPU第一光阴支撑DeepSeek!FP8高机

日期:2025-02-11 浏览:

快科技2月10日新闻,DeepSeek年夜模子火遍国内外,AMD Instinct数据核心GPU第一时光实现了对最新版DeepSeek V3的支撑,而且集成了SGLang推理框架优化,从而供给最佳机能。据先容,DeepSeek-V3是一种强盛的开源混杂专家MoE模子,共有6710亿个参数,是现在开源社区最受欢送的多模态模子之一,凭仗翻新的模子架构,攻破了高效低本钱练习的记载,取得全部行业交口称颂。DeepSeek-V3不只相沿了此前DeepSeek V2中的多头潜伏留神力机制MLA、MoE架构,还首创了无帮助丧失的负载均衡战略,并设定了多token猜测练习目的,以进步机能。现在,DeepSeek-V3在浩繁主流基准测试中的表示都已比肩天下顶级开源、闭源模子,包含GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等等,尤其是领有超强的长文本处置、数学及代码编程才能。AMD ROCm开源软件、AMD Instinct数据核心GPU减速器软硬结合,形成了强盛的基本设备,在DeepSeek-V3开辟的要害阶段施展了主要感化,再次证实了AMD对开源AI软件的许诺,也能辅助开辟者打造强盛的视觉推理跟懂得利用。DeepSeek-V3的另一年夜亮点是采取FP8低精度练习,而AMD ROCm平台对FP8的支撑,明显改良了年夜模子的盘算进程,尤其是推感性能的晋升。经由过程支撑FP8,AMD ROCm十分高效地处理了内存瓶颈、更多读写格局高耽误等成绩,能够在必定的硬件限度内,运转更年夜的模子或批次。相较于FP16,FP8精度盘算能够明显增加数据传输跟盘算的耽误,实现更高效地练习跟推理。乘着DeepSeek的春风,AMD将持续推动ROCm开源开辟生态,确保开辟者能在第一时光基于AMD Instinct数据核心GPU从事DeepSeek相干的开辟跟利用任务,实现最佳机能跟扩大性。AMD官方博客传递门:https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html附录:AMD Instinct数据核心GPU应用SGLang推理简略教程——开辟者可拜访https://github.com/sgl-project/sglang/releases,获取SGLang对DeepSeek-V3模子推理的完全支撑。创立ROCm Docker镜像1、启动Docker容器:docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host \\      --device=/dev/kfd   --device=/dev/dri    --security-opt seccomp=unconfined \\       --group-add video  --privileged  -w /workspacelmsysorg/sglang:v0.4.1.post4-rocm6202、开端应用: 1)登录Hugging Face:应用CLI登录Hugging Face: huggingface-cli login 2)启动SGLang效劳器: 在当地呆板上启动一个效劳器来托管DeepSeekV3 FP8模子: python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 -- port 30000 --tp 8 --trust-remote-code 3)天生文本: 在效劳器运转后,翻开另一个终端并发送恳求天生文本: curl http://localhost:30000/generate \    -H Content-Type: application/json \    -d {        text : Once upon a time, ,        sampling_params : {          max_new_tokens : 16,          temperature : 0        }      } 3、机能基准测试:单批次吞吐量跟耽误:python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code效劳器:python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codepython3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8精度:0.952有效:0.000留神:因为DeepSeek-v3原生为FP8 练习,且现在仅供给 FP8 权重,假如用户须要 BF16 权重停止试验,能够应用供给的转换剧本停止转换。以下是将 FP8 权重转换为 BF16 的示例:cd inferencepython fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights【本文停止】如需转载请务必注明出处:快科技义务编纂:上方文Q

0
首页
电话
短信
联系