快科技2月10日新闻,DeepSeek年夜模子火遍国内外,AMD Instinct数据核心GPU第一时光实现了对最新版DeepSeek V3的支撑,而且集成了SGLang推理框架优化,从而供给最佳机能。据先容,DeepSeek-V3是一种强盛的开源混杂专家MoE模子,共有6710亿个参数,是现在开源社区最受欢送的多模态模子之一,凭仗翻新的模子架构,攻破了高效低本钱练习的记载,取得全部行业交口称颂。DeepSeek-V3不只相沿了此前DeepSeek V2中的多头潜伏留神力机制MLA、MoE架构,还首创了无帮助丧失的负载均衡战略,并设定了多token猜测练习目的,以进步机能。现在,DeepSeek-V3在浩繁主流基准测试中的表示都已比肩天下顶级开源、闭源模子,包含GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等等,尤其是领有超强的长文本处置、数学及代码编程才能。AMD ROCm开源软件、AMD Instinct数据核心GPU减速器软硬结合,形成了强盛的基本设备,在DeepSeek-V3开辟的要害阶段施展了主要感化,再次证实了AMD对开源AI软件的许诺,也能辅助开辟者打造强盛的视觉推理跟懂得利用。DeepSeek-V3的另一年夜亮点是采取FP8低精度练习,而AMD ROCm平台对FP8的支撑,明显改良了年夜模子的盘算进程,尤其是推感性能的晋升。经由过程支撑FP8,AMD ROCm十分高效地处理了内存瓶颈、更多读写格局高耽误等成绩,能够在必定的硬件限度内,运转更年夜的模子或批次。相较于FP16,FP8精度盘算能够明显增加数据传输跟盘算的耽误,实现更高效地练习跟推理。乘着DeepSeek的春风,AMD将持续推动ROCm开源开辟生态,确保开辟者能在第一时光基于AMD Instinct数据核心GPU从事DeepSeek相干的开辟跟利用任务,实现最佳机能跟扩大性。AMD官方博客传递门:https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html附录:AMD Instinct数据核心GPU应用SGLang推理简略教程——开辟者可拜访https://github.com/sgl-project/sglang/releases,获取SGLang对DeepSeek-V3模子推理的完全支撑。创立ROCm Docker镜像1、启动Docker容器:docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host \\ --device=/dev/kfd --device=/dev/dri --security-opt seccomp=unconfined \\ --group-add video --privileged -w /workspacelmsysorg/sglang:v0.4.1.post4-rocm6202、开端应用: 1)登录Hugging Face:应用CLI登录Hugging Face: huggingface-cli login 2)启动SGLang效劳器: 在当地呆板上启动一个效劳器来托管DeepSeekV3 FP8模子: python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 -- port 30000 --tp 8 --trust-remote-code 3)天生文本: 在效劳器运转后,翻开另一个终端并发送恳求天生文本: curl http://localhost:30000/generate \ -H Content-Type: application/json \ -d { text : Once upon a time, , sampling_params : { max_new_tokens : 16, temperature : 0 } } 3、机能基准测试:单批次吞吐量跟耽误:python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code效劳器:python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codepython3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8精度:0.952有效:0.000留神:因为DeepSeek-v3原生为FP8 练习,且现在仅供给 FP8 权重,假如用户须要 BF16 权重停止试验,能够应用供给的转换剧本停止转换。以下是将 FP8 权重转换为 BF16 的示例:cd inferencepython fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights【本文停止】如需转载请务必注明出处:快科技义务编纂:上方文Q