DeepSeek-V3-0324新模型来袭,推理能力超GPT-4.5,MindIE部署轻松上手!

DeepSeek-V3-0324新模型来袭,推理能力超GPT-4.5,MindIE部署轻松上手!

DeepSeek V3 的新版本模型 DeepSeek-V3-0324 借鉴 DeepSeek-R1 中的强化学习技术,参数量只增加至 685B,推理能力却大幅提升,在数学、代码类任务上超过GPT-4.5!相较于第一代 V3,基准测试的准确率最高提升了近 DeepSeek-V3-0324新模型来袭,推理能力超GPT-4.5,MindIE部署轻松上手!_#深度学习

MindIE 支持 DeepSeek-V3-0324 部署推理,该模型已上线魔乐社区,欢迎广大开发者下载体验!

模型链接:https://modelers.cn/models/MindIE/DeepSeek-V3-0324

新版 V3 模型有以下几大亮点:

  1. 更强的推理能力:新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。
  2. 更强的前端开发能力:在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。
  3. 中文写作升级:在中文写作任务方面,新版 V3 模型基于 R1 的写作水平进行了进一步优化,同时特别提升了中长篇文本创作的内容质量。
  4. 中文搜索能力优化:新版 V3 模型可以在联网搜索场景下,对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。

5.新版 V3 模型在工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。

接下来,手把手教你在魔乐社区下载和部署模型该模型

部署 DeepSeek-V3-0324 模型用 BF16 权重进行推理至少需要 4 台 Atlas 800IA2( DeepSeek-V3-0324新模型来袭,推理能力超GPT-4.5,MindIE部署轻松上手!_#深度学习_03 )服务器,用 W8A8 量化权重进行推理则至少需要 2 台Atlas 800IA2 ( DeepSeek-V3-0324新模型来袭,推理能力超GPT-4.5,MindIE部署轻松上手!_权重_04

3.1 FP8 原始权重下载

HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

Modelers:https://modelers.cn/models/Modelers_Park/DeepSeek-V3-0324 (享国内加速下载)

目前提供模型权重下载脚本,支持 HuggingFace 以及 Modelers 来源的模型下载。用法如下:

  • 鉴于 DeepSeek-V2、V3、R1、V3-0324 系列模型结构高度相似,模块化后组图代码差异较小。为提升代码复用率并降低冗余,四个模型的共享代码模块已统一整合至 DeepSeek-V2 文件夹中。
  • 以下引用的 atb_models 路径在 DeepSeek-V2 路径下。
  1. 确认 atb_models/build/weights_url.yaml 文件中对应 repo_id,当前已默认配置模型官方认可的 DeepSeek-V3 下载地址,如您需要使用 DeepSeek-V3-0324 或者有其他信任来源的 repo_id,可自行修改。
  2. 执行下载脚本 atb_models/build/download_weights.py:

3.2 权重转换下载 (FP8 转 BF16)

NPU 侧权重转换,将 FP8 权重转换成 BF16。

注意:

  • DeepSeek 官方没有针对 DeepSeek-V3-0324 提供新的权重转换脚本,所以复用 DeepSeek-V2 的权重转换脚本。
  • 若用户使用上方脚本下载权重,则无需使用以下 git clone 命令,直接进入权重转换脚本目录。

目前npu 转换脚本不会自动复制 tokenizer 等文件,需要将原始权重的tokenizer.json, tokenizer_config.json 等文件复制到转换之后的路径下。

注意:

  • /path/to/DeepSeek-V3-0324 表示 DeepSeek-V3-0324 原始权重路径,/path/to/DeepSeek-V3-0324-bf16 表示权重转换后的新权重路径。
  • 由于模型权重较大,请确保您的磁盘有足够的空间放下所有权重,例如DeepSeek-V3 在转换前权重约为 640G 左右,在转换后权重约为 1.3T 左右。
  • 推理作业时,也请确保您的设备有足够的空间加载模型权重,并为推理计算预留空间。

您也可以通过 HuggingFace 等开源社区直接下载 BF16 模型权重:

HuggingFace:https://huggingface.co/unsloth/DeepSeek-V3-0324-BF16/

Modelers: https://modelers.cn/models/Modelers Park/DeepSeek-V3-0324-BF16

3.3 W8A8 量化权重生成和下载 (BF16 转 INT8)

目前支持:生成模型 w8a8 混合量化权重,使用 histogram 量化方式 (MLA:w8a8

量化,MOE:w8a8 dynamic pertoken 量化)。

注意:DeepSeek-V3 模型权重较大,量化权重生成时间较久,请耐心等待;具体时间与校准数据集大小成正比,10 条数据大概需花费 3 小时。

昇腾原生量化 W8A8 权重下载(动态量化)

你也可以通过 Modelers 开源社区直接下载昇腾原生量化 W8A8 模型权重。链接如下。

Deepseek-V3-0324-W8A8:https://modelers.cn/models/Modelers_Park/DeepSeek-V3-0324-w8a8

  1. 修改模型文件夹属组为 1001 -HwHiAiUser 属组(容器为 Root 权限可忽视),执行权限为 750:
  1. 修改权重目录下的 config.json 文件,将 model_type 更改为 deepseekv2(全小写且无空格)。gpt 教程

注意:在本仓实现中,DeepSeek-V3-0324 目前沿用 DeepSeekV2 代码框架。

  1. 检查机器网络情况。
  1. 获取每张卡的 ip 地址
  1. 需要用户自行创建 rank_table_file.json,参考如下格式配置以下是一个双机用例,用户自行添加 ip,补全 device:
  1. rank_table_file.json 配置完成后,需要执行命令修改权限为 640

需要使用 mindie:2.0.T3 及其后版本。

前往昇腾社区/开发资源或者魔乐社区/更多下载适配,下载镜像前需要申请权限,耐心等待权限申请通过后,根据指南下载对应镜像文件。

魔乐社区:https://modelers.cn/images/MindIE/tags

  • DeepSeek-V3 的镜像版本:2.0.T3-800I-A2-py311-openeuler24.03-lts
  • 镜像加载后的名称:swr.cn-south-
    1.myhuaweicloud.com/ascendhub/mindie:2.0.T3-800I-A2-py311-openeuler24.03-
    lts

完成之后,请使用 docker images 命令确认查找具体镜像名称与标签。

各组件版本配套如下:

1. 启动容器

执行以下命令启动容器(参考):

2. 进入容器

执行以下命令进入容器(参考):

3. 设置基础环境变量

4. 开启通信环境变量

【使用场景】使用相同输入长度和相同输出长度,构造多 Batch 去测试纯模型性能

7.1 精度测试

  1. 进入 modeltest 路径
  1. 运行测试脚本
  2. 主副节点分别先清理残余进程:
  3. 需在所有机器上同时执行:

参数说明:

  • data_type:为数据类型,根据权重目录下 config.json 的 data_type 选择 bf16或者 fp16,例如:pa_bf16。
  • dataset:可选 full_BoolQ、full_CEval 等,相关数据集可至魔乐社区 MindIE 下载,(下载之前,需要申请加入组织,下载之后拷贝到/usr/local/Ascend/atb-models/tests/modeltest/路径下)CEval 与 MMLU 等数据集需要设置 shots(通常设为 5)。
  • batch_size:为 batch 数。
  • model_name:为 deepseekv2。
  • is_chat_model:为是否支持对话模式,若传入此参数,则进入对话模式。
  • weight_dir:为模型权重路径。
  • rank_table_file:为“前置准备”中配置的 rank_table_file.json 路径。
  • world_size:为总卡数。
  • node_num:为当前节点编号,即 rank_table_file.json 的 server_list 中顺序确定。
  • rank_id_start:为当前节点起始卡号,即 rank_table_file.json 中当前节点第一张卡的 rank_id,Atlas 800I-A2 双机场景下,主节点为 0,副节点为 8。
  • master_address:为主节点 ip 地址,即 rank_table_file.json 的 server_list 中第一个节点的 ip。
  • parallel_params: 接受一组输入,格式为
    [dp,tp,moe_tp,moe_ep,pp,microbatch_size],如[8,1,8,-1,-1,-1]

测试脚本运行如下,以双机为例:

样例 -CEval 带 shot

主节点

副节点

样例 -GSM8K 不带 shot

主节点

副节点

7.2 性能测试

  1. 进入 modeltest 路径:
  2. 主副节点分别先清理残余进程:
  3. 需在所有机器上同时执行:

参数说明:

  • data_type:为数据类型,根据权重目录下 config.json 的 data_type 选择 bf1或者 fp16,例如:pa_bf16。
  • case_pair:[最大输入长度,最大输出长度]。
  • batch_size:为 batch 数。
  • prefill_batch_size:为可选参数,设置后会固定 prefill 的 batch size。
  • model_name:为 deepseekv2。
  • is_chat_model:为是否支持对话模式,若传入此参数,则进入对话模式。
  • weight_dir:为模型权重路径。
  • rank_table_file:为“前置准备”中配置的 rank_table_file.json 路径。
  • world_size:为总卡数。
  • node_num:为当前节点编号,即 rank_table_file.json 的
    server_list 中顺序确定。
    rank_id_start:为当前节点起始卡号,即 rank_table_file.json 中当前节点第一张卡的 rank_id,Atlas 800I-A2 双机场景下,主节点为 0,副节点为 8。

  • master_address:为主节点 ip 地址,即 rank_table_file.json 的 server_list 中第一个节点的 ip。
  • parallel_params: 接受一组输入,格式为
    [dp,tp,moe_tp,moe_ep,pp,microbatch_size],如[8,1,8,-1,-1,-1]

测试脚本运行如下,以双机为例:

主节点

副节点

【使用场景】对标真实客户上线场景,使用不同并发、不同发送频率、不同输入长度和输出长度分布,去测试服务化性能

1. 配置服务化环境变量

变量含义:expandable_segments-使能内存池扩展段功能,即虚拟内存特性。

2. 修改服务化参数

修改以下参数

Example:仅供参考,请根据实际情况修改

3. 拉起服务化

执行命令后,首先会打印本次启动所用的所有参数,然后直到出现以下输出:

则认为服务成功启动。

4. 另起客户端

进入相同容器,向服务端发送请求。

精度化测试样例

需要开启确定性计算环境变量。

  • 并发数需设置为 1,确保模型推理时是 1batch 输入,这样才可以和纯模型比对精度。
  • 使用 MMLU 比对精度时,MaxOutputLen 应该设为 20,MindIE Server 的config.json 文件中 maxSeqLen 需要设置为 3600,该数据集中有约为 1.4w 条数据,推理耗时会比较长。

ModelName,ModelPath 需要与 mindie-service 里的 config.json 里的一致,master_ip设置为主节点机器的 ip。样例仅供参考,请根据实际情况调整参数。

更多常见问题和解答,请参考:https://modelers.cn/models/MindIE/DeepSeek-V3-0324/blob/main/README.md

欢迎大家下载体验 MindIE 版 DeepSeek-V3-0324,也欢迎广大开发者在模型评论区留言交流!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/273150.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午1:01
下一篇 2026年3月12日 下午1:02


相关推荐

关注全栈程序员社区公众号