DeepSeek-V3-0324新模型来袭，推理能力超GPT-4.5，MindIE部署轻松上手！

DeepSeek V3 的新版本模型 DeepSeek-V3-0324 借鉴 DeepSeek-R1 中的强化学习技术，参数量只增加至 685B，推理能力却大幅提升，在数学、代码类任务上超过GPT-4.5！相较于第一代 V3，基准测试的准确率最高提升了近 DeepSeek-V3-0324新模型来袭，推理能力超GPT-4.5，MindIE部署轻松上手！_#深度学习

MindIE 支持 DeepSeek-V3-0324 部署推理，该模型已上线魔乐社区，欢迎广大开发者下载体验！

模型链接：https://modelers.cn/models/MindIE/DeepSeek-V3-0324

新版 V3 模型有以下几大亮点：

更强的推理能力：新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术，大幅提高了在推理类任务上的表现水平，在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。
更强的前端开发能力：在 HTML 等代码前端任务上，新版 V3 模型生成的代码可用性更高，视觉效果也更加美观、富有设计感。
中文写作升级：在中文写作任务方面，新版 V3 模型基于 R1 的写作水平进行了进一步优化，同时特别提升了中长篇文本创作的内容质量。
中文搜索能力优化：新版 V3 模型可以在联网搜索场景下，对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。

5.新版 V3 模型在工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。

接下来,手把手教你在魔乐社区下载和部署模型该模型

部署 DeepSeek-V3-0324 模型用 BF16 权重进行推理至少需要 4 台 Atlas 800IA2（ DeepSeek-V3-0324新模型来袭，推理能力超GPT-4.5，MindIE部署轻松上手！_#深度学习_03 ）服务器，用 W8A8 量化权重进行推理则至少需要 2 台Atlas 800IA2 (

3.1 FP8 原始权重下载

HuggingFace：https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

Modelers：https://modelers.cn/models/Modelers_Park/DeepSeek-V3-0324 （享国内加速下载）

目前提供模型权重下载脚本，支持 HuggingFace 以及 Modelers 来源的模型下载。用法如下：

鉴于 DeepSeek-V2、V3、R1、V3-0324 系列模型结构高度相似，模块化后组图代码差异较小。为提升代码复用率并降低冗余，四个模型的共享代码模块已统一整合至 DeepSeek-V2 文件夹中。
以下引用的 atb_models 路径在 DeepSeek-V2 路径下。

确认 atb_models/build/weights_url.yaml 文件中对应 repo_id，当前已默认配置模型官方认可的 DeepSeek-V3 下载地址，如您需要使用 DeepSeek-V3-0324 或者有其他信任来源的 repo_id，可自行修改。
执行下载脚本 atb_models/build/download_weights.py:

3.2 权重转换下载（FP8 转 BF16）

NPU 侧权重转换，将 FP8 权重转换成 BF16。

注意：

DeepSeek 官方没有针对 DeepSeek-V3-0324 提供新的权重转换脚本，所以复用 DeepSeek-V2 的权重转换脚本。
若用户使用上方脚本下载权重，则无需使用以下 git clone 命令，直接进入权重转换脚本目录。

目前npu 转换脚本不会自动复制 tokenizer 等文件，需要将原始权重的tokenizer.json, tokenizer_config.json 等文件复制到转换之后的路径下。

注意：

/path/to/DeepSeek-V3-0324 表示 DeepSeek-V3-0324 原始权重路径，/path/to/DeepSeek-V3-0324-bf16 表示权重转换后的新权重路径。
由于模型权重较大，请确保您的磁盘有足够的空间放下所有权重，例如DeepSeek-V3 在转换前权重约为 640G 左右，在转换后权重约为 1.3T 左右。
推理作业时，也请确保您的设备有足够的空间加载模型权重，并为推理计算预留空间。

您也可以通过 HuggingFace 等开源社区直接下载 BF16 模型权重：

HuggingFace：https://huggingface.co/unsloth/DeepSeek-V3-0324-BF16/

Modelers: https://modelers.cn/models/Modelers Park/DeepSeek-V3-0324-BF16

3.3 W8A8 量化权重生成和下载 (BF16 转 INT8)

目前支持：生成模型 w8a8 混合量化权重，使用 histogram 量化方式 (MLA:w8a8

量化，MOE:w8a8 dynamic pertoken 量化)。

注意：DeepSeek-V3 模型权重较大，量化权重生成时间较久，请耐心等待；具体时间与校准数据集大小成正比，10 条数据大概需花费 3 小时。

昇腾原生量化 W8A8 权重下载(动态量化)

你也可以通过 Modelers 开源社区直接下载昇腾原生量化 W8A8 模型权重。链接如下。

Deepseek-V3-0324-W8A8：https://modelers.cn/models/Modelers_Park/DeepSeek-V3-0324-w8a8

修改模型文件夹属组为 1001 -HwHiAiUser 属组（容器为 Root 权限可忽视），执行权限为 750：

修改权重目录下的 config.json 文件，将 model_type 更改为 deepseekv2(全小写且无空格)。gpt 教程

注意：在本仓实现中，DeepSeek-V3-0324 目前沿用 DeepSeekV2 代码框架。

检查机器网络情况。

获取每张卡的 ip 地址

需要用户自行创建 rank_table_file.json，参考如下格式配置以下是一个双机用例，用户自行添加 ip，补全 device：

rank_table_file.json 配置完成后，需要执行命令修改权限为 640

需要使用 mindie:2.0.T3 及其后版本。

前往昇腾社区/开发资源或者魔乐社区/更多下载适配，下载镜像前需要申请权限，耐心等待权限申请通过后，根据指南下载对应镜像文件。

魔乐社区：https://modelers.cn/images/MindIE/tags

DeepSeek-V3 的镜像版本：2.0.T3-800I-A2-py311-openeuler24.03-lts
镜像加载后的名称：swr.cn-south-
1.myhuaweicloud.com/ascendhub/mindie:2.0.T3-800I-A2-py311-openeuler24.03-
lts

完成之后，请使用 docker images 命令确认查找具体镜像名称与标签。

各组件版本配套如下：

1. 启动容器

执行以下命令启动容器（参考）：

2. 进入容器

执行以下命令进入容器（参考）：

3. 设置基础环境变量

4. 开启通信环境变量

【使用场景】使用相同输入长度和相同输出长度，构造多 Batch 去测试纯模型性能

7.1 精度测试

进入 modeltest 路径

运行测试脚本
主副节点分别先清理残余进程：
需在所有机器上同时执行：

参数说明：

data_type：为数据类型，根据权重目录下 config.json 的 data_type 选择 bf16或者 fp16，例如：pa_bf16。
dataset：可选 full_BoolQ、full_CEval 等，相关数据集可至魔乐社区 MindIE 下载，（下载之前，需要申请加入组织，下载之后拷贝到/usr/local/Ascend/atb-models/tests/modeltest/路径下）CEval 与 MMLU 等数据集需要设置 shots（通常设为 5）。
batch_size：为 batch 数。
model_name：为 deepseekv2。
is_chat_model：为是否支持对话模式，若传入此参数，则进入对话模式。
weight_dir：为模型权重路径。
rank_table_file：为“前置准备”中配置的 rank_table_file.json 路径。
world_size：为总卡数。
node_num：为当前节点编号，即 rank_table_file.json 的 server_list 中顺序确定。
rank_id_start：为当前节点起始卡号，即 rank_table_file.json 中当前节点第一张卡的 rank_id，Atlas 800I-A2 双机场景下，主节点为 0，副节点为 8。
master_address：为主节点 ip 地址，即 rank_table_file.json 的 server_list 中第一个节点的 ip。
parallel_params: 接受一组输入，格式为
[dp,tp,moe_tp,moe_ep,pp,microbatch_size],如[8,1,8,-1,-1,-1]

测试脚本运行如下，以双机为例：

样例 -CEval 带 shot

主节点

副节点

样例 -GSM8K 不带 shot

主节点

副节点

7.2 性能测试

进入 modeltest 路径：
主副节点分别先清理残余进程：
需在所有机器上同时执行：

参数说明：

data_type：为数据类型，根据权重目录下 config.json 的 data_type 选择 bf1或者 fp16，例如：pa_bf16。
case_pair：[最大输入长度,最大输出长度]。
batch_size：为 batch 数。
prefill_batch_size：为可选参数，设置后会固定 prefill 的 batch size。
model_name：为 deepseekv2。
is_chat_model：为是否支持对话模式，若传入此参数，则进入对话模式。
weight_dir：为模型权重路径。
rank_table_file：为“前置准备”中配置的 rank_table_file.json 路径。
world_size：为总卡数。
node_num：为当前节点编号，即 rank_table_file.json 的
server_list 中顺序确定。
rank_id_start：为当前节点起始卡号，即 rank_table_file.json 中当前节点第一张卡的 rank_id，Atlas 800I-A2 双机场景下，主节点为 0，副节点为 8。
master_address：为主节点 ip 地址，即 rank_table_file.json 的 server_list 中第一个节点的 ip。
parallel_params: 接受一组输入，格式为
[dp,tp,moe_tp,moe_ep,pp,microbatch_size],如[8,1,8,-1,-1,-1]

测试脚本运行如下，以双机为例：

主节点

副节点

【使用场景】对标真实客户上线场景，使用不同并发、不同发送频率、不同输入长度和输出长度分布，去测试服务化性能

1. 配置服务化环境变量

变量含义：expandable_segments-使能内存池扩展段功能，即虚拟内存特性。

2. 修改服务化参数

修改以下参数

Example：仅供参考，请根据实际情况修改

3. 拉起服务化

执行命令后，首先会打印本次启动所用的所有参数，然后直到出现以下输出：

则认为服务成功启动。

4. 另起客户端

进入相同容器，向服务端发送请求。

精度化测试样例

需要开启确定性计算环境变量。

并发数需设置为 1，确保模型推理时是 1batch 输入，这样才可以和纯模型比对精度。
使用 MMLU 比对精度时，MaxOutputLen 应该设为 20，MindIE Server 的config.json 文件中 maxSeqLen 需要设置为 3600，该数据集中有约为 1.4w 条数据，推理耗时会比较长。

ModelName，ModelPath 需要与 mindie-service 里的 config.json 里的一致，master_ip设置为主节点机器的 ip。样例仅供参考，请根据实际情况调整参数。

更多常见问题和解答，请参考：https://modelers.cn/models/MindIE/DeepSeek-V3-0324/blob/main/README.md

欢迎大家下载体验 MindIE 版 DeepSeek-V3-0324，也欢迎广大开发者在模型评论区留言交流！

发布者：Ai探索者，转载请注明出处：https://javaforall.net/273150.html原文链接：https://javaforall.net

DeepSeek-V3-0324新模型来袭，推理能力超GPT-4.5，MindIE部署轻松上手！

3.1 FP8 原始权重下载

3.2 权重转换下载（FP8 转 BF16）

3.3 W8A8 量化权重生成和下载 (BF16 转 INT8)

昇腾原生量化 W8A8 权重下载(动态量化)

1. 启动容器

2. 进入容器

3. 设置基础环境变量

4. 开启通信环境变量

7.1 精度测试

7.2 性能测试

1. 配置服务化环境变量

2. 修改服务化参数

3. 拉起服务化

4. 另起客户端

精度化测试样例

关于作者

Ai探索者网站注册用户

DeepSeek-V3-0324新模型来袭，推理能力超GPT-4.5，MindIE部署轻松上手！

3.1 FP8 原始权重下载

3.2 权重转换下载 （FP8 转 BF16）

3.3 W8A8 量化权重生成和下载 (BF16 转 INT8)

昇腾原生量化 W8A8 权重下载(动态量化)

1. 启动容器

2. 进入容器

3. 设置基础环境变量

4. 开启通信环境变量

7.1 精度测试

7.2 性能测试

1. 配置服务化环境变量

2. 修改服务化参数

3. 拉起服务化

4. 另起客户端

精度化测试样例

关于作者

Ai探索者网站注册用户

相关推荐

怎么用winhex看起始扇区和分区大小

手把手教程：0.02／张接入GPT Image 1.5 API！GrsAi国内直连完整指南，速度超快

国内如何使用 GPT-4？升级 ChatGPT 4.0 的全面教程

在winhex中怎么恢复GPT格式的磁盘数据 哪种恢复方式成功率高，winhex恢复格式化的磁盘

想要通过微软 Azure 云直接调用免费的 GPT-OSS 吗？最全免费教程

Windows安装wsl虚拟机

3.2 权重转换下载（FP8 转 BF16）

在winhex中怎么恢复GPT格式的磁盘数据哪种恢复方式成功率高，winhex恢复格式化的磁盘