手把手教你部署HY-1.8B-2Bit-GGUF：腾讯混元模型在CSDN的保姆级教程

#
HY
–MT
1
.5
–
1
.
8B
保姆
级
教程：从零开始
部署翻译大模型想要快速搭建一个高质量的翻译服务吗？今天我们来
手把手
教你
部署
HY
–MT
1
.5
–
1
.
8B翻译模型，这是一个只有
1
8亿参数却能达到70亿参数模型翻译效果的轻量
级模型。无论你是开发者还是技术爱好者，跟着本
教程都能在30分钟内完成
部署。这个模型支持33种语言互译，包括5种民族语言和方言，特别适合需要实时翻译的场景。我们将使用vllm进行高效
部署，用ch
ainlit构建简洁的交互界面，让你轻松体验专业
级翻译服务。
1
. 环境准备与模型下载在开始
部署之前，我们需要准备好基础环境。这个模型对硬件要求不高，甚至可以在消费
级显卡上运行。
1
.
1 系统要求与依赖安装首先确保你的系统满足以下要求：
– 操作系统：Ubuntu
1
8
.04+ 或 CentOS 7+
– Python版本：Python 3
.
8 或更高版本
– GPU内存：至少
8GB VRAM（量化后可在4GB显卡运行）
– 系统内存：至少
16GB RAM 安装必要的依赖包： “`bash # 创建虚拟环境 python
–m venv mt
–env source mt
–env/bin/activate # 安装核心依赖 pip install vllm==0
.
2
.6 ch
ainlit==
1
.0
.0 transformers==4
.35
.0 pip install torch==
2
.0
.
1+cu
1
17 torchvision==0
.
15
.
2+cu
1
17
–f https
://download
.pytorch
.org/whl/torch_stable
.html “`
1
.
2 下载模型文件
HY
–MT
1
.5
–
1
.
8B模型已经在Hugging Face上开源，我们可以直接下载： “`bash # 创建模型存储目录 mkdir
–p models/
hy
–mt
1
.5
–
1
.
8B # 使用git下载模型（需要安装git
–lfs） git lfs install git clone https
://huggingface
.co/Tencent/
HY
–MT
1
.5
–
1
.
8B models/
hy
–mt
1
.5
–
1
.
8B # 如果网络较慢，也可以使用wget逐个下载文件 # 先下载配置文件 wget
–P models/
hy
–mt
1
.5
–
1
.
8B https
://huggingface
.co/Tencent/
HY
–MT
1
.5
–
1
.
8B/raw/m
ain/config
.json “` 下载完成后，检查模型文件结构，应该包含以下主要文件：
– config
.json：模型配置文件
– pytorch_model
.bin：模型权重文件
– tokenizer
.json：分词器文件
– special_tokens_map
.json：特殊标记映射文件
2
. 使用vllm
部署模型服务 vllm是一个高性能的推理引擎，专门优化了
大语言模型的推理速度。我们将用它来
部署我们的翻译模型。
2
.
1 启动vllm服务创建启动脚本 `start_server
.py`： “`python from vllm import EngineArgs, LLMEngine, SamplingParams import argparse def start_server()
: # 设置引擎参数 engine_args = EngineArgs( model=”models/
hy
–mt
1
.5
–
1
.
8B”, tokenizer=”models/
hy
–mt
1
.5
–
1
.
8B”, tensor_parallel_size=
1, # 单GPU运行 gpu_memory_utilization=0
.
8, # GPU内存使用率 max_num_seqs=
256, # 最大序列数 max_model_len=
204
8 # 最大模型长度 ) # 创建推理引擎 engine = LLMEngine
.from_engine_args(engine_args) print(“vLLM服务器启动成功，等待请求
.
.
.“) # 简单测试 sampling_params = SamplingParams(temperature=0
.
1, max_tokens=
256) test_prompt = “将下面中文翻译成英文：你好世界” results = engine
.generate([test_prompt], sampling_params) for result in results
: print(f”测试翻译结果
: {result
.outputs[0]
.text}”) if __name__ == “__m
ain__”
: start_server() “` 或者更简单的方式，直接使用vllm命令行启动： “`bash python
–m vllm
.entrypoints
.api_server
–
–model models/
hy
–mt
1
.5
–
1
.
8B
–
–port
8000
–
–host 0
.0
.0
.0
–
–max
–num
–seqs
256
–
–gpu
–memory
–utilization 0
.
8 “` 服务启动后，你会在终端看到类似这样的输出： “` INFO 07
–
15
14
:30
:
2
2 api_server
.py
:
140] Starting API server on 0
.0
.0
.0
:
8000 INFO 07
–
15
14
:30
:
2
2 api_server
.py
:
14
1] Docs
: http
://0
.0
.0
.0
:
8000/docs “`
2
.
2 测试API服务服务启动后，我们可以测试一下API是否正常工作： “`bash # 使用curl测试翻译接口 curl
–X POST “http
://localhost
:
8000/generate”
–H “Content
–Type
: application/json”
–d ‘{ “prompt”
: “将下面中文文本翻译为英文：我爱你”, “max_tokens”
:
256, “temperature”
: 0
.
1 }’ “` 如果一切正常，你会得到类似这样的响应： “`json { “text”
: “I 元宝混元 Hunyuan 教程 love you”, “finished”
: true, “total_tokens”
:
15 } “` 3
. 使用ch
ainlit构建交互界面现在我们已经有了后端API服务，接下来用ch
ainlit构建一个美观的前端界面。 3
.
1 创建ch
ainlit应用创建 `app
.py` 文件： “`python import ch
ainlit as cl import
aiohttp import json import asyncio # vLLM服务器地址 VLLM_SERVER = “http
://localhost
:
8000″ async def call_vllm_api(prompt
: str, max_tokens
: int =
256)
–> str
: “””调用vLLM API进行翻译””” async with
aiohttp
.ClientSession() as session
: payload = { “prompt”
: prompt, “max_tokens”
: max_tokens, “temperature”
: 0
.
1, “stop”
: [” “] } try
: async with session
.post( f”{VLLM_SERVER}/generate”, json=payload, timeout=30 ) as response
: if response
.status ==
200
: result = aw
ait response
.json() return result[“text”]
.strip() else
: return f”错误：服务器返回状态码 {response
.status}” except asyncio
.TimeoutError
: return “错误：请求超时，请稍后重试” except Exception as e
: return f”错误：{str(e)}” @cl
.on_message async def m
ain(message
: cl
.Message)
: “””处理用户消息””” user_input = message
.content
.strip() if not user_input
: aw
ait cl
.Message(content=”请输入要翻译的文本”)
.send() return # 显示加载状态 msg = cl
.Message(content=””) aw
ait msg
.send() # 构建翻译提示 if “翻译” not in user_input and “translate” not in user_input
.lower()
: prompt = f”将下面文本翻译为英文：{user_input}” else
: prompt = user_input # 调用翻译API translation = aw
ait call_vllm_api(prompt) # 发送翻译结果 aw
ait cl
.Message(content=f”翻译结果：{translation}”)
.send() @cl
.on_chat_start async def start()
: “””聊天开始时发送欢迎消息””” welcome_msg = “””欢迎使用
HY
–MT
1
.5
–
1
.
8B翻译服务！支持33种语言互译，包括：
– 中文、英文、法文、德文、日文、韩文等
– 5种民族语言和方言变体你可以直接输入要翻译的文本，或者明确指定翻译方向，例如：
– “将’你好’翻译成英文”
– “Translate ‘hello’ to Chinese”
– “法语翻译：Bonjour” 现在试试输入一些文本吧！””” aw
ait cl
.Message(content=welcome_msg)
.send() if __name__ == “__m
ain__”
: cl
.run() “` 3
.
2 启动ch
ainlit服务运行以下命令启动前端界面： “`bash ch
ainlit run app
.py
–w “` 或者指定端口运行： “`bash ch
ainlit run app
.py
–
–port 7
860 “` 启动成功后，你会看到输出信息显示服务地址，通常是 http
://localhost
:7
860 4
. 验证模型服务现在让我们验证一下整个翻译服务是否正常工作。 4
.
1 打开ch
ainlit前端在浏览器中打开 http
://localhost
:7
860，你会看到一个简洁的聊天界面。系统会自动发送欢迎消息，介绍模型的功能和使用方法。界面分为三个主要部分：
– 左侧：聊天历史记录
– 中间：消息输入和显示区域
– 右侧：可选的设置和帮助信息 4
.
2 测试翻译功能在输入框中尝试不同的翻译请求：简单翻译： “` 我爱你 “` 预期结果：`I love you` 指定翻译方向： “` 将下面中文翻译成法文：你好 “` 预期结果：`Bonjour` 长文本翻译： “` 今天天气很好，我想去公园散步。天空很蓝，阳光明媚。 “` 预期结果：`The weather is very nice today, I want to go for a walk in the park
. The sky is blue and the sunshine is bright
.`
混合语言测试： “` 翻译这句话：Hello world，今天是个好日子。 “` 预期结果：`Hello world, today is a good day
.` 4
.3 高
级功能测试
HY
–MT
1
.5
–
1
.
8B还支持一些高
级功能，可以尝试：术语干预： “` 使用术语表翻译：Apple
–> 苹果公司将这句话翻译成中文：I work at Apple
. “` 预期结果会更倾向于”我在苹果公司工作”而不是”我在苹果工作”。上下文翻译： “` 上文：这是一款新产品。翻译：It has many innovative features
. “` 预期结果会保持上下文一致性。 5
. 常见问题与解决方法在
部署和使用过程中可能会遇到一些问题，这里提供常见问题的解决方法。 5
.
1 内存不足问题如果遇到GPU内存不足的错误，可以尝试量化模型： “`bash # 使用4位量化减少内存占用 python
–m vllm
.entrypoints
.api_server
–
–model models/
hy
–mT
1
.5
–
1
.
8B
–
–quantization awq
–
–gpu
–memory
–utilization 0
.6 “` 或者调整批处理大小： “`bash # 减少最大序列数 python
–m vllm
.entrypoints
.api_server
–
–model models/
hy
–mt
1
.5
–
1
.
8B
–
–max
–num
–seqs
1
2
8
–
–gpu
–memory
–utilization 0
.7 “` 5
.
2 网络连接问题如果ch
ainlit无法连接到vllm服务，检查：
1
. vllm服务是否正常启动（端口
8000）
2
. 防火墙设置是否允许本地连接 3
. 修改app
.py中的VLLM_SERVER地址 5
.3 翻译质量优化如果翻译结果不理想，可以尝试： “`python # 调整温度参数获得更确定性的结果 payload = { “prompt”
: prompt, “max_tokens”
:
256, “temperature”
: 0
.
1, # 降低温度获得更保守的翻译 “top_p”
: 0
.9, “stop”
: [” “] } “` 6
. 总结通过本
教程，我们成功
部署了
HY
–MT
1
.5
–
1
.
8B翻译模型，并构建了完整的翻译服务。这个
1
8亿参数的模型在保持高质量翻译的同时，具有更快的推理速度和更低的资源需求，非常适合实际
部署使用。主要收获：
– 学会了使用vllm高效
部署
大语言模型
– 掌握了用ch
ainlit构建交互式前端界面
– 了解了
HY
–MT
1
.5
–
1
.
8B模型的强大翻译能力
– 获得了处理实际
部署中常见问题的经验下一步建议：
1
. 尝试
部署更大的
HY
–MT
1
.5
–7B模型比较效果
2
. 集成到自己的应用中作为翻译服务 3
. 尝试微调模型以适应特定领域的翻译需求 4
. 探索模型支持的其他33种语言翻译现在你已经拥有了一个功能完整的翻译服务，可以开始在实际项目中应用了。无论是网站国际化、文档翻译还是实时对话翻译，这个方案都能提供专业
级的服务。
–
–
– > 获取更多
AI镜像 > > 想探索更多
AI镜像和应用场景？访问 [
CSDN星图镜像广场](https
://
ai
.
csdn
.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键
部署。

发布者：Ai探索者，转载请注明出处：https://javaforall.net/257533.html原文链接：https://javaforall.net

手把手教你部署HY-1.8B-2Bit-GGUF：腾讯混元模型在CSDN的保姆级教程

关于作者

Ai探索者网站注册用户

手把手教你部署HY-1.8B-2Bit-GGUF：腾讯混元模型在CSDN的保姆级教程

关于作者

Ai探索者网站注册用户

相关推荐

“龙虾”爆火，有人偷摸数钱！白岩松说，别着急，“龙虾”后面，可能还有更强大的“螃蟹”

腾讯混元3D-Omni、混元3D-Part发布并开源

【AI学习100天】Day04 对比AI工具—DeepSeek、Kimi、豆包、文心一言、通义千问

腾讯自家的混元大模型怎么样了？可能和你的印象不太一样

AI拍题t不能用

腾讯元宝评测出炉！与字节豆包各有千秋，这事儿略遗憾