130亿参数开源之巅！HunyuanVideo本地部署教程：导演级运镜 × 物理级流畅

HunyuanVideo 是腾讯推出的一款开源视频生成基础模型，拥有超过 130 亿个参数，是当前规模最大的开源视频生成模型。

它在视频生成方面表现出与领先的闭源模型相当甚至优于领先闭源模型的性能。HunyuanVideo 具有一个全面的框架，集成了多项关键贡献，包括数据管理、图像-视频联合模型训练以及旨在促进大规模模型训练和推理的高效基础设施。

团队进行了广泛的实验并实施了一系列有针对性的设计，以确保高视觉质量、运动多样性、文本-视频对齐和生成稳定性。根据专业的人体测评结果，混元视频的表现优于之前最先进的模型，包括 Runway Gen-3、Luma 1.6 和 3 款性能最好的中国视频生成模型。

HunyuanVideo 整体设计

HunyuanVideo 在时空上进行了训练压缩的潜在空间，通过因果 3D VAE 进行压缩。

基础环境

Ubuntu 22.04 cuda 12.4 python 3.10.9 NVIDIA corporation A100 SXM4

1.更新基础的软件包

查看系统版本信息

配置国内源

apt 配置阿里源

将以下内容粘贴进文件中

2.基础Miniconda3环境

查看系统是否有 miniconda 的环境

显示如上输出，即安装了相应环境，若没有 miniconda 的环境，通过以下方法进行安装

按下回车键（enter）

输入 yes

安装成功如下图所示

3.克隆仓库并进入项目

4.创建虚拟环境

创建并激活虚拟环境

5.安装pytorch环境

6.下载依赖

7.装 Flash Attention v2 （版本 2.6.3）

出现successfully installed 为安装成功

8.安装xDiT以进行并行推理（建议使用torch 2.4.0和flash-attn 2.6.3）

9.下载HunyuanVideo模型

要下载 HunyuanVideo 模型，请先安装 huggingface-cli。

然后使用以下命令下载模型：

元宝混元 Hunyuan 教程

出现下载拒绝是因为没有加载密钥

下载完成

10.下载文本编码器

混元视频使用 MLLM 模型和 CLIP 模型作为文本编码器。

1.MLLM模型（text_encoder文件夹）

混元视频支持不同的 MLLM（包括混元 MLLM 和开源 MLLM 模型）。现阶段，我们还没有发布混元 MLLM。我们建议社区用户使用 Xtuer 提供的 llava-llama-3-8b，可以通过以下命令下载

下载完成会显示匹配所有文件100%

以及出现文件下载目录

为了节省模型加载的 GPU 内存资源，我们将语言模型的各个部分分离成 llava-llama-3-8b和text_encoder

加载完成会显示Loading checkpoint shards: 100%

如果显示 no nms 则是torch 与torchvision版本不匹配

首先检查 PyTorch 和 torchvision 的安装情况：

卸载当前版本

安装0.21.0版本

2.CLIP模型（text_encoder_2文件夹）

我们使用 OpenAI 提供的 CLIP 作为另一个文本编码器，社区中的用户可以通过以下命令下载该模型

运行Gradio服务器

通过开放端口来直接访问页面

通过选择不同的提示词来生成不同的视频

提示词：A cat walks on the grass, realistic style.步数设置为10步

参数设置

生成的结果显示，以及耗费时间

花费时间约1:15分钟，大小为809KB

步数设置为50步时间约为6分钟，大小为953.22KB

修改参数为最高1280×720 (16:9, 720p)，5s(129f)，50步

时间约为50分钟，大小为2.64MB

提示词不要设置太长，会导致错误File name too long错误

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/257443.html原文链接：https://javaforall.net

130亿参数开源之巅！HunyuanVideo本地部署教程：导演级运镜 × 物理级流畅

1.更新基础的软件包

2.基础Miniconda3环境

3.克隆仓库并进入项目

4.创建虚拟环境

5.安装pytorch环境

6.下载依赖

7.装 Flash Attention v2 （版本 2.6.3）

8.安装xDiT以进行并行推理（建议使用torch 2.4.0和flash-attn 2.6.3）

9.下载HunyuanVideo模型

10.下载文本编码器

关于作者

全栈程序员-站长

相关推荐

Hunyuan-MT Pro保姆级教程：从部署到多语言翻译全流程

腾讯混元和腾讯元宝有何不同？小白必看，彻底搞清楚这两大虚拟货币的区别！

Hunyuan-MT-7B部署教程：基于CSDN镜像的open-webui中文界面定制化配置

元宝App翻译功能

腾讯AI，加速狂飙的这半年

腾讯元宝能不能悬浮窗搜题