今天,腾讯混元大模型团队正式开源HunyuanVideo 1.5,一款基于 Diffusion Transformer(DiT)架构、参数为8.3B的轻量级视频生成模型,支持生成5-10秒的高清视频。目前,腾讯元宝最新版已上线该模型能力。用户可通过两种方式即可体验:一是输入文字描述(Prompt),直接实现“文生视频”;二是上传图片配合Prompt,轻松将静态图片转化为动态视频。

在元宝中可以通过文字和图片生成视频
HunyuanVideo 1.5定位为“开源小钢炮”,以极轻量的8.3B尺寸实现开源最佳的效果;显著降低了使用门槛,甚至可在14G显存的消费级显卡上流畅运行,真正让每一位开发者和创作者都能“玩起来”。

HunyuanVideo 1.5 GSB(Good Same Bad) 评测结果
强指令响应
原生支持中英文输入,通过recaption可理解复杂描述(如“黄昏柔光下的中心构图”),自动映射至光影、色彩、镜头语言等参数。
支持连续运镜,连续动作,在10s时长中能够组合不同的镜头,发生更多的动作,大大提升了视频的叙事能力。
同时风格定制,人物表情,物理规律,主体数量,文字生成,写字,无中生有,各种指令均能生成。
流畅动作
可生成人物运动,如篮球体操跳舞各种运动的快速镜头,流畅不畸变。物体运动、如破碎、流动、碰撞、能够合理生成、遵循物理规律。
电影美学
真实质感,能够生成24fps 1080p视频,支持电影级prompt描述(大师级镜头,构图,色彩,光影),在静态美学、画面质量、运动效果、结构稳定性,各个维度上均达到影视水平。
高图视一致性
在图生视频中,生成视频能够完美遵循输入图片的色调、光影、细节、人物外形不崩坏,场景中加入新的元素可保持原有风格,不破坏原有的场景一致性。
本次HunyuanVideo1.5通过多层次的技术创新,实现了生成效果、性能与尺寸上的平衡;
- 轻量化高性能架构:
通过8.3B参数的DiT架构与3D因果VAE编解码器,实现空间16倍、时间4倍的高效压缩,以最小参数量激发模型潜力,达到业界领先的生成效果。
- 稀疏注意力优化:
创新提出SSTA(Selective and Sliding Tile Attention,选择性滑动分块注意力)机制,通过动态剪枝冗余时空数据块,显著降低视频长序列生成的计算开销,实现推理加速。
- 增强型多模态理解:
采用多模态大模型作为文本编码器,精准理解中英文双语输入;额外引入byT5对文本OCR进行独立编码,增强视频文本元素的生成准确性。
- 全链路训练优化:
采用多阶段渐进式训练策略,覆盖预训练至后训练全流程,结合Moun优化器加速模型收敛,全面优化运动连贯性、美学质量及人类偏好对齐,达成专业级内容生成效果。
- 视频超分增强系统:
提供高效少步数视频超分网络,将生成结果上采样至1080p,在增强画面锐度的同时有效修复画面畸变,实现细节增强与质感提升。
- 推理加速工程:
集成模型蒸馏、Cache优化等关键技术,大幅提升推理效率,显著降低推理资源消耗。
此前,视频生成领域的开源SOTA旗舰模型至少有20B,需要超过50GB显卡方可部署。HunyuanVideo 1.5的出现大幅降低了硬件部署门槛,以极低的门槛就可以获得旗舰模型的体验。
案例展示
人物情绪与表情的精准呈现
文生视频提示词:一个人在电话里对家人报喜不报忧,用轻快的声音聊天。他脸上努力维持着开朗的笑容,但眼眶却不由自主地泛红,在挂断电话的瞬间,笑容瞬间垮掉,化为一声无声的叹息,手疲惫地捂住眼睛。
📎文生-人物表情-青年人报喜不报忧.mp4
大幅度运动生成
文生视频提示词:The video captures a figure skater performing a Biellmann spin on ice. The subject is a female skater in a glittering costume. Initially, she spins on one leg. Then, she reaches back and pulls her free leg up. Next, she spins rapidly, becoming a blur of motion, with ice shavings spraying from her skate blade. The background is an ice rink with blurred advertising boards. The camera circles around the subject to capture the spin from all angles. The lighting is spotlit, creating lens flares and sparkles on her costume. The overall video presents a graceful artistic sports style.
📎文生-流畅运动-滑冰.mp4
电影级运镜控制
文生视频提示词:一段充满电影感的东京夜景,展现了熙熙攘攘的十字路口。镜头以高角度广角拍摄,展现了人群和霓虹灯,随后迅速拉近,聚焦于一位年轻的女性。她静立于模糊的喧嚣之中,若有所思。画面以忧郁的蓝红色灯光、湿漉漉的沥青路面倒映的影像以及浅景深为特色。
📎文生-运镜-美女.mp元宝 混元 Hunyuan 教程4
指令遵循与文字生成
文生视频提示词:赛博朋克风格的夜晚街角,一个巨大的招牌上, “Hunyuan Video 1.5” 的霓虹灯管轮廓已经安装好。镜头推进,霓虹灯从“H”开始,伴随着‘滋滋’的电流声,每个字母依次亮起粉紫色的光芒,直到全部点亮,照亮了潮湿的街道。赛博朋克,城市美学。
📎文生-文字生成-+赛博朋克+HunyuanVideo1.5.mov
指令遵循与精准场景生成
文生视频提示词:一只破旧的棕色皮质手提箱,黄铜搭扣,静静地躺在明亮的阁楼地板上。起初,搭扣微微颤动,随后弹开,箱盖大开。箱子里装满了深色的泥土。接下来,一段令人叹为观止的延时生长过程开始了:细小的绿色芽破土而出,枝繁叶茂,长成微型树木,鲜艳的花朵竞相绽放。鹅卵石小径逐渐形成,一张小木凳凭空出现,池塘水面泛起涟漪。最终,一个完美精致的微型英式花园在箱子里徐徐展开。固定中景镜头,略微俯拍。明亮的自然光,柔和的阴影,以及细小的尘埃。逼真、神奇、细节丰富的转变,8K分辨率。
📎文生-趣味视频-开箱+2.mp4
强指令遵循与趣味视频生成
图生视频提示词:Static overhead shot of a printed photo of a tree trunk lying on a wooden table.
Action Sequence:
A real human hand enters, places a single pinecone on the paper next to the tree hole, and exits immediately.
A realistic 3D squirrel emerges from the 2D hole in the photo. The squirrel comes out empty-handed.
The squirrel sniffs the pinecone sitting on the paper, looks curious, blinks, and tilts its head.
The squirrel reaches out, grabs that specific pinecone from the table, and drags it back into the photo’s tree hole.
Key details: Seamless interaction between real world and photo, surreal VFX, squirrel paws are empty initially, heavy weight perception on the pinecone.
📎图生-趣味视频-小松鼠捡松果1.mp4
强指令遵循与趣味视频生成
图生视频提示词:Have the camera slowly push into a close up as the puppy pulls a lever.
📎图生-趣味视频-狗狗开战斗机2.mp4
运动动作流畅
图生视频提示词:画面中的人跳了起来,四肢张开
📎图生-流畅运动-人物起跳.mp4
电影级运镜
图生视频提示词:女孩放下书,站起身,转身向屋内走去。镜头拉远。
支持多种风格生成
图生视频提示词:Make the hot dog and the mustard bottle move in a waltz style dance together.
📎图生-多风格-热狗与酱汁.mp4
更多示例:
https://drive.weixin..com/s?k=AJEAIQdfAAou04Crkn#/?folderId=i.81265.77732_d.KXg5
使用手册
https://doc.weixin..com/doc/w3_AXcAcwZSAGgCNhei2zzNUS8O4mKop?scode=AJEAIQdfAAoh7WeIVuAXcAcwZSAGg
项目相关链接
项目主页:
https://hunyuan.tencent.com/video/zh
Github:
https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5
Model:
https://modelscope.cn/models/Tencent-Hunyuan/HunyuanVideo-1.5
点击即可跳转模型链接:https://modelscope.cn/models/Tencent-Hunyuan/HunyuanVideo-1.5
发布者:Ai探索者,转载请注明出处:https://javaforall.net/258698.html原文链接:https://javaforall.net
