Ai数字人:HuMo—清华和字节共同开源多角色参考+物品参考+对口型

一、HuMo是什么

HuMo是清华大学联合字节跳动智能创作实验室推出的开源多模态视频生成框架，专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细可控的人类视频。HuMo支持强大的文本提示跟随能力、一致的主体保留以及音频驱动的动作同步。支持从文本-图像、文本-音频以及文本-图像-音频生成视频，提供更高的定制化和控制能力。HuMo支持480P和720P分辨率的视频生成，720P的生成质量更高。提供了配置文件来定制生成行为和输出，包括生成长度、视频分辨率以及文本、图像和音频输入的平衡。

HuMo的主要功能

文本到图像驱动视频生成：结合文本提示和参考图像，定制角色的外貌、服装、妆容、道具和场景，生成个性化视频。
文本到音频驱动视频生成：仅用文本和音频输入生成与音频同步的视频，无需图像参考，提供更大创作自由度。
文本-图像-音频驱动视频生成：融合文本、图像和音频指导，实现最高级别定制和控制，生成高质量视频。
多模态协同处理：支持强文本提示跟随、主体一致性保留以及音频驱动的动作同步，实现多种模态输入的协同驱动。
高分辨率视频生成：兼容480P和720P分辨率，720P生成质量更高，满足不同场景需求。
定制化配置：通过修改generate.yaml配置文件，可调整生成长度、视频分辨率及文本、图像、音频输入的平衡，实现个性化输出。

二、HuMo相关安装

项目官网：https://phantom-video.github.io/HuMo/
HuggingFace模型库：https://huggingface.co/bytedance-research/HuMo
arXiv技术论文：https://arxiv.org/pdf/2509.08519

插件安装：https://github.com/kijai/ComfyUI-WanVideoWrapper/tree/humo

切换分支为：Humo

Ai数字人:HuMo—清华和字节共同开源多角色参考+物品参考+对口型

将此存储库克隆到custom_nodes文件夹中。
安装依赖项： pip install -r requirements.txt 或者，如果您使用便携式安装，请在ComfyUI_windows_portable文件夹中运行此作：

python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt

模型安装路径：（模型文末网盘下载）

ComfyUI/models/text_encoders 的文本编码器

将视觉剪辑到 ComfyUI/models/clip_vision

Transformer（主视频模型）设置为 ComfyUI/models/diffusion_models

Vae 到 ComfyUI/models/vae

您还可以将原生 ComfyUI 文本编码和剪辑视觉加载器与包装器一起使用，而不是原始模型

三、工作流

HuMo 节点连接

Ai数字人:HuMo—清华和字节共同开源多角色参考+物品参考+对口型

WanVideo视频生成组

Ai数字人:HuMo—清华和字节共同开源多角色参考+物品参考+对口型

工作流很大，需要可前往网盘查看

Humo电商展示+语音
Humo双人以及人合影

效果预览：

总而言之，HuMo的出现为“数字人”生成、虚拟化身、影视内容创作等领域提供了更强大、更灵活的工具，也为未来更复杂的多模态生成研究指明了方向。

下载权限

查看

￥

免费下载

评论并刷新后下载

登录后下载
免费下载

免费下载：

签到可领取积分

查看演示

{{attr.name}}：

您当前的等级为

登录后免费下载登录小黑屋反思中，不准下载！评论后刷新页面下载评论支付免费指引：【签到得积分即可下载】请先登录您今天的下载次数（次）用完了，请明天再来支付积分免费指引：【签到得积分即可下载】立即支付支付免费指引：【签到得积分即可下载】立即支付您当前的用户组不允许下载升级会员

您已获得下载权限您可以每天下载资源次，今日剩余次

温馨提示：本站提供的一切软件、教程和内容信息都来自网络收集整理，仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负，版权争议与本站无关。在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。