一、HuMo是什么
HuMo是清华大学联合字节跳动智能创作实验室推出的开源多模态视频生成框架,专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细可控的人类视频。HuMo支持强大的文本提示跟随能力、一致的主体保留以及音频驱动的动作同步。支持从文本-图像、文本-音频以及文本-图像-音频生成视频,提供更高的定制化和控制能力。HuMo支持480P和720P分辨率的视频生成,720P的生成质量更高。提供了配置文件来定制生成行为和输出,包括生成长度、视频分辨率以及文本、图像和音频输入的平衡。
HuMo的主要功能
-
文本到图像驱动视频生成:结合文本提示和参考图像,定制角色的外貌、服装、妆容、道具和场景,生成个性化视频。
-
文本到音频驱动视频生成:仅用文本和音频输入生成与音频同步的视频,无需图像参考,提供更大创作自由度。
-
文本-图像-音频驱动视频生成:融合文本、图像和音频指导,实现最高级别定制和控制,生成高质量视频。
-
多模态协同处理:支持强文本提示跟随、主体一致性保留以及音频驱动的动作同步,实现多种模态输入的协同驱动。
-
高分辨率视频生成:兼容480P和720P分辨率,720P生成质量更高,满足不同场景需求。
-
定制化配置:通过修改
generate.yaml
配置文件,可调整生成长度、视频分辨率及文本、图像、音频输入的平衡,实现个性化输出。
二、HuMo相关安装
- 项目官网:https://phantom-video.github.io/HuMo/
- HuggingFace模型库:https://huggingface.co/bytedance-research/HuMo
- arXiv技术论文:https://arxiv.org/pdf/2509.08519
插件安装:https://github.com/kijai/ComfyUI-WanVideoWrapper/tree/humo
切换分支为:Humo
- 将此存储库克隆到
custom_nodes
文件夹中。 - 安装依赖项:
pip install -r requirements.txt
或者,如果您使用便携式安装,请在ComfyUI_windows_portable文件夹中运行此作:
python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
模型安装路径:(模型文末网盘下载)
ComfyUI/models/text_encoders
的文本编码器将视觉剪辑到
ComfyUI/models/clip_vision
Transformer(主视频模型)设置为
ComfyUI/models/diffusion_models
Vae 到
ComfyUI/models/vae
您还可以将原生 ComfyUI 文本编码和剪辑视觉加载器与包装器一起使用,而不是原始模型
三、工作流
HuMo 节点连接
WanVideo视频生成组
工作流很大,需要可前往网盘查看
- Humo电商展示+语音
- Humo双人以及人合影
效果预览:
总而言之,HuMo的出现为“数字人”生成、虚拟化身、影视内容创作等领域提供了更强大、更灵活的工具,也为未来更复杂的多模态生成研究指明了方向。