一、OVI模型介绍
Ovi 是一种类似 veo-3 的视频+音频生成模型 ,可同时从文本或文本+图像输入生成视频和音频内容。
- 🎬 视频+音频生成 :同时生成同步的视频和音频内容
- 📝 灵活输入 :支持纯文本或文本+图像调理
- ⏱️ 5 秒视频 :以 24 FPS、面积 720×720、各种宽高比(9:16、16:9、1:1 等)生成 5 秒视频
二、相关安装
插件安装
ComfyUI 的自定义节点,集成了 Ovi,用于从文本或图像输入同步生成视频 + 音频。
- 🎬 视频+音频联合生成 :同时生成同步的视频和音频内容
- 📝 文本到视频+音频 :根据文本提示创建带有语音和声音效果的视频
- 🖼️ 图像到视频+音频 :从图像和文本输入生成视频
- ⏱️ 5 秒视频 :24 FPS、720×720 区域、多种宽高比(9:16、16:9、1:1 等)
- ⚙️ 内存优化 :FP8 精度 + 24GB VRAM GPU 的 CPU 卸载
- 🚀 灵活控制 :先进的参数控制,实现质量微调
ComfyUI_RH_Ovi插件:https://github.com/HM-RunningHub/ComfyUI_RH_Ovi
#导航到ComfyUI custom_nodes目录
cd ComfyUI/custom_nodes/
#克隆仓库
git clone https://github.com/HM-RunningHub/ComfyUI_RH_Ovi.git
cd ComfyUI_RH_Ovi
#安装PyTorch(如果尚未安装)
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1
#安装依赖
pip install -r requirements.txt
#安装Flash注意事项
pip install flash_attn --no-build-isolation
模型下载(文末网盘)
#最终的模型结构应该如下所示:
ComfyUI/models/Ovi/
├── MMAudio/
│ └── ext_weights/
│ ├── best_netG.pt
│ └── v1-16.pth
├── Ovi/
│ ├── model.safetensors
│ └── model_fp8_e4m3fn.safetensors
└── Wan2.2-TI2V-5B/
├── google/umt5-xxl/
├── models_t5_umt5-xxl-enc-bf16.pth
└── Wan2.2_VAE.pth
模型说明:
模型路径 :模型必须放置在 ComfyUI/models/Ovi/ 目录下
默认配置 :Model Loader 默认为 CPU 卸载 + FP8 for 24GB VRAM
禁用 32GB+ VRAM 的两者(更好的质量,更快的推理)
FP8 型号 :24GB VRAM 模式需要(质量轻微下降)
首次使用前必须下载所有模型文件
工作流
文本转视频+音频
- 将
RunningHub Ovi 模型加载器
连接到RunningHub Ovi 文本到视频
- 输入带有语音和音频标签的文本提示
- 设置视频尺寸、种子和生成参数
- 生成同步视频+音频
图像到视频+音频
- 使用 ComfyUI 的
Load Image
节点加载图像 - 将图像和
ovi_engine
连接到RunningHubOvi 图像到视频
- 输入带有语音和音频标签的文本提示
- 根据图像生成视频+音频