【Comfyui】OVI同时生成视频及对应音频的生成模型

一、OVI模型介绍

Ovi 是一种类似 veo-3 的视频+音频生成模型 ，可同时从文本或文本+图像输入生成视频和音频内容。

🎬 视频+音频生成 ：同时生成同步的视频和音频内容
📝 灵活输入 ：支持纯文本或文本+图像调理
⏱️ 5 秒视频 ：以 24 FPS、面积 720×720、各种宽高比（9：16、16：9、1：1 等）生成 5 秒视频

二、相关安装

插件安装

ComfyUI 的自定义节点，集成了 Ovi，用于从文本或图像输入同步生成视频 + 音频。

🎬 视频+音频联合生成 ：同时生成同步的视频和音频内容
📝 文本到视频+音频 ：根据文本提示创建带有语音和声音效果的视频
🖼️ 图像到视频+音频 ：从图像和文本输入生成视频
⏱️ 5 秒视频 ：24 FPS、720×720 区域、多种宽高比（9：16、16：9、1：1 等）
⚙️ 内存优化 ：FP8 精度 + 24GB VRAM GPU 的 CPU 卸载
🚀 灵活控制 ：先进的参数控制，实现质量微调

ComfyUI_RH_Ovi插件：https://github.com/HM-RunningHub/ComfyUI_RH_Ovi

#导航到ComfyUI custom_nodes目录
cd ComfyUI/custom_nodes/
#克隆仓库
git clone https://github.com/HM-RunningHub/ComfyUI_RH_Ovi.git
cd ComfyUI_RH_Ovi
#安装PyTorch（如果尚未安装）
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1
#安装依赖
pip install -r requirements.txt
#安装Flash注意事项
pip install flash_attn --no-build-isolation

模型下载（文末网盘）

#最终的模型结构应该如下所示：
ComfyUI/models/Ovi/
 ├── MMAudio/
 │   └── ext_weights/
 │       ├── best_netG.pt
 │       └── v1-16.pth
 ├── Ovi/
 │   ├── model.safetensors
 │   └── model_fp8_e4m3fn.safetensors
 └── Wan2.2-TI2V-5B/
     ├── google/umt5-xxl/
     ├── models_t5_umt5-xxl-enc-bf16.pth
     └── Wan2.2_VAE.pth

模型说明：

模型路径：模型必须放置在 ComfyUI/models/Ovi/ 目录下
默认配置：Model Loader 默认为 CPU 卸载 + FP8 for 24GB VRAM
禁用 32GB+ VRAM 的两者（更好的质量，更快的推理）
FP8 型号：24GB VRAM 模式需要（质量轻微下降）
首次使用前必须下载所有模型文件

工作流

【Comfyui】OVI同时生成视频及对应音频的生成模型

文本转视频+音频

将 RunningHub Ovi 模型加载器连接到 RunningHub Ovi 文本到视频
输入带有语音和音频标签的文本提示
设置视频尺寸、种子和生成参数
生成同步视频+音频

图像到视频+音频

使用 ComfyUI 的 Load Image 节点加载图像
将图像和 ovi_engine 连接到 RunningHubOvi 图像到视频
输入带有语音和音频标签的文本提示
根据图像生成视频+音频

下载权限

查看

￥

免费下载

评论并刷新后下载

登录后下载
免费下载

免费下载：

签到可领取积分

查看演示

{{attr.name}}：

您当前的等级为

登录后免费下载登录小黑屋反思中，不准下载！评论后刷新页面下载评论支付免费指引：【签到得积分即可下载】请先登录您今天的下载次数（次）用完了，请明天再来支付积分免费指引：【签到得积分即可下载】立即支付支付免费指引：【签到得积分即可下载】立即支付您当前的用户组不允许下载升级会员

您已获得下载权限您可以每天下载资源次，今日剩余次

温馨提示：本站提供的一切软件、教程和内容信息都来自网络收集整理，仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负，版权争议与本站无关。在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。