腾讯混元今天午间宣布开源端到端视频音效生成模型 Hunyuan-Foley,用户只需输入视频和文字,就能为视频匹配电影级音效。
根据官方介绍,HunyuanVideo-Foley 不仅打破了 AI 生成的视频只能“看”不能“听” 的局限,让无声 AI 视频成为历史,更是真正做到了“看懂画面、读懂文字、配准声音”,带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。
一、混元Foley介绍
腾讯混元实验室团队打造了一款全新人工智能技术“混元视频拟音”,最终为生成的视频赋予了逼真的音频。它旨在聆听视频并生成与屏幕上的动作完美同步的高品质音轨。这是一款专为视频内容创作者打造的音频生成工具,无论是短视频创作者、电影制作人、广告创意人员,还是游戏开发者,HunyuanVideo-Foley都能提供专业级别的音频配音能力,真正实现“看懂画面、读懂文字、配准声音”。由腾讯 Hunyuan 团队联合浙江大学、南京航空航天大学共同提出的一个端到端的文本-视频到音频(TV2A)框架,可以精确地合成与视觉动态和语义上下文一致的高保真音频。
腾讯混源开源HunyuanVideo-Foley端到端视频音效生成大模型!专为视频内容创作者设计的专业级AI工具,广泛适用于短视频创作、电影制作、广告创意、游戏开发等多种场景。
三项核心亮点:
🎬 多场景视听同步:支持生成与复杂视频场景同步且语义一致的高质量音频,增强电影/电视和游戏应用的真实感和沉浸式体验。
⚖️ 多模态语义平衡:智能平衡视觉和文本信息分析,全面编排音效元素,避免片面生成,满足个性化配音需求。
🎵 高保真音频输出:自研48kHz音频VAE完美重构音效、音乐、人声,实现专业级音频生成品质。
二、相关安装
ComfyUI下已经有插件支持了,插件地址:
ComfyUI_HunyuanVideoFoley:https://github.com/if-ai/ComfyUI_HunyuanVideoFoley
三、工作流及体验
混元Foley核心的节点:
传入图像、提示词以及帧率后就可以了,最终会生成音频文件,大家再接入到视频中即可。效果很棒吧,算是补齐了AI音效这块的不足了,之前就veo3有这么好的配音的,现在我们开源的行了。
以上就是今天分享的开源音效模型混元Foley的分享了,整体测试下来我很满意,整个开源视频生态又朝前迈进了一步。
这样商业化落地的时候,成本呢可以降下来,从生成图像到图生视频再到配音,完美闭环。