腾讯混元开源AI音频模型:Hunyuan-Foley：视频 + 文字 =“电影级”音效

腾讯混元今天午间宣布开源端到端视频音效生成模型 Hunyuan-Foley，用户只需输入视频和文字，就能为视频匹配电影级音效。

根据官方介绍，HunyuanVideo-Foley 不仅打破了 AI 生成的视频只能“看”不能“听” 的局限，让无声 AI 视频成为历史，更是真正做到了“看懂画面、读懂文字、配准声音”，带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。

一、混元Foley介绍

腾讯混元实验室团队打造了一款全新人工智能技术“混元视频拟音”，最终为生成的视频赋予了逼真的音频。它旨在聆听视频并生成与屏幕上的动作完美同步的高品质音轨。这是一款专为视频内容创作者打造的音频生成工具，无论是短视频创作者、电影制作人、广告创意人员，还是游戏开发者，HunyuanVideo-Foley都能提供专业级别的音频配音能力，真正实现“看懂画面、读懂文字、配准声音”。由腾讯 Hunyuan 团队联合浙江大学、南京航空航天大学共同提出的一个端到端的文本-视频到音频（TV2A）框架，可以精确地合成与视觉动态和语义上下文一致的高保真音频。
腾讯混源开源HunyuanVideo-Foley端到端视频音效生成大模型！专为视频内容创作者设计的专业级AI工具，广泛适用于短视频创作、电影制作、广告创意、游戏开发等多种场景。

三项核心亮点：

🎬 多场景视听同步：支持生成与复杂视频场景同步且语义一致的高质量音频，增强电影/电视和游戏应用的真实感和沉浸式体验。

⚖️ 多模态语义平衡：智能平衡视觉和文本信息分析，全面编排音效元素，避免片面生成，满足个性化配音需求。

🎵 高保真音频输出：自研48kHz音频VAE完美重构音效、音乐、人声，实现专业级音频生成品质。

二、相关安装

ComfyUI下已经有插件支持了，插件地址:

ComfyUI_HunyuanVideoFoley：https://github.com/if-ai/ComfyUI_HunyuanVideoFoley

三、工作流及体验

混元Foley核心的节点:

腾讯混元开源AI音频模型:Hunyuan-Foley：视频 + 文字 =“电影级”音效

传入图像、提示词以及帧率后就可以了，最终会生成音频文件，大家再接入到视频中即可。效果很棒吧，算是补齐了AI音效这块的不足了，之前就veo3有这么好的配音的，现在我们开源的行了。

腾讯混元开源AI音频模型:Hunyuan-Foley：视频 + 文字 =“电影级”音效

以上就是今天分享的开源音效模型混元Foley的分享了，整体测试下来我很满意，整个开源视频生态又朝前迈进了一步。

这样商业化落地的时候，成本呢可以降下来，从生成图像到图生视频再到配音，完美闭环。

下载权限

查看

￥

免费下载

评论并刷新后下载

登录后下载
免费下载

免费下载：

签到可领取积分

查看演示

{{attr.name}}：

您当前的等级为

登录后免费下载登录小黑屋反思中，不准下载！评论后刷新页面下载评论支付免费指引：【签到得积分即可下载】请先登录您今天的下载次数（次）用完了，请明天再来支付积分免费指引：【签到得积分即可下载】立即支付支付免费指引：【签到得积分即可下载】立即支付您当前的用户组不允许下载升级会员

您已获得下载权限您可以每天下载资源次，今日剩余次

温馨提示：本站提供的一切软件、教程和内容信息都来自网络收集整理，仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负，版权争议与本站无关。在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。