腾讯混元开源AI音频模型:Hunyuan-Foley:视频 + 文字 =“电影级”音效

腾讯混元今天午间宣布开源端到端视频音效生成模型 Hunyuan-Foley,用户只需输入视频和文字,就能为视频匹配电影级音效。

根据官方介绍,HunyuanVideo-Foley 不仅打破了 AI 生成的视频只能“看”不能“听” 的局限,让无声 AI 视频成为历史,更是真正做到了“看懂画面、读懂文字、配准声音”,带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。

腾讯混元开源AI音频模型:Hunyuan-Foley:视频 + 文字 =“电影级”音效

一、混元Foley介绍

腾讯混元实验室团队打造了一款全新人工智能技术“混元视频拟音”,最终为生成的视频赋予了逼真的音频。它旨在聆听视频并生成与屏幕上的动作完美同步的高品质音轨。这是一款专为视频内容创作者打造的音频生成工具,无论是短视频创作者、电影制作人、广告创意人员,还是游戏开发者,HunyuanVideo-Foley都能提供专业级别的音频配音能力,真正实现“看懂画面、读懂文字、配准声音”。由腾讯 Hunyuan 团队联合浙江大学、南京航空航天大学共同提出的一个端到端的文本-视频到音频(TV2A)框架,可以精确地合成与视觉动态和语义上下文一致的高保真音频。
腾讯混源开源HunyuanVideo-Foley端到端视频音效生成大模型!专为视频内容创作者设计的专业级AI工具,广泛适用于短视频创作、电影制作、广告创意、游戏开发等多种场景。

三项核心亮点:

🎬 多场景视听同步:支持生成与复杂视频场景同步且语义一致的高质量音频,增强电影/电视和游戏应用的真实感和沉浸式体验。

⚖️ 多模态语义平衡:智能平衡视觉和文本信息分析,全面编排音效元素,避免片面生成,满足个性化配音需求。

🎵 高保真音频输出:自研48kHz音频VAE完美重构音效、音乐、人声,实现专业级音频生成品质。

二、相关安装

ComfyUI下已经有插件支持了,插件地址:

ComfyUI_HunyuanVideoFoleyhttps://github.com/if-ai/ComfyUI_HunyuanVideoFoley

三、工作流及体验

混元Foley核心的节点:

腾讯混元开源AI音频模型:Hunyuan-Foley:视频 + 文字 =“电影级”音效

传入图像提示词以及帧率后就可以了,最终会生成音频文件,大家再接入到视频中即可。效果很棒吧,算是补齐了AI音效这块的不足了,之前就veo3有这么好的配音的,现在我们开源的行了。

腾讯混元开源AI音频模型:Hunyuan-Foley:视频 + 文字 =“电影级”音效

以上就是今天分享的开源音效模型混元Foley的分享了,整体测试下来我很满意,整个开源视频生态又朝前迈进了一步。

这样商业化落地的时候,成本呢可以降下来,从生成图像到图生视频再到配音,完美闭环。

下载权限

查看
  • 免费下载
    评论并刷新后下载
    登录后下载
  • 免费下载
    免费下载:
    签到可领取积分

查看演示

  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付免费指引:【签到得积分即可下载】 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分免费指引:【签到得积分即可下载】立即支付 支付免费指引:【签到得积分即可下载】立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余
温馨提示:本站提供的一切软件、教程和内容信息都来自网络收集整理,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,版权争议与本站无关。在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA打赏
共{{data.count}}人
5人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索