本以为wan2.2+mulittalk数字人已经无敌了,谁知道infinite talk才是真正的数字人之王,因为她不仅支持声音驱动图生视频,也支持声音驱动视频生视频,而且可以生成无限时长!
一、InfiniteTalk数字人介绍
infiniteTalk 是一个无限长度的语音视频生成模型,它是和multitalk是一个研发小组开源的数字人项目,让我记住他们的的名字,MeiGen-ai,昨天刚开源的项目kij大佬就火速实现了工作流支持,记得使用前请更新wanvideo wrapper!闭源数字人迎来了最强竞敌, InfiniteTalk,一种新颖的稀疏帧视频配音框架。给定输入视频和音轨,InfiniteTalk 会合成具有准确唇部同步的新视频,同时将头部运动、身体姿势和面部表情与音频保持一致。与仅关注嘴唇的传统配音方法不同,InfiniteTalk 可以生成无限长度的视频,具有准确的口型同步和一致的身份保留。此外,InfiniteTalk 还可以用作图像音频到视频模型,以图像和音频作为输入。
- 💬 稀疏帧视频配音 – 不仅同步嘴唇,还同步头部、身体和表情
- ⏱️ 无限长度生成 – 支持无限视频时长
- ✨ 稳定性 – 与 MultiTalk 相比,减少手/身体失真
- 🚀 唇形准确性 – 实现与 MultiTalk 的卓越唇形同步
二、相关安装
该模型使用kijai的ComfyUI-WanVideoWrapper插件,结合Wan2.1模型来使用,需要更新插件到最新版。
模型和工作流文末网盘会一起提供!
-
ComfyUI-WanVideoWrapper:https://github.com/kijai/ComfyUI-WanVideoWrapper
三、测试体验
- 单人模式single model:
1.模型搭建
这里要用到wan2.1图生视频模型,及infinite single talk或infinite multi talk,这两个模型可以去kij的hugging face模型库下载,并放置到models/diffussion文件夹里!

这里还要set node,vaeclipclipvision模型,选对模型就行,简单!

2.图像编译image embeds

这里用到一个全新的节点wanvideo image to video multitalk节点,这个节点其实是wanvideo image to video 的升级版,如下图所示!

这里的frame windows size可以理解为帧窗口尺寸,81帧为一个窗口,生成长视频的时候会把每81帧根据上下文串联起来,去实现infinite talk的无限延续功能,这是我猜的功能,有点和context option节点相似!

查询资料+盲猜也是学习的一种方式吧,大家是怎么理解image to multitalk节点呢?
3.音频合成wae 2 vec
这个其实和multitalk那个完成一致上传一段音频 load audio---裁剪音频长度audio crop---获取音频描数audio duration--计算视频生成的总帧数(音频秒数*25+25)多一秒保证音频生成完全,不会戛然而止---multitalk wav2vec embeds,将声音转变为模型可以理解的向量!

4.采样及合成

- 双人模式:
1.双人模式唯一的区别是第一模型这里换成infinite-multi

2.制作分离蒙版
涂抹蒙版,制作分离蒙版,mask separate,也就是标记出蒙版,并左右分离,图下图所示,这个需要链接wav2vec那个参考ref target mask,模型会从左右与语音相匹配!


需要上传两段语音,输出的语音为两段语音的并行语音,para!看效果!
四、工作流:
(Runninghub LLM API Node:请替换为其它LLM大模型即可:https://www.comfyorg.cn/2060.html)
五、总结
以上就是今天的王炸最强开源数字人InfiniteTalk的介绍了,这个真是王炸级别的,嘟嘟最近就在给客户做电商领域的数字人,遇到的问题就是唇形同步差点意思,不能生成超长时间的,而这个InfiniteTalk全部解决了这个问题,太强了,大家快来玩吧。