Comfyui数字人开源项目:MultiTalk图片+音频多人对话视频生成!

一、MultiTalk简介

本文介绍了一款最近的数字人对话框架:MultiTalk,这是一款专注于音频驱动的多人对话歌唱互动控制以及卡通风格的数字人视频生成,能够提供更高效和精准的数字人视频创作。优势包括: 支持单人与多人生成 、可互动角色控制真人、动物和卡通题材泛化性能卓越、以及能够支持480和720多分辨率与最长15秒视频灵活生成

但是由于要求显存大,RunningHUB插件还未开源,以及模型为量化需要大显存和耗时长,这将难道大多数消费级显卡的本地体验。现在社区大佬kijai出手,已量化fp8模型(仅2.7G),以及wanvideo插件支持了。在工作流中使用功了最新的仅4步加速模型lightx2v,以及配合运镜Uni3c Controlnet,具有更有优秀的视频质量。因此今天文章将重点介绍在最新kj ComfyUI工作流体验。另外kj版本当前还仅支持单人对话或唱歌视频.测试,Wan2.2 与 2.1 Multitalk lora 的适配表现,发现动态效果不错,但唇形同步仍不如 2.1 时代,本文暂时使用wan2.1教程。

Comfyui数字人开源项目:MultiTalk图片+音频多人对话视频生成!

二:模型与环境安装

本文使用ComfyUI-WanVideoWrapper插件体验。模型和工作流文末网盘下载!

git switch multitalk

模型路径:

  • WanVideo_2_1_Multitalk_14B_fp8_e4m3fn:下载模型并放置ComfyUI/models/unet目录下。
  • Wan21_T2V_14B_lightx2v_cfg_step_distill_lora:下载模型并放置ComfyUI/models/loras目录下。
  • Wan21_Uni3C_controlnet_fp16:下载模型并放置ComfyUI/models/controlnet目录下。
  • TencentGameMate:另外首次运行还会自动下载TencentGameMate模型并放置**/ComfyUI/models/transformers/TencentGameMate/chinese-wav2vec2-base**目录下。

Comfyui数字人开源项目:MultiTalk图片+音频多人对话视频生成!

Comfyui数字人开源项目:MultiTalk图片+音频多人对话视频生成!

三:模型测评与体验

MultiTalk体验工作流如下(工作流和模型文末下载):

核心节点:这里使用了MultiTalk Wav2Vec Embeds节点语音编码,并且lightx2v采样配置5步加速,注意cfg=1。与昨天的插件相对,KJ的流速度极快,仅需采样耗时295秒约(5分钟)。 当前节点还仅支持单人数字人,多人数字人还需等KJ大佬的后续更新。另外如果有更好的动作运镜,可以使用传入视频引导Unic CN控制实现。另外也可以使用I2V LORA配合动作数字人。

Comfyui数字人开源项目:MultiTalk图片+音频多人对话视频生成!

真人数字人唱歌

A woman was singing passionately on the street. , The image showcases a young woman walking through a vibrant nighttime setting, illuminated by soft bokeh lights in the background, suggesting an urban atmosphere. She is wearing a stylish white top that is knotted at the waist, accentuating her midriff. The top has a feminine cut with short sleeves and a slightly loose fit, contributing to a casual yet trendy appearance.
She pairs the top with light blue skinny jeans that fit snugly, highlighting her figure. The jeans feature a classic five-pocket design and a black belt embellished with a prominent Gucci logo buckle, which adds a touch of luxury to her outfit. Complementing her look, she carries a small handbag, which hints at a fashion-conscious style.
Her long, dark hair flows smoothly down her back, and her posture exudes confidence as she strides forward. The backdrop blurred with distant figures indicates a bustling scene, with trees and city lights enhancing the lively ambiance. The overall vibe is youthful, chic, and modern, perfectly representing contemporary street style.

 

五:文章总结

MultiTalk体验需要注意如下:

  • MultiTalk支持单人与多人对话数字人生成,互动角色控制,泛化性能卓越,特别是在卡通和动物数字人。当前KJ版还不支持多人,待大佬后续更新
  • 同时支持480和720分辨率高质量视频生成,并且最长可生成15秒视频。在KJ版本中使用了lightx2v 5步加速,采样节点大约5-6分钟耗时,比之前版本快很多
  • 使用Uni3C运镜时,需要注意输入图和参考运镜视频宽高分辨率需要一致,因此工作流增加了resize image。另外也可以使用I2V LORA配合动作数字人。

下载权限

查看
  • 免费下载
    评论并刷新后下载
    登录后下载
  • 免费下载
    免费下载:
    签到可领取积分

查看演示

  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付免费指引:【签到得积分即可下载】 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分免费指引:【签到得积分即可下载】立即支付 支付免费指引:【签到得积分即可下载】立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余
温馨提示:本站提供的一切软件、教程和内容信息都来自网络收集整理,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,版权争议与本站无关。在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA打赏
共{{data.count}}人
5人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索