一、MultiTalk简介
本文介绍了一款最近的数字人对话框架:MultiTalk,这是一款专注于音频驱动的多人对话、歌唱、互动控制以及卡通风格的数字人视频生成,能够提供更高效和精准的数字人视频创作。优势包括: 支持单人与多人生成 、可互动角色控制、真人、动物和卡通题材泛化性能卓越、以及能够支持480和720多分辨率与最长15秒视频灵活生成。
但是由于要求显存大,RunningHUB插件还未开源,以及模型为量化需要大显存和耗时长,这将难道大多数消费级显卡的本地体验。现在社区大佬kijai出手,已量化fp8模型(仅2.7G),以及wanvideo插件支持了。在工作流中使用功了最新的仅4步加速模型lightx2v,以及配合运镜Uni3c Controlnet,具有更有优秀的视频质量。因此今天文章将重点介绍在最新kj ComfyUI工作流体验。另外kj版本当前还仅支持单人对话或唱歌视频.测试,Wan2.2 与 2.1 Multitalk lora 的适配表现,发现动态效果不错,但唇形同步仍不如 2.1 时代,本文暂时使用wan2.1教程。
二:模型与环境安装
本文使用ComfyUI-WanVideoWrapper插件体验。模型和工作流文末网盘下载!
- ComfyUI-WanVideoWrapper:https://github.com/kijai/ComfyUI-WanVideoWrapper
- 由于MultiTalk是独立在MultiTalk分支开发还未合并到主干分支,因此需要本地切换分支
git switch multitalk
模型路径:
- WanVideo_2_1_Multitalk_14B_fp8_e4m3fn:下载模型并放置
ComfyUI/models/unet
目录下。- Wan21_T2V_14B_lightx2v_cfg_step_distill_lora:下载模型并放置
ComfyUI/models/loras
目录下。- Wan21_Uni3C_controlnet_fp16:下载模型并放置
ComfyUI/models/controlnet
目录下。- TencentGameMate:另外首次运行还会自动下载TencentGameMate模型并放置
**/ComfyUI/models/transformers/TencentGameMate/chinese-wav2vec2-base**
目录下。
三:模型测评与体验
MultiTalk体验工作流如下(工作流和模型文末下载):
核心节点:这里使用了MultiTalk Wav2Vec Embeds节点语音编码,并且lightx2v采样配置5步加速,注意cfg=1。与昨天的插件相对,KJ的流速度极快,仅需采样耗时295秒约(5分钟)。 当前节点还仅支持单人数字人,多人数字人还需等KJ大佬的后续更新。另外如果有更好的动作运镜,可以使用传入视频引导Unic CN控制实现。另外也可以使用I2V LORA配合动作数字人。
真人数字人唱歌
A woman was singing passionately on the street. , The image showcases a young woman walking through a vibrant nighttime setting, illuminated by soft bokeh lights in the background, suggesting an urban atmosphere. She is wearing a stylish white top that is knotted at the waist, accentuating her midriff. The top has a feminine cut with short sleeves and a slightly loose fit, contributing to a casual yet trendy appearance.
She pairs the top with light blue skinny jeans that fit snugly, highlighting her figure. The jeans feature a classic five-pocket design and a black belt embellished with a prominent Gucci logo buckle, which adds a touch of luxury to her outfit. Complementing her look, she carries a small handbag, which hints at a fashion-conscious style.
Her long, dark hair flows smoothly down her back, and her posture exudes confidence as she strides forward. The backdrop blurred with distant figures indicates a bustling scene, with trees and city lights enhancing the lively ambiance. The overall vibe is youthful, chic, and modern, perfectly representing contemporary street style.
五:文章总结
MultiTalk体验需要注意如下:
- MultiTalk支持单人与多人对话数字人生成,互动角色控制,泛化性能卓越,特别是在卡通和动物数字人。当前KJ版还不支持多人,待大佬后续更新
- 同时支持480和720分辨率高质量视频生成,并且最长可生成15秒视频。在KJ版本中使用了lightx2v 5步加速,采样节点大约5-6分钟耗时,比之前版本快很多
- 使用Uni3C运镜时,需要注意输入图和参考运镜视频宽高分辨率需要一致,因此工作流增加了resize image。另外也可以使用I2V LORA配合动作数字人。