一、Stand-In介绍
Stand-In 是一个专注于身份保留的文本到视频生成框架。该框架采用了极其高效的训练方式,仅需比基础视频生成模型多训练1%的参数,就能够在面部相似度和自然度上实现先进的效果,超越了多种全参数训练的方法。Stand-In 不仅在保证身份一致性的同时,还能生成出高质量的视频。它还可以无缝集成到其他视频生成任务中,如:主题驱动的视频生成、姿态控制视频生成、视频风格化、以及人脸交换等。我觉得这是暂时最好的开源人像迁移项目了。不需要安装其它插件,只需要更新我们的comfyui 版本到最新版本,使用WanVidelora,然后下载对应的模型放入对应的目录下就可以了,只需上传一张自拍照,半分钟就能得到定制版的 AI 写真。
核心特点
- 高效的训练方式:只需比基础模型多训练1%的参数。
- 高保真度:在不牺牲视频生成质量的情况下,出色地保持了身份一致性。
- 即插即用:可以轻松集成到现有的T2V(文本到视频)模型中。
- 高度可扩展:兼容社区模型,如lora,并支持多种下游视频任务。
Stand-In的优势
- 轻量化:相比传统的全参数模型,Stand-In只需增加1%的参数量,极大降低了计算资源消耗。
- 灵活的应用场景:除了基本的文本生成视频,Stand-In还支持换脸、姿态控制以及风格化等复杂任务。
- 易于集成:即使是现有的T2V模型,也可以通过简单的插件方式集成Stand-In。
二、安装(文末附模型及工作流)
1.Wan2.1模型常用插件安装(本文不做过多介绍,可以查看历史文章):https://www.comfyorg.cn/1209.html
2.InstantID模型:
-
Stand-In_wan2.1_T2V_14B_ver1.0.ckpt,这是个lora,放到对应的loras目录即可。 -
studio_ghibli_wan14b_t2v_v01.safetensors:这是个风格化lora,需要的也可以下载。
模型放入路径:Comfyui/Model/Lora
InstantID插件:https://github.com/cubiq/comfyui_InstantID
下载或
git clone
此仓库到ComfyUI/custom_nodes/
目录或使用 Manager。InstantID 需要
insightface
,您需要将其添加到您的库中,连同onnxruntime
和onnxruntime-gpu
。InsightFace 模型是 antelopev2(不是经典的 buffalo_l)。下载模型解压并将其放置在
ComfyUI/models/insightface/models/antelopev2
目录中。
三、工作流
在这个界面中,这些关键点通常是图像中具有重要特征的特定位置,例如面部特征(眼睛、鼻子、嘴巴等)在图像处理和计算机视觉中,关键点用于以下几种情况:
1.面部识别:检测和识别面部特征点,以确定面部的结构和位置。
2.姿势预测:检测人体关键点,以固定人体姿势和动作。
核心节点:
工作流见文末网盘:
- Wan2.1+Stand-In实现人像一致性文生视频
- Stand-In面部参考生成视频
- 文生视频:stand-in脸部一致性视频生成
- VACE姿态迁移:stand-in脸部一致性视频生成
总结:
腾讯推出的Stand-In框架,不仅为身份保留视频生成提供了一种创新解决方案,还通过其轻量化设计和高度可扩展的特性,为开发者提供了强大的工具支持。无论是文本到视频生成,还是换脸、姿态控制和风格化任务,Stand-In都能实现高质量的视频生成,并保持人物身份的自然一致性。
作为开源项目,Stand-In为AI领域的研究者、开发者及创作者提供了一个可扩展的平台,它不仅减少了模型训练的资源消耗,还提供了丰富的应用场景。从个人创作到商业应用,Stand-In都展现出了强大的潜力和价值。如果你也对视频生成技术充满兴趣,或者正在寻找一种更加高效、灵活的解决方案,Stand-In无疑是一个值得尝试的优秀框架。
今天的分享就到这里啦,感兴趣的小伙伴快去试试吧!