全部标签

视频

【Comfyui】OVI同时生成视频及对应音频的生成模型

一、OVI模型介绍 Ovi 是一种类似 veo-3 的视频+音频生成模型，可同时从文本或文本+图像输入生成视频和音频内容。 🎬 视频+音频生成：同时生成同步的视频和音频内容 📝 灵活输入：支持纯文本或文本+图像调理 ⏱️ 5 秒视频：以 24 FPS、面积 720×720、各种宽高比（9：16、16：9、1：1 等）生成 5 秒视频二、相关安装插件安装 ComfyUI 的自定义节点，集…
视频插件
- 1.9k
- 1.9k
ComfyUI教程10月6日
comfyui怎么使用虚拟内存

在AI绘画与视频生成领域，ComfyUI凭借其模块化设计和低显存优化能力，成为创作者的首选工具。然而，当运行Flux等大型模型时，用户常遇到"内存不足"的报错，这往往与虚拟内存配置不当直接相关。本文将从底层原理出发，结合实测数据，系统讲解如何科学设置虚拟内存。一、虚拟内存的核心作用当物理内存（RAM）被模型参数、中间计算结果占满时，系统会将不活跃数据暂存至硬盘的虚拟内存区域…
基础教程
- 2k
- 2k
ComfyUI教程10月4日
第七集：comfyui节点如何连接—【Comfyui教程从零基础到精通】

ComfyUI作为一款基于Stable Diffusion的节点式操作界面，为用户提供了一个更加灵活和高效的文生图（文本生成图像）创作环境。本篇博客将详细介绍如何使用ComfyUI进行文生图操作，无论你是初学者还是有一定基础的用户，都能够通过本指南快速上手。【CLIP文本编码器】就是一个我们最常见最常用的条件节点，告诉采样过程，我要什么，我不要什么。K采样器就会按照我们的要求进行采样工作，最终生…
视频教程
- 2.7k
- 2.7k
ComfyUI教程10月1日
Wan-Alpha：生成高质量文本到视频透明素材生成VAE

一、Wan-Alpha介绍 WAN Alpha是万相开源（WanX）2.1版本中的核心组件VAE，主要用于实现图生视频功能。它通过深度学习模型生成高质量动态画面，支持动作特效、角色动画等场景化生成，并具备灵活的参数调节能力。 ‌‌这个项目是基于wan2.1视频生成模型，通过联合学习RGB和Alpha通道来生成透明视频。一个有效的变分自动编码器（VAE），编码到RGB潜在空间的阿尔法通道来实现。生成…
海报设计
- 5.2k
- 5.2k
ComfyUI教程10月1日
Chroma 模型家族正式发布：基于 FLUX.1-schnell，8.9亿参数开源无限制，4大分支适配不同需求

一、模型概述 Chroma 是一个基于 FLUX.1-schnell 构建的 8.9 亿参数生成模型 Chroma 。它采用了 Apache 2.0 许可证，完全开源，允许任何人使用、修改和在其基础上进行开发，不存在企业限制。该模型目前正在训练中，，Chroma 最大特点是“无美学调整、无后训练限制”，以原始、中立的基础模型形态，为后续微调提供灵活起点。Chroma 模型完全未经过审查，重新引入了…
主模型
- 4.5k
- 4.5k
ComfyUI教程9月27日
第三集：ComfyUI常用必备插件的使用与优化技巧—【Comfyui教程从零基础到精通】

ComfyUI作为一个强大的AI绘画工具平台，其丰富的插件生态为用户提供了更多的可能性。以下是ComfyUI完全入门所需的必备插件，它们将帮助你更高效地使用ComfyUI进行创作。视频介绍了ComfyUI中几款实用插件的使用与优化技巧。首先是通过easyuse插件有效降低显存占用，提高运行效率。其次是多图像选择节点（图像编号切换），方便在多个图像中快速切换目标图像，适用于换脸等场景。另外介绍了图…
视频教程
- 4.2k
- 4.2k
ComfyUI教程9月22日
第二集：ComfyUI基础概念讲解新手轻松搭建工作流—【Comfyui教程从零基础到精通】

1.更适合零基础学员：0基础从你适不适合开始讲起。本视频讲解了从零开始搭建ComfyUI工作流的过程，重点介绍了最基础的纹身图工作流的搭建步骤。首先通过添加采样器节点作为核心，连接大模型加载器、Clip文本编码器和VAE解码器等节点，完成输入与输出端的配置。接着设置参数，如CFG、采样器调度器，并输入正负提示词。最后通过执行生成预览图像，展示了工作流的运行效果。视频还强调了一个输出端可连接多个输…
视频教程
- 4.9k
- 4.9k
ComfyUI教程9月22日
王炸！阿里开源Wan Animate！电影级动作迁移及主体替换

Wan2.2更新记录 2025年9月19日: 💃 我们推出了**Wan2.2-Animate-14B**，这是一个统一的角色动画和替换模型，具有整体动作和表情复制功能。我们发布了模型权重和推理代码。现在您可以在wan.video、ModelScope Studio或HuggingFace Space上尝试它！ 2025年8月26日: 🎵 我们推出了**Wan2.2-S2V-14B**，这是一个音频…
视频插件
- 22.7k
- 22.7k
ComfyUI教程9月21日
Wan2.2 Fun-vace模型终于来啦~首尾帧+动态参考+角色替换一次性全满足！

还在为 WAN2.2 缺少灵活的参照控制而烦恼吗？本期视频将带你解锁 WAN2.2 的全部潜力！我们将 2.1 版本中备受好评的 VACE 技术成功移植，并结合模型量化与加速采样，让你的视频创作流程不仅更强大，还更快、更省资源！告别单调的抽卡式生成，迎接精准控制的新时代。无论你是想增强人物一致性、替换视频背景，还是通过深度图驱动动画，这个工作流都能满足你。一、Wan 2.2 Fun Vace介…
视频模型
- 19.3k
- 19.3k
ComfyUI教程9月17日
ComfyUI 局部重绘的3种工作流搭建方法和原理讲解

今天给大家带来的是 ComfyUI 的局部重绘的工作流，跟之前一样，我会通过一些理论知识来帮助大家对 ComfyUI 的工作流和节点有更深的认知，还是那句话，知其然，还要知其所以然。为什么要写局部重绘，是因为我发现虽然市面上有很多 ComfyUI 的基础局部重绘的教程，我也看了很多，但老有一种隔靴搔痒的感觉，让我似懂非懂。抱着“假设-验证-结果-总结”的探索精神，我看了大量相关的视频，教程和官…
进阶教程
- 5.3k
- 5.3k
ComfyUI教程9月16日
Ai数字人:HuMo—清华和字节共同开源多角色参考+物品参考+对口型

一、HuMo是什么 HuMo是清华大学联合字节跳动智能创作实验室推出的开源多模态视频生成框架，专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细可控的人类视频。HuMo支持强大的文本提示跟随能力、一致的主体保留以及音频驱动的动作同步。支持从文本-图像、文本-音频以及文本-图像-音频生成视频，提供更高的定制化和控制能力。HuMo支持480P和720P分辨率的视频生成，72…
视频插件
- 6.3k
- 6.3k
ComfyUI教程9月15日
字节开源OneReward模型: 最新重绘神器

一、OneReward模型介绍 OneReward 是一种基于Qwen2.5-VL生成式奖励模型的全新视觉领域RLHF方法，通过增强多任务强化学习显著提升策略模型在多项子任务中的生成能力。基于OneReward，开发出Seedream 3.0 Fill 统一图像编辑模型，能高效处理图像填充、延展、物体消除和文字渲染等多样化任务，其表现超越Ideogram、Adobe Photoshop和FLUX …
Flux工作流
- 10.5k
- 10.5k
ComfyUI教程9月14日
YOLO(目标检测、图像分割、姿态估计)：更快更准的高效目标检测模型

一、YOLO模型介绍 YOLO 是一种高效的物体检测模型，能够通过单一网络进行快速的物体检测。结合预训练模型，YOLO 可以在许多视觉任务中加速开发过程，提高性能。预训练模型的优势在于能够节省训练时间、提高模型性能，并且适用于迁移学习任务。对于物体检测，使用预训练的 YOLO 模型是一种非常高效的做法，尤其是在没有大量标注数据时。YOLO 模型的核心特点是采用一个单独的神经网络对图像进行处理，进行…
其他插件
- 4.6k
- 4.6k
ComfyUI教程9月13日
[ComfyUI]Index-TTS2声音生成克隆王者登基：影视级别效果—零样本克隆+情绪控制，重塑配音新体验

一、Index-TTS2简介： IndexTTS2是一款备受瞩目的新一代文本转语音（TTS）大模型，它以其能达影视级水准的高质量语音合成效果而引人注目。这款模型不仅支持完全本地化部署并计划开放权重，极大赋能开发者；更拥有强大的零样本语音克隆能力以及全球首创的情绪与时长精细控制功能，标志着TTS技术迈入了新高度，未来在影视制作、虚拟角色乃至日常交互等场景都极具颠覆性潜力。 github地址：http…
其他插件
- 18k
- 18k
ComfyUI教程9月10日
ComfyUI官方原生支持HiDream-E1，一句话指令玩转风格、换装、改文字

HiDream-E1简介 HiDream 是由中国智象未来团队创业团队 HiDream.ai 开发的开源生成式多模态模型，专注于文本生成图像、视频及 3D 内容。基于 HiDream-I1 构建的图像编辑模型，支持通过简单语言指令修改图片风格、物体属性、场景替换等。当前它迎来了ComfyUI官方的原生支持，并且社区已经有对应的GGUF版本支持。对于17B全精度的文生图模型，在大部分24G的消费显卡…
主模型
- 5.7k
- 5.7k
ComfyUI教程9月5日
腾讯混元开源AI音频模型:Hunyuan-Foley：视频 + 文字 =“电影级”音效

腾讯混元今天午间宣布开源端到端视频音效生成模型 Hunyuan-Foley，用户只需输入视频和文字，就能为视频匹配电影级音效。根据官方介绍，HunyuanVideo-Foley 不仅打破了 AI 生成的视频只能“看”不能“听” 的局限，让无声 AI 视频成为历史，更是真正做到了“看懂画面、读懂文字、配准声音”，带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开…
视频插件
- 4.2k
- 4.2k
ComfyUI教程9月3日
Nano-banana 完整使用指南：教程、案例、白嫖网站，看这一篇就够了！

Nano-banana，即谷歌Gemini 2.5 Flash Image，是一款强大的绘图AI，它在短时间内改变了游戏规则，挑战了传统软件如Photoshop。本文详细介绍了如何注册和使用Nano-banana，分享了18个神级玩法和6个免费使用网站。通过实例展示了如何更改图片背景、创建手办、编辑图片、转换风格、处理黑白照片、设计发型等。Nano-banana的多功能性使其在电商、广告、建筑设计…
基础教程
- 15.9k
- 15.9k
ComfyUI教程9月2日
multitalk数字人还没有捂热，新王又登基，Infinite talk数字人无限续杯！

本以为wan2.2+mulittalk数字人已经无敌了，谁知道infinite talk才是真正的数字人之王，因为她不仅支持声音驱动图生视频，也支持声音驱动视频生视频，而且可以生成无限时长! 一、InfiniteTalk数字人介绍 infiniteTalk 是一个无限长度的语音视频生成模型,它是和multitalk是一个研发小组开源的数字人项目，让我记住他们的的名字，MeiGen-ai,昨天刚开源…
视频插件
- 23.7k
- 23.7k
ComfyUI教程8月21日
instandID换脸comfyui工作流，实现换脸自由，进阶版

一、Stand-In介绍 Stand-In 是一个专注于身份保留的文本到视频生成框架。该框架采用了极其高效的训练方式，仅需比基础视频生成模型多训练1%的参数，就能够在面部相似度和自然度上实现先进的效果，超越了多种全参数训练的方法。Stand-In 不仅在保证身份一致性的同时，还能生成出高质量的视频。它还可以无缝集成到其他视频生成任务中，如：主题驱动的视频生成、姿态控制视频生成、视频风格化、以及人脸…
视频插件
- 30.2k
- 30.2k
ComfyUI教程8月15日
Comfyui数字人开源项目：MultiTalk图片+音频多人对话视频生成！

一、MultiTalk简介本文介绍了一款最近的数字人对话框架：MultiTalk，这是一款专注于音频驱动的多人对话、歌唱、互动控制以及卡通风格的数字人视频生成，能够提供更高效和精准的数字人视频创作。优势包括：支持单人与多人生成、可互动角色控制、真人、动物和卡通题材泛化性能卓越、以及能够支持480和720多分辨率与最长15秒视频灵活生成。但是由于要求显存大，RunningHUB插件还未开源，…
视频插件
- 11.8k
- 11.8k
ComfyUI教程8月15日
Wan2.2史上最快速度：最新Wan2.2-Lighting 4 步提速 40%，最新LightX2V官方/KJ新版模型

一、Wan2.2-lighting模型介绍超棒，发现 lightx2v 团队最近发布了新模型 Wan2.2-Lighting，这是wan2.2视频生成模型系列的蒸馏版本，让我们视频生成大大加速，有如下几个特点：快速：视频生成现在只需 4 个步骤，无需 CFG 技巧，从而将速度提升 20 倍高质量：在大多数情况下，蒸馏模型提供的视觉效果与基础模型相当，有时甚至更好。复杂运动生成：尽管减…
电商应用
- 61.2k
- 61.2k
ComfyUI教程8月10日
[ComfyUI]:indexTTS+HeyGem打造个性化数字人，王炸组合最强的开源数字人Heygem

Heygem数字人是开源的，可以在本地上运行。能够轻松克隆音色并通过文本生成对应音色的音频。不仅小同时速度快效果吊炸天！声音、音频解决了，接入开源数字人Heygem，效果炸裂。但它的安装很麻烦，没点技术也很难装好使用。同时对硬件设备也有一定的要求。跑起来至少8G以上显存支持。 HeyGem简介： HeyGem 是由硅基智能推出的一款开源 AI 数字人模型，旨在为用户提供高质量、低门槛的数字人视频生…
其他插件
- 12k
- 12k
ComfyUI教程8月6日
ComfyUI-Inspire-Pack 扩展节点插件

插件介绍在当今的创意领域，AI驱动的图像生成工具正以前所未有的方式扩展艺术家和开发者们的创作边界。其中之一就是ComfyUI-Inspire-Pack——一个专为ComfyUI设计的拓展节点集合，它不仅丰富了现有的功能库，还带来了与ComfyUI Impact Pack不同的特性，为您的艺术创造之旅增添新维度。安装方法插件解压后（去掉-main）放到ComfyUI根目录的custom_nod…
其他插件
- 19.7k
- 19.7k
ComfyUI教程8月5日
Wan2.2 KJ版工作流：文生视频超流畅速度更快

一、KJ版Wan2.2介绍 Wan2.2 此次开源的文生视频模型和图生视频模型均为业界首个使用 MoE 架构的视频生成模型，总参数量为 27B，激活参数 14B，均由高噪声专家模型和低噪专家模型组成，分别负责视频的整体布局和细节完善。之前一直分享的是Wan2.2官方版本的工作流，KJ这边的其实也已经同步支持了，今天就来分享下KJ版本的Wan2.2的工作流，听说会比官版的消耗更低的显存，效果更好。我…
主模型
- 61.8k
- 61.8k
ComfyUI教程8月4日