全部标签

图像

【Comfyui】OVI同时生成视频及对应音频的生成模型

一、OVI模型介绍 Ovi 是一种类似 veo-3 的视频+音频生成模型，可同时从文本或文本+图像输入生成视频和音频内容。 🎬 视频+音频生成：同时生成同步的视频和音频内容 📝 灵活输入：支持纯文本或文本+图像调理 ⏱️ 5 秒视频：以 24 FPS、面积 720×720、各种宽高比（9：16、16：9、1：1 等）生成 5 秒视频二、相关安装插件安装 ComfyUI 的自定义节点，集…
视频插件
- 1.9k
- 1.9k
ComfyUI教程10月6日
Qwen-Image-Edit多图编辑nunchaku加速模型

模型介绍该模型是Qwen Image Edit的4步技术版本，我们提供了适配30、40 显卡的svdq-int4_r128-qwen-image-edit-2509-lightningv2.0-4steps模型，如果你是50系列显卡，可以到下面的链接下载fp4版本模型特点 🔹 多图编辑支持 Qwen-Image-Edit-2509 在原有架构基础上，通过多图拼接训练，首次支持多图编辑。可处…
加速模型
- 1.4k
- 1.4k
ComfyUI教程10月5日
第七集：comfyui节点如何连接—【Comfyui教程从零基础到精通】

ComfyUI作为一款基于Stable Diffusion的节点式操作界面，为用户提供了一个更加灵活和高效的文生图（文本生成图像）创作环境。本篇博客将详细介绍如何使用ComfyUI进行文生图操作，无论你是初学者还是有一定基础的用户，都能够通过本指南快速上手。【CLIP文本编码器】就是一个我们最常见最常用的条件节点，告诉采样过程，我要什么，我不要什么。K采样器就会按照我们的要求进行采样工作，最终生…
视频教程
- 2.7k
- 2.7k
ComfyUI教程10月1日
Wan-Alpha：生成高质量文本到视频透明素材生成VAE

一、Wan-Alpha介绍 WAN Alpha是万相开源（WanX）2.1版本中的核心组件VAE，主要用于实现图生视频功能。它通过深度学习模型生成高质量动态画面，支持动作特效、角色动画等场景化生成，并具备灵活的参数调节能力。 ‌‌这个项目是基于wan2.1视频生成模型，通过联合学习RGB和Alpha通道来生成透明视频。一个有效的变分自动编码器（VAE），编码到RGB潜在空间的阿尔法通道来实现。生成…
海报设计
- 5.2k
- 5.2k
ComfyUI教程10月1日
Flux全部GGUF量化模型合集

概述 Flux GGUF 版本是 Flux 模型的一种优化版本，专门为低显存设备设计，能够在显存有限的情况下运行高质量的 AI 图像生成任务。以下是对 Flux GGUF 版本的详细解释： 1. 什么是 GGUF？ GGUF 是 GPT-Generated Unified Format 的缩写，是一种高效的模型存储和交换格式。它通过量化技术（如 4 位、6 位、8 位等）压缩模型权重，从而减…
Flux工作流
- 3.6k
- 3.6k
ComfyUI教程9月30日
Chroma 模型家族正式发布：基于 FLUX.1-schnell，8.9亿参数开源无限制，4大分支适配不同需求

一、模型概述 Chroma 是一个基于 FLUX.1-schnell 构建的 8.9 亿参数生成模型 Chroma 。它采用了 Apache 2.0 许可证，完全开源，允许任何人使用、修改和在其基础上进行开发，不存在企业限制。该模型目前正在训练中，，Chroma 最大特点是“无美学调整、无后训练限制”，以原始、中立的基础模型形态，为后续微调提供灵活起点。Chroma 模型完全未经过审查，重新引入了…
主模型
- 4.5k
- 4.5k
ComfyUI教程9月27日
ComfuUI-SDMatte最强抠图插件，用于交互式图像抠图

一、介绍 SDMatte 是一种基于 Stable Diffusion 的交互式图像抠图方法，由 vivo 相机研究团队开发，并被 ICCV 2025 接受。该方法利用了预训练扩散模型的强大先验，并支持多个视觉提示（点、框、蒙版）来准确地从自然图像中提取目标对象。该插件将 SDMatte 集成到 ComfyUI 中，提供简单易用的节点界面，专注于三图引导的抠图功能，并内置 VRAM 优化策略。 …
图片插件
- 4.1k
- 4.1k
ComfyUI教程9月26日
阿里通义实验室Qwen项目组升级图像编辑模型Qwen-Image-Edit新版本 Qwen-Image-Edit-2509：支持多图输入与更强一致性

通义实验室发布 Qwen-Image-Edit-2509，作为 Qwen-Image-Edit 系列的月度迭代版本。该模型已在 Qwen Chat 平台上线，用户可通过“图像编辑”功能直接体验。阿里通义千问推出Qwen-Image-Edit，Qwen-Image的图像编辑版本。Qwen-Image-Edit基于20B的Qwen-Image模型进⼀步训练，成功将Qwen-Image的独特的文本渲染能…
主模型
- 9.4k
- 9.4k
ComfyUI教程9月24日
第六集：SDXL工作流搭建—【Comfyui教程从零基础到精通】

Stable Diffusion XL 模型是在 Stable Diffusion 1.5、Stable Diffusion 2.1 之后推出的更新的图像生成模型，它在之前的基础上有了很多改进。一个新模型的推出，要在已有的 GUI 系统上进行适配需要一定的开发时间，而 ComfyUI 凭借着自己极为灵活的可配置性，成为了最早支持 Stable Diffusion XL 模型的 GUI 之一。 S…
视频教程
- 3.6k
- 3.6k
ComfyUI教程9月22日
第三集：ComfyUI常用必备插件的使用与优化技巧—【Comfyui教程从零基础到精通】

ComfyUI作为一个强大的AI绘画工具平台，其丰富的插件生态为用户提供了更多的可能性。以下是ComfyUI完全入门所需的必备插件，它们将帮助你更高效地使用ComfyUI进行创作。视频介绍了ComfyUI中几款实用插件的使用与优化技巧。首先是通过easyuse插件有效降低显存占用，提高运行效率。其次是多图像选择节点（图像编号切换），方便在多个图像中快速切换目标图像，适用于换脸等场景。另外介绍了图…
视频教程
- 4.2k
- 4.2k
ComfyUI教程9月22日
第二集：ComfyUI基础概念讲解新手轻松搭建工作流—【Comfyui教程从零基础到精通】

1.更适合零基础学员：0基础从你适不适合开始讲起。本视频讲解了从零开始搭建ComfyUI工作流的过程，重点介绍了最基础的纹身图工作流的搭建步骤。首先通过添加采样器节点作为核心，连接大模型加载器、Clip文本编码器和VAE解码器等节点，完成输入与输出端的配置。接着设置参数，如CFG、采样器调度器，并输入正负提示词。最后通过执行生成预览图像，展示了工作流的运行效果。视频还强调了一个输出端可连接多个输…
视频教程
- 4.9k
- 4.9k
ComfyUI教程9月22日
Qwen位置偏移Comfyui-QwenEditUtils：轻松搞定位置偏移与一致性编辑难题

一、Qwen-Image-edit简介在之前文章已经多次介绍过最新阿里团队开源的一致性图像编辑框架：Qwen-Image-edit框架（阿里Qwen图像编辑：一致性显著提升修复方案！20B国产图像编辑模型经典案例集锦）。但由于在图像编辑中存在位置偏移很大程度的影响一致性图像编辑质量，因此在开源社区一直生态未迅速发展起来。今天的文章将介绍来自社区的大佬小志Jason开源了个人研究实践心得，并封装为…
ControlNet
- 11.4k
- 11.4k
ComfyUI教程9月22日
第一集：Comfyui新手入门到实践【Comfyui教程从零基础到精通】

本文为初学者提供ComfyUI的全方位入门指南，包括ComfyUI简介、安装步骤、文生图与图生图工作流程、模型选择与下载、以及多个实践操作案例。通过本文，读者可以全面了解ComfyUI并上手操作。 ComfyUI入门到实践全攻略在探索AI图像生成的广阔世界中，ComfyUI以其直观、灵活的用户界面脱颖而出，为Stable Diffusion提供了一个强大的操作和管理平台。本指南将带领初学者从Co…
视频教程
- 10.1k
- 10.1k
ComfyUI教程9月21日
王炸！阿里开源Wan Animate！电影级动作迁移及主体替换

Wan2.2更新记录 2025年9月19日: 💃 我们推出了**Wan2.2-Animate-14B**，这是一个统一的角色动画和替换模型，具有整体动作和表情复制功能。我们发布了模型权重和推理代码。现在您可以在wan.video、ModelScope Studio或HuggingFace Space上尝试它！ 2025年8月26日: 🎵 我们推出了**Wan2.2-S2V-14B**，这是一个音频…
视频插件
- 22.7k
- 22.7k
ComfyUI教程9月21日
【Comfyui】Wan 2.1 图片转360°视频-360度产品动画旋转展示

通过可控旋转变换（建议5°步长），可将静态图像转化为多视角数据序列。该技术利用插值算法生成连续帧，系统化采集人物0°-360°的标准角度图像。经测试，仅需采集8个基准视角（0°/45°/90°/...）即可满足LoRA模型的训练需求，显著降低3D建模的数据采集成本。首先通过图生视频工作流生成360度旋转视频，提取关键帧图片，再利用在线工具统一尺寸。基于Wan2.1生成，其功能是使生成的图片实现36…
关联模型
- 7.9k
- 7.9k
ComfyUI教程9月20日
字节跳动Seedream 4.0图像创作新突破：文生图、图像编辑、组图生成

ComfyUI官方宣布字节跳动的Seedream 4.0 已集成至 ComfyUI，通过官方 API 节点即可直接调用，无需额外部署，开箱即用。（⚠️注：API从Comfyui官方调用需要付费，模型未开源）一、字节跳动Seedream 4.0介绍 Seedream 4.0是字节跳动旗下Seed团队于2025年9月9日正式发布的新一代AI图像创作模型。作为火山引擎MaaS平台的核心产品，该模型首次…
图形设计
- 8k
- 8k
ComfyUI教程9月19日
ComfyUI 局部重绘的3种工作流搭建方法和原理讲解

今天给大家带来的是 ComfyUI 的局部重绘的工作流，跟之前一样，我会通过一些理论知识来帮助大家对 ComfyUI 的工作流和节点有更深的认知，还是那句话，知其然，还要知其所以然。为什么要写局部重绘，是因为我发现虽然市面上有很多 ComfyUI 的基础局部重绘的教程，我也看了很多，但老有一种隔靴搔痒的感觉，让我似懂非懂。抱着“假设-验证-结果-总结”的探索精神，我看了大量相关的视频，教程和官…
进阶教程
- 5.3k
- 5.3k
ComfyUI教程9月16日
Ai数字人:HuMo—清华和字节共同开源多角色参考+物品参考+对口型

一、HuMo是什么 HuMo是清华大学联合字节跳动智能创作实验室推出的开源多模态视频生成框架，专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细可控的人类视频。HuMo支持强大的文本提示跟随能力、一致的主体保留以及音频驱动的动作同步。支持从文本-图像、文本-音频以及文本-图像-音频生成视频，提供更高的定制化和控制能力。HuMo支持480P和720P分辨率的视频生成，72…
视频插件
- 6.3k
- 6.3k
ComfyUI教程9月15日
字节开源OneReward模型: 最新重绘神器

一、OneReward模型介绍 OneReward 是一种基于Qwen2.5-VL生成式奖励模型的全新视觉领域RLHF方法，通过增强多任务强化学习显著提升策略模型在多项子任务中的生成能力。基于OneReward，开发出Seedream 3.0 Fill 统一图像编辑模型，能高效处理图像填充、延展、物体消除和文字渲染等多样化任务，其表现超越Ideogram、Adobe Photoshop和FLUX …
Flux工作流
- 10.5k
- 10.5k
ComfyUI教程9月14日
YOLO(目标检测、图像分割、姿态估计)：更快更准的高效目标检测模型

一、YOLO模型介绍 YOLO 是一种高效的物体检测模型，能够通过单一网络进行快速的物体检测。结合预训练模型，YOLO 可以在许多视觉任务中加速开发过程，提高性能。预训练模型的优势在于能够节省训练时间、提高模型性能，并且适用于迁移学习任务。对于物体检测，使用预训练的 YOLO 模型是一种非常高效的做法，尤其是在没有大量标注数据时。YOLO 模型的核心特点是采用一个单独的神经网络对图像进行处理，进行…
其他插件
- 4.6k
- 4.6k
ComfyUI教程9月13日
[ComfyUI]Nunchaku双截棍-V1.0.1正式版上线,速度起飞！仅需10秒生图！

ComfyUI-nunchaku v1.0.1 更新 • 修复 Qwen-Image ControlNet 不生效的问题。 • 新增Qwen-Image 节点参数： * num_block_on_gpus：在启用 cpu_offload 时，增大该值可降低 CPU 内存消耗，但会增加显存消耗。 * use_pin_memory：在启用 cpu_offload 时，打开该选项会增加内存消耗，但能加快…
Flux工作流
- 48.8k
- 48.8k
ComfyUI教程9月13日
ComfyUI官方原生支持HiDream-E1，一句话指令玩转风格、换装、改文字

HiDream-E1简介 HiDream 是由中国智象未来团队创业团队 HiDream.ai 开发的开源生成式多模态模型，专注于文本生成图像、视频及 3D 内容。基于 HiDream-I1 构建的图像编辑模型，支持通过简单语言指令修改图片风格、物体属性、场景替换等。当前它迎来了ComfyUI官方的原生支持，并且社区已经有对应的GGUF版本支持。对于17B全精度的文生图模型，在大部分24G的消费显卡…
主模型
- 5.7k
- 5.7k
ComfyUI教程9月5日
字节USO模型打破AI绘画‘二选一’困境，完美融合主体与风格生成

一、USO模型介绍 USO (Unified Style-Subject Optimized) 是字节跳动 UXO 团队开发的Lora模型，统一了风格驱动和主体驱动生成任务。基于 FLUX.1-dev 架构构建，该模型通过解耦学习和风格奖励学习 (SRL) 实现了风格相似性和主体一致性。USO能够处理单个任务及其自由组合，同时在主体一致性、风格保真度和文本可控性方面表现出卓越的性能。模型亮点 …
Flux工作流
- 6.4k
- 6.4k
ComfyUI教程9月4日
腾讯混元开源AI音频模型:Hunyuan-Foley：视频 + 文字 =“电影级”音效

腾讯混元今天午间宣布开源端到端视频音效生成模型 Hunyuan-Foley，用户只需输入视频和文字，就能为视频匹配电影级音效。根据官方介绍，HunyuanVideo-Foley 不仅打破了 AI 生成的视频只能“看”不能“听” 的局限，让无声 AI 视频成为历史，更是真正做到了“看懂画面、读懂文字、配准声音”，带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开…
视频插件
- 4.2k
- 4.2k
ComfyUI教程9月3日