全部标签

models

【Comfyui】OVI同时生成视频及对应音频的生成模型

一、OVI模型介绍 Ovi 是一种类似 veo-3 的视频+音频生成模型，可同时从文本或文本+图像输入生成视频和音频内容。 🎬 视频+音频生成：同时生成同步的视频和音频内容 📝 灵活输入：支持纯文本或文本+图像调理 ⏱️ 5 秒视频：以 24 FPS、面积 720×720、各种宽高比（9：16、16：9、1：1 等）生成 5 秒视频二、相关安装插件安装 ComfyUI 的自定义节点，集…
视频插件
- 1.8k
- 1.8k
ComfyUI教程10月6日
Qwen-Image-Edit多图编辑nunchaku加速模型

模型介绍该模型是Qwen Image Edit的4步技术版本，我们提供了适配30、40 显卡的svdq-int4_r128-qwen-image-edit-2509-lightningv2.0-4steps模型，如果你是50系列显卡，可以到下面的链接下载fp4版本模型特点 🔹 多图编辑支持 Qwen-Image-Edit-2509 在原有架构基础上，通过多图拼接训练，首次支持多图编辑。可处…
加速模型
- 1.4k
- 1.4k
ComfyUI教程10月5日
Wan-Alpha：生成高质量文本到视频透明素材生成VAE

一、Wan-Alpha介绍 WAN Alpha是万相开源（WanX）2.1版本中的核心组件VAE，主要用于实现图生视频功能。它通过深度学习模型生成高质量动态画面，支持动作特效、角色动画等场景化生成，并具备灵活的参数调节能力。 ‌‌这个项目是基于wan2.1视频生成模型，通过联合学习RGB和Alpha通道来生成透明视频。一个有效的变分自动编码器（VAE），编码到RGB潜在空间的阿尔法通道来实现。生成…
海报设计
- 5.2k
- 5.2k
ComfyUI教程10月1日
Flux全部GGUF量化模型合集

概述 Flux GGUF 版本是 Flux 模型的一种优化版本，专门为低显存设备设计，能够在显存有限的情况下运行高质量的 AI 图像生成任务。以下是对 Flux GGUF 版本的详细解释： 1. 什么是 GGUF？ GGUF 是 GPT-Generated Unified Format 的缩写，是一种高效的模型存储和交换格式。它通过量化技术（如 4 位、6 位、8 位等）压缩模型权重，从而减…
Flux工作流
- 3.6k
- 3.6k
ComfyUI教程9月30日
Comfyui模型目录迁移工具及教程

导言：你是否也遇到了这样的困扰？主力ComfyUI环境积累了庞大的模型库（几十GB甚至上百GB），但同时又需要使用轻便的便携版ComfyUI。重复下载模型耗时耗力，而默认必须放在软件目录下又限制了存储灵活性。别担心！这里有一个极其简单、安全、零空间占用的终极方案，不仅能让便携版共享已有模型库，更能将模型文件存放在你指定的任意位置！操作只需几步，释放你的存储自由。方法一、模型迁移官方原版教程： …
实用工具
- 7.6k
- 7.6k
ComfyUI教程9月28日
ComfyUI-FireRedTTS2：小红书开源AI配音神器,3秒克隆声音

一、FireRedTTS2介绍「FireRedTTS-2」是一款面向多说话者对话生成的长篇流式文本转语音（TTS）系统，旨在提供稳定、自然的语音输出，同时实现可靠的说话人切换和语境感知的韵律。该系统在支持多语言、实现超低延迟方面取得了显著突破，使其成为长对话、实时交互场景的理想选择，推动了语音合成技术在复杂对话环境中的应用。关键亮点：长对话语音生成能力：「FireRedTTS-2」目前已支…
视频插件
- 5.9k
- 5.9k
ComfyUI教程9月25日
阿里通义实验室Qwen项目组升级图像编辑模型Qwen-Image-Edit新版本 Qwen-Image-Edit-2509：支持多图输入与更强一致性

通义实验室发布 Qwen-Image-Edit-2509，作为 Qwen-Image-Edit 系列的月度迭代版本。该模型已在 Qwen Chat 平台上线，用户可通过“图像编辑”功能直接体验。阿里通义千问推出Qwen-Image-Edit，Qwen-Image的图像编辑版本。Qwen-Image-Edit基于20B的Qwen-Image模型进⼀步训练，成功将Qwen-Image的独特的文本渲染能…
主模型
- 9.4k
- 9.4k
ComfyUI教程9月24日
Qwen位置偏移Comfyui-QwenEditUtils：轻松搞定位置偏移与一致性编辑难题

一、Qwen-Image-edit简介在之前文章已经多次介绍过最新阿里团队开源的一致性图像编辑框架：Qwen-Image-edit框架（阿里Qwen图像编辑：一致性显著提升修复方案！20B国产图像编辑模型经典案例集锦）。但由于在图像编辑中存在位置偏移很大程度的影响一致性图像编辑质量，因此在开源社区一直生态未迅速发展起来。今天的文章将介绍来自社区的大佬小志Jason开源了个人研究实践心得，并封装为…
ControlNet
- 11.3k
- 11.3k
ComfyUI教程9月22日
第一集：Comfyui新手入门到实践【Comfyui教程从零基础到精通】

本文为初学者提供ComfyUI的全方位入门指南，包括ComfyUI简介、安装步骤、文生图与图生图工作流程、模型选择与下载、以及多个实践操作案例。通过本文，读者可以全面了解ComfyUI并上手操作。 ComfyUI入门到实践全攻略在探索AI图像生成的广阔世界中，ComfyUI以其直观、灵活的用户界面脱颖而出，为Stable Diffusion提供了一个强大的操作和管理平台。本指南将带领初学者从Co…
视频教程
- 10.1k
- 10.1k
ComfyUI教程9月21日
王炸！阿里开源Wan Animate！电影级动作迁移及主体替换

Wan2.2更新记录 2025年9月19日: 💃 我们推出了**Wan2.2-Animate-14B**，这是一个统一的角色动画和替换模型，具有整体动作和表情复制功能。我们发布了模型权重和推理代码。现在您可以在wan.video、ModelScope Studio或HuggingFace Space上尝试它！ 2025年8月26日: 🎵 我们推出了**Wan2.2-S2V-14B**，这是一个音频…
视频插件
- 22.7k
- 22.7k
ComfyUI教程9月21日
【Comfyui】Wan 2.1 图片转360°视频-360度产品动画旋转展示

通过可控旋转变换（建议5°步长），可将静态图像转化为多视角数据序列。该技术利用插值算法生成连续帧，系统化采集人物0°-360°的标准角度图像。经测试，仅需采集8个基准视角（0°/45°/90°/...）即可满足LoRA模型的训练需求，显著降低3D建模的数据采集成本。首先通过图生视频工作流生成360度旋转视频，提取关键帧图片，再利用在线工具统一尺寸。基于Wan2.1生成，其功能是使生成的图片实现36…
关联模型
- 7.9k
- 7.9k
ComfyUI教程9月20日
Ai数字人:HuMo—清华和字节共同开源多角色参考+物品参考+对口型

一、HuMo是什么 HuMo是清华大学联合字节跳动智能创作实验室推出的开源多模态视频生成框架，专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细可控的人类视频。HuMo支持强大的文本提示跟随能力、一致的主体保留以及音频驱动的动作同步。支持从文本-图像、文本-音频以及文本-图像-音频生成视频，提供更高的定制化和控制能力。HuMo支持480P和720P分辨率的视频生成，72…
视频插件
- 6.2k
- 6.2k
ComfyUI教程9月15日
字节开源OneReward模型: 最新重绘神器

一、OneReward模型介绍 OneReward 是一种基于Qwen2.5-VL生成式奖励模型的全新视觉领域RLHF方法，通过增强多任务强化学习显著提升策略模型在多项子任务中的生成能力。基于OneReward，开发出Seedream 3.0 Fill 统一图像编辑模型，能高效处理图像填充、延展、物体消除和文字渲染等多样化任务，其表现超越Ideogram、Adobe Photoshop和FLUX …
Flux工作流
- 10.3k
- 10.3k
ComfyUI教程9月14日
YOLO(目标检测、图像分割、姿态估计)：更快更准的高效目标检测模型

一、YOLO模型介绍 YOLO 是一种高效的物体检测模型，能够通过单一网络进行快速的物体检测。结合预训练模型，YOLO 可以在许多视觉任务中加速开发过程，提高性能。预训练模型的优势在于能够节省训练时间、提高模型性能，并且适用于迁移学习任务。对于物体检测，使用预训练的 YOLO 模型是一种非常高效的做法，尤其是在没有大量标注数据时。YOLO 模型的核心特点是采用一个单独的神经网络对图像进行处理，进行…
其他插件
- 4.6k
- 4.6k
ComfyUI教程9月13日
[ComfyUI]Nunchaku双截棍-V1.0.1正式版上线,速度起飞！仅需10秒生图！

ComfyUI-nunchaku v1.0.1 更新 • 修复 Qwen-Image ControlNet 不生效的问题。 • 新增Qwen-Image 节点参数： * num_block_on_gpus：在启用 cpu_offload 时，增大该值可降低 CPU 内存消耗，但会增加显存消耗。 * use_pin_memory：在启用 cpu_offload 时，打开该选项会增加内存消耗，但能加快…
Flux工作流
- 48.8k
- 48.8k
ComfyUI教程9月13日
腾讯混元 3D 2.1 发布：首个全链路开源工业级 3D 生成大模型

前段时间腾讯发布了图片文字转3D模型软件混元3D大模型2.0版Hunyuan3D-2，现在腾讯正式发布「混元3D 2.1」——直接打出“完全开源+真实材质渲染+消费级显卡运行”的组合拳！腾讯混元3D 2.1开源了业界首个全链路工业级3D生成大模型，本次不仅开源了模型权重、训练代码和数据处理流程，还完整公开了核心架构设计。通过引入PBR（基于物理的渲染）技术，显著提升了材质细节的真实性，模型在不同光…
3D插件
- 5k
- 5k
ComfyUI教程9月11日
[ComfyUI]Index-TTS2声音生成克隆王者登基：影视级别效果—零样本克隆+情绪控制，重塑配音新体验

一、Index-TTS2简介： IndexTTS2是一款备受瞩目的新一代文本转语音（TTS）大模型，它以其能达影视级水准的高质量语音合成效果而引人注目。这款模型不仅支持完全本地化部署并计划开放权重，极大赋能开发者；更拥有强大的零样本语音克隆能力以及全球首创的情绪与时长精细控制功能，标志着TTS技术迈入了新高度，未来在影视制作、虚拟角色乃至日常交互等场景都极具颠覆性潜力。 github地址：http…
其他插件
- 18k
- 18k
ComfyUI教程9月10日
Comfyui最强音色克隆：字节开源项目 MegaTTS

MegaTTS介绍 MegaTTS 3是字节跳动团队开发的一个文本转语音（TTS）模型。虽然只有 0.45B 参数，但效果一点不输大模型：中英文随便切换，读出来又自然又有情感，还能做语音克隆，用几秒音频就能模仿出某个人的声音。它最核心的功能是声音克隆，只需要一段几秒钟的简短音频，就能模仿这个人的声音说出任何话。这个模型在技术上做了一些创新，比如它不是直接处理原始的音频文件，而是先用一个叫Wa…
基础工作流
- 13.6k
- 13.6k
ComfyUI教程9月7日
ComfyUI官方原生支持HiDream-E1，一句话指令玩转风格、换装、改文字

HiDream-E1简介 HiDream 是由中国智象未来团队创业团队 HiDream.ai 开发的开源生成式多模态模型，专注于文本生成图像、视频及 3D 内容。基于 HiDream-I1 构建的图像编辑模型，支持通过简单语言指令修改图片风格、物体属性、场景替换等。当前它迎来了ComfyUI官方的原生支持，并且社区已经有对应的GGUF版本支持。对于17B全精度的文生图模型，在大部分24G的消费显卡…
主模型
- 5.5k
- 5.5k
ComfyUI教程9月5日
字节USO模型打破AI绘画‘二选一’困境，完美融合主体与风格生成

一、USO模型介绍 USO (Unified Style-Subject Optimized) 是字节跳动 UXO 团队开发的Lora模型，统一了风格驱动和主体驱动生成任务。基于 FLUX.1-dev 架构构建，该模型通过解耦学习和风格奖励学习 (SRL) 实现了风格相似性和主体一致性。USO能够处理单个任务及其自由组合，同时在主体一致性、风格保真度和文本可控性方面表现出卓越的性能。模型亮点 …
Flux工作流
- 6.4k
- 6.4k
ComfyUI教程9月4日
2025年9月秋叶大佬最新Comfyui整合包：ComfyUI-aki-V1.7和V2.7-史诗级更新

本文持续更新秋叶大神最新发布的ComfyUI整合包。ComfyUI是一个非常便利的AI绘画工具，拥有节点式和工作流式的AI绘画界面，并支持多种节点的使用。秋叶大神发布ComfyUI整合包主要是为了改善国内ComfyUI的入门生态，使新手更轻松入门。尽管ComfyUI以其高度可定制和自定义的编辑方式而受到广泛使用，但对于新手来说却具有一定的难度。此外，快速的更新速度、不兼容的更新、以及社区化松散等问…
必备工具
- 2.7m
- 2.7m
ComfyUI教程9月1日
ComfyUI 通义万相Wan2.2-S2V：革命性技术突破，一键对口型+姿态复刻

一、Wan2.2-S2V介绍 ComfyUI官方宣布，高性能音频驱动视频生成模型Wan2.2-S2V已实现原生适配—无需额外插件，即可直接在ComfyUI中调用该模型，将静态图片与音频结合，生成对话、唱歌、角色表演等动态视频内容。无论是追求电影级画质，还是需要分钟级长视频创作，这个工作流都能满足多场景需求。 Wan2.2-S2V模型的核心优势在开始操作前，先明确该模型的核心能力，以便根据需求调整…
视频模型
- 20k
- 20k
ComfyUI教程8月31日
Qwen-Image ControlNet正式支持：深度、Canny与Inpaint局部重绘，精度升级！

一、Qwen-Image-ControlNet-Union介绍通义千问多合一ControlNet-Union终于来了！实测深度/线稿/重绘/姿势四大控制，操作简化10倍！ InstantX新推出的Qwen-Image-ControlNet-Union，这个模型3.29G，InstantX团队出的CN控制模型一直都是精品，Flux也是这个团队出的最好用，这次终于有了，太妙了，前面（Qwen-Ima…
实用工具
- 12.3k
- 12.3k
ComfyUI教程8月27日
如何排查和解决 ComfyUI 中模型相关的问题

模型架构不匹配症状：生成过程中出现张量维度错误，特别是在 VAE 解码阶段常见错误消息： Given groups=1, weight of size [64, 4, 3, 3], expected input[1, 16, 128, 128] to have 4 channels, but got 16 channels instead Given groups=1, weight of s…
其他
- 7.6k
- 7.6k
ComfyUI教程8月23日