HiDream-E1简介
HiDream 是由中国智象未来团队创业团队 HiDream.ai 开发的开源生成式多模态模型,专注于文本生成图像、视频及 3D 内容。基于 HiDream-I1 构建的图像编辑模型,支持通过简单语言指令修改图片风格、物体属性、场景替换等。当前它迎来了ComfyUI官方的原生支持,并且社区已经有对应的GGUF版本支持。对于17B全精度的文生图模型,在大部分24G的消费显卡上很难运行。这次ComfyUI的原生支持和GGUF模型加载,将社区全新量化模型支持将这变为可能。
项目特点包括:
多模态支持:覆盖文本、图像、视频、3D 生成,参数超百亿,迭代周期短;
中文优化:针对中文提示词和国风元素深度优化,GenEval 中文评测得分开源模型第一;
部署友好:提供 Full/Dev/Fast 多版本及 4bit 量化,适配从服务器到移动端场景;
开源生态:该模型基于 MIT 许可证 发布,支持用于个人项目、科学研究以及商用。
模型安装及下载:
名称 | 更新时间 | 推理步数 | 分辨率 | HuggingFace仓库 |
---|---|---|---|---|
HiDream-E1-满 | 2025-4-28 | 28 | 768x768 | 🤗 HiDream-E1-满 |
HiDream-E1.1 | 2025-7-16 | 28 | 动态(1百万像素) | 🤗 HiDream-E1.1 |
Diffusion Model
由于 E1.1 是基于 E1 的迭代版本,在实际测试中它的质量和效果较 E1 都有较大提升
- hidream_e1_full_bf16.safetensors
Text Encoder:
- clip_l_hidream.safetensors
- clip_g_hidream.safetensors
- t5xxl_fp8_e4m3fn_scaled.safetensors
- llama_3.1_8b_instruct_fp8_scaled.safetensors
VAE
模型安装路径
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 text_encoders/
│ │ ├─── clip_l_hidream.safetensors
│ │ ├─── clip_g_hidream.safetensors
│ │ ├─── t5xxl_fp8_e4m3fn_scaled.safetensors
│ │ └─── llama_3.1_8b_instruct_fp8_scaled.safetensors
│ └── 📂 vae/
│ │ └── ae.safetensors
│ └── 📂 diffusion_models/
│ ├── hidream_e1_1_bf16.safetensors
│ └── hidream_e1_full_bf16.safetensors
工作流及体验
E1 是于 2025 年 4 月 28 日发布的,这个模型只支持 768*768 的分辨率
按步骤完成工作流的运行
- 确保
Load Diffusion Model
节点加载了hidream_e1_1_bf16.safetensors
模型 - 确保
QuadrupleCLIPLoader
中四个对应的 text encoder 被正确加载- clip_l_hidream.safetensors
- clip_g_hidream.safetensors
- t5xxl_fp8_e4m3fn_scaled.safetensors
- llama_3.1_8b_instruct_fp8_scaled.safetensors
- 确保
Load VAE
节点中使用的是ae.safetensors
文件 - 在
Load Image
节点中加载提供的输入或你需要的图片 - 在
Empty Text Encoder(Positive)
节点中输入 想要对图片进行的修改 - 在
Empty Text Encoder(Negative)
节点中输入 不想要在画面中出现的内容 - 点击
Run
按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)
来执行图片生成
工作流补充说明
- 使用 fp16 版本的模型,在实际测试过程中,在 A100 40GB 和 4090D 24GB 时使用完整版本时会 Out of memory,所以工作流默认设置了使用
fp8_e4m3fn_fast
来进行推理 - 可能需要修改多次提示词或者进行多次的生成才能得到较好的结果
- 这个模型在改变图片风格上比较难保持一致性,需要尽可能完善提示词
- 由于模型支持的是 768*768 的分辨率,在实际测试中调整过其它尺寸,在其它尺寸下图像表现能力不佳,甚至差异较大