通义万相2.2最令人瞩目的,当属其生成电影级高清视频的能力。目前,该模型单次便可生成5秒的高清视频。这5秒视频绝非普通水准。在光影、色彩、构图以及人物微表情等细节处理上,通义万相2.2达到了专业电影制作的水平。
一、Wan2.2简介
通义万相 2.2(Wan 2.2)是阿里云推出的新一代多模态生成模型。该模型采用创新的 MoE(Mixture of Experts)架构,由高噪专家模型和低噪专家模型组成,能够根据去噪时间步进行专家模型划分,从而生成更高质量的视频内容。
Wan 2.2 具备三大核心特性:影视级美学控制,深度融合专业电影工业的美学标准,支持光影、色彩、构图等多维度视觉控制;大规模复杂运动,轻松还原各类复杂运动并强化运动的流畅度和可控性;精准语义遵循,在复杂场景和多对象生成方面表现卓越,更好还原用户的创意意图。 模型支持文生视频、图生视频等多种生成模式,适用于内容创作、艺术创作、教育培训等多种应用场景。
此次开源,通义万相2.2推出了三款模型。
- 文生视频(Wan2.2-T2V-A14B)
- 图生视频(Wan2.2-I2V-A14B)
- 统一视频生成(Wan2.2-TI2V-5B)
模型亮点
- 影视级美学控制:专业镜头语言,支持光影、色彩、构图等多维度视觉控制
- 大规模复杂运动:流畅还原各类复杂运动,强化运动可控性和自然度
- 精准语义遵循:复杂场景理解,多对象生成,更好还原创意意图
- 高效压缩技术:5B版本高压缩比VAE,显存优化,支持混合训练
二、Wan2.2 开源模型版本
Wan2.2 系列模型基于 Apache2.0 开源协议,支持商业使用。Apache2.0 许可证允许您自由使用、修改和分发这些模型,包括商业用途,只需保留原始版权声明和许可证文本。
模型类型 | 模型名称 | 参数量 | 主要功能 | 模型仓库 |
---|---|---|---|---|
混合模型 | Wan2.2-TI2V-5B | 5B | 支持文本生成视频和图像生成视频的混合版本,单一模型满足两大核心任务需求 | 🤗 Wan2.2-TI2V-5B |
图生视频 | Wan2.2-I2V-A14B | 14B | 将静态图像转换为动态视频,保持内容一致性和流畅的动态过程 | 🤗 Wan2.2-I2V-A14B |
文生视频 | Wan2.2-T2V-A14B | 14B | 从文本描述生成高质量视频,具备影视级美学控制和精准语义遵循 | 🤗 Wan2.2-T2V-A14B |
三、模型存放路径
Diffusion Model
- wan2.2_ti2v_5B_fp16.safetensors
VAE
- wan2.2_vae.safetensors
Text Encoder
- umt5_xxl_fp8_e4m3fn_scaled.safetensors
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ └───wan2.2_ti2v_5B_fp16.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan2.2_vae.safetensors
四、Wan2.2工作流示例
五、结语
通义万相Wan2.2作为阿里巴巴开源的先进AI视频生成模型,凭借其强大的技术实力和丰富的功能特性,为AI视频生成领域带来了新的突破。无论是创作者、广告公司、教育机构还是影视制作团队,都可以通过使用通义万相Wan2.2,快速生成高质量的视频内容,提升创作效率和作品质量。随着技术的不断发展和优化,相信通义万相Wan2.2将在更多的领域发挥重要作用,为视频创作带来更多的可能性和创新。