Wan 2.6 — AI 视频生成，智能多镜头叙事

阿里巴巴最新视觉生成模型系列。从文本、图像或参考视频生成最长 15 秒的电影级视频，支持智能多镜头叙事、音视频同步，呈现专业级视觉效果。

已在 SeedDance 平台上线

阿里巴巴最先进的视觉生成模型系列

Wan 2.6 是阿里巴巴 Wan 系列的最新版本，于 2025 年 12 月发布。首次推出全球首创的参考视频生成模型（Wan2.6-R2V），并对文生视频、图生视频能力进行全面升级，引入智能多镜头叙事功能，为全球创作者提供专业级内容生产能力。

参考视频生成（R2V）

全球首创参考视频生成模型。上传包含外貌和声音的角色参考视频，通过文本提示生成该角色主演的全新场景，保持视觉与音频的高度一致性。

智能多镜头叙事

生成全程视觉一致的多场景叙事视频。Wan 2.6 理解场景连续性、人物运动和叙事逻辑，呈现电影级故事表达，而非孤立的视频片段。

音视频同步生成

大幅提升的音视频同步能力和音频生成效果，以更丰富、更沉浸的音效自然呈现视觉内容，带来真实感更强的观看体验。

最长 15 秒视频时长

支持生成最长 15 秒的视频，为创作者提供更充裕的叙事空间，配合增强的指令跟随精度，实现更丰富的场景表达。

选择 Wan 2.6 的理由

Wan 2.6 全面突破 AI 视频生成的能力边界，提供多种生成模式和电影级输出质量，满足各类创作者的内容需求。

增强的多人对话场景生成能力，保持稳定的角色身份，跨场景保证面孔、声音和肢体语言的一致性，使复杂叙事场景成为可能。

Wan 2.6 完整功能列表

覆盖视频、音频和图像创作的全套 AI 生成能力，满足专业内容生产的各类需求。

文生视频（Wan2.6-T2V）

从自然语言描述生成电影级视频片段。增强的指令跟随能力和更高的视觉质量，让复杂叙事提示词也能呈现专业效果。

图生视频（Wan2.6-I2V）

将任意静态图片动画化为流畅连贯的视频。在保持与源图像视觉一致性的同时，添加自然动作、镜头运动和同步音效。

参考视频生成（Wan2.6-R2V）

上传角色参考视频，生成主演该角色的全新场景。支持人物、动物、物体及多主体的一致性呈现，无需重新拍摄。

最长 15 秒视频输出

最长 15 秒的视频时长支持更丰富的叙事表达、更流畅的转场和更完整的故事弧线，远超许多 AI 视频模型的时长上限。

音视频同步生成

生成与视觉内容自然同步的真实音效、环境音和对话，无需额外音频处理流程。

多镜头场景构成

构建保持叙事与视觉连续性的多镜头视频。非常适合短片、产品演示、社交内容和品牌故事创作。

中英文双语提示词支持

Wan 2.6 深度理解中英文文本提示词，能够高精度处理长篇复杂描述，是面向全球创作者的最佳选择之一。

1080p 高清视频输出

生成最高 1080p 分辨率的高清视频，细节清晰、色彩准确、画质达到电影级标准，可直接用于专业场景。

常见问题

关于 Wan 2.6 及在 SeedDance 上使用的一切问题解答。

立即开始使用 Wan 2.6 创作

在 SeedDance 上体验阿里巴巴最先进的 AI 视频生成模型。多镜头叙事、音视频同步、参考视频生成和电影级画质，一站式搞定。

免费试用 Wan 2.6 查看定价方案

Wan 2.6 — AI 视频生成，智能多镜头叙事

阿里巴巴最先进的视觉生成模型系列

参考视频生成（R2V）

智能多镜头叙事

音视频同步生成

最长 15 秒视频时长

选择 Wan 2.6 的理由

多人对话与场景连贯

强大的中英文提示词理解

专业级图像生成能力

Wan 2.6 完整功能列表

文生视频（Wan2.6-T2V）

图生视频（Wan2.6-I2V）

参考视频生成（Wan2.6-R2V）

最长 15 秒视频输出

音视频同步生成

多镜头场景构成

中英文双语提示词支持

1080p 高清视频输出

常见问题

什么是 Wan 2.6？

Wan 2.6 与 Wan 2.1 或 2.5 有何不同？

什么是参考视频生成（R2V）？

Wan 2.6 能生成多人场景的视频吗？

Wan 2.6 支持多长时间的视频？

Wan 2.6 支持中文提示词吗？

如何在 SeedDance 上使用 Wan 2.6？

生成的内容可以用于商业用途吗？

立即开始使用 Wan 2.6 创作