2026 年 5–6 月,xAI 正式发布 Grok Imagine Video 1.5——一款 专注图生视频(Image-to-Video) 的旗舰模型。它在 Arena.ai 图生视频盲测排行榜上超越 Seedance 2.0、HappyHorse 1.0 与 Google Veo,较 Grok Imagine Video 1.0 提升约 +52 Elo,成为当时最受关注的 I2V 模型之一。
与「什么都能做」的通用视频模型不同,1.5 的选择很清晰:你有一张起始帧,它负责把它变成带动画、带同步音频、物理更可信的短视频。 对产品摄影、肖像动画、概念艺术动效与分镜预演而言,这正是最常被需要的 workflow。
Grok Imagine Video 1.5 是什么?
Grok Imagine Video 1.5 是 xAI 在 Grok Imagine 产品线下的第二代图生视频模型,基于 proprietary Aurora 引擎 构建。模型将 单张静态图片 作为起始帧,结合自然语言描述的运动、镜头与声音设计,在一次生成中输出 视频 + 同步音频(对白、音效、环境声、背景音乐)。
2026 年 6 月初,xAI 先在 API 上以 grok-imagine-video-1.5-preview 开放预览;随后 Imagine Video 1.5 正式 GA,API 模型名为 grok-imagine-video-1.5。同期还推出了 Video 1.5 Fast 变体,在 grok.com/imagine 与 iOS / Android 应用中提供约 2 倍 生成速度。
重要区分:Grok Imagine Video 1.5 不支持纯文生视频。需要 T2V 时,应使用 Grok Imagine Video(1.0),它同时支持文生视频、图生视频、参考视频与视频扩展。
相比 1.0 的三大跃升
xAI 官方将 1.5 的改进归纳为「真实创作中真正重要的维度」:
1. 原生同步音频(同 pass 生成)
音效、环境声与对白在 与视频相同的生成 pass 中产出,并与画面动作对齐。1.5 显著改善了语音清晰度与口型同步;你可在提示词中描述声音氛围,或使用 AUDIO: 段落单独指定音频方向(如「房间混响」「耳语对白」)。
2. 更强的物理与运动一致性
运动在整段 clip 内更「抱得住」——减少 warp、漂移与违背惯性的动作。Aurora 引擎强调 重力、动量、碰撞、流体与布料 等物理行为,让产品旋转、人物转身、风吹旗帜等镜头更可信。
3. 接近翻倍的生成速度(Fast 变体)
Video 1.5 Fast 可在约 25 秒 内完成 6 秒 720p 片段,而上一代需 40 秒以上——对需要大量试错的创意迭代,wall-clock 时间直接决定产能。
此外,1.5 还在 人脸精度、角色一致性、时间连贯性、提示词遵循 上全面优于 1.0,盲测中肖像与名人风格动画表现突出。
核心能力一览
| 能力 | 说明 |
|---|---|
| 图生视频(I2V) | 上传 1 张 JPG/PNG/WEBP,描述运动与镜头 |
| 原生音频 | 对白、SFX、环境声、BGM 一次生成 |
| 分辨率 | 480p(更快更省)/ 720p(推荐) |
| 时长 | 1–15 秒(API);SeedDance 提供 5 / 8 / 10 / 15 秒档位 |
| 画幅 | auto、16:9、9:16、1:1、4:3、3:4、3:2、2:3 |
| 帧率 | 24 fps |
| 电影镜头 | 摇摄、俯仰、推拉、跟踪、环绕、航拍、手持等 |
| 多节拍动作 | 提示词中按顺序描述动作,模型生成连贯序列 |
xAI API 还支持 视频扩展(Video Extension) 与 视频编辑 等 workflow(部分能力在 1.0 模型上更完整;参考生视频 Reference-to-Video 目前为 1.0 专属,1.5 不支持)。
Grok Imagine Video 1.5 vs 1.0:怎么选?
| 维度 | Grok Imagine Video 1.0 | Grok Imagine Video 1.5 |
|---|---|---|
| 文生视频 | ✅ | ❌ |
| 图生视频 | ✅ | ✅ 专精 |
| 参考生视频 / 视频编辑 | ✅ | 有限 / 见 xAI 文档 |
| 音频质量 | 基础 | 显著提升 |
| 物理 / 运动 | 基准 | 更强 |
| Arena I2V 排名 | 被超越 | #1(约 +52 Elo) |
| SeedDance 积分 | 30 / 次 | 80 / 次 |
选型建议:
- 有图、要最高 I2V 质量 + 同步音频 → 1.5
- 纯文本出片、或需要 V2V / 视频扩展 → 1.0
- 预算敏感、快速草稿 → 1.0;定稿级 I2V → 1.5
与 Seedance、HappyHorse 等如何对比?
Grok Imagine Video 1.5 的赛道非常聚焦——单帧动画化:
| 能力 | Grok Imagine 1.5 | Seedance 2.0 Fast | HappyHorse 1.1 |
|---|---|---|---|
| 核心模式 | I2V 专精 | T2V + I2V + V2V | T2V + I2V + R2V |
| 原生音频 | 同 pass 同步 | 联合生成 | 联合生成 |
| 最高分辨率 | 720p | 720p | 1080p |
| Arena I2V | #1 档 | 顶级竞争者 | 顶级竞争者 |
| 最佳场景 | 产品/肖像/概念图动画 | 全链路多模态 | 多参考一致性 |
若你的 pipeline 是「设计师出静帧 → 动画师加 motion」,1.5 往往比通用 T2V 模型更省 prompt 工程;若需要从零用文本构建世界,Seedance / Kling 更合适。
在 SeedDance 上如何使用
Grok Imagine Video 1.5 已在 SeedDance 图生视频 模式上线:
- 打开 AI 视频生成器
- 选择 Grok Imagine Video 1.5,切换到 图生视频 Tab
- 上传 1 张参考图(肖像、产品、插画均可)
- 输入 运动与镜头 提示词(见下方技巧)
- 选择分辨率(480p / 720p)、时长(5 / 8 / 10 / 15s)、画幅
- 点击生成——每次消耗 80 积分(固定价,与时长/分辨率无关)
也可访问 Grok Imagine Video 1.5 专题页 查看完整 FAQ。
xAI 官方 API 定价约 $0.08/秒 输出;SeedDance 采用积分打包,便于与平台内其他模型统一计费。
提示词技巧(xAI 官方 + 社区最佳实践)
- 描述运动,不要重述图片——模型已「看到」你的图
- 明确镜头语言:「缓慢 cinematic push-in」「手持跟踪」「环绕 360°」
- 用强度修饰:「高速飞驰而过」优于「经过」
- 多节拍序列:「运动员蹲下 → 猛冲向前 → 观众欢呼」按顺序写
- 音频:在 prompt 末尾加
AUDIO: 战场风声与金属碰撞 - 避免:与图片矛盾的描述、否定 prompt(会被忽略)
画幅选 auto 时,输出通常 匹配输入图片比例,保留原始构图。
适用场景
- 电商产品图动画化:旋转展示、开箱、液体倾倒
- 肖像与头像:社交媒体动态头像、LinkedIn 视频封面
- 概念艺术与插画:让设定稿「活起来」做 pitch
- 分镜预演:静帧分镜 → 动态预览给客户
- 游戏与 IP:角色立绘微动效、表情动画
相对不太适合:纯文本创意、需要 1080p+ 交付、或多图参考锁定 SKU 变体(考虑 HappyHorse 1.1 或 Seedance 2.0)。
常见问题
Grok Imagine Video 1.5 是谁开发的? xAI(Elon Musk 旗下 AI 公司),基于 Aurora 引擎。
支持文生视频吗? 不支持。 1.5 为 I2V 专精模型;T2V 请用 Grok Imagine Video 1.0。
会自动生成音频吗? 会。 音频与视频同 pass 生成,1.5 音频质量较 1.0 大幅提升。
支持哪些图片格式? JPG、JPEG、PNG、WEBP。
SeedDance 上多少钱? 80 积分 / 次(固定计费)。
和 1.0 比值得多花积分吗? 若核心是 图生视频质量、同步音频、物理可信度,1.5 的 Arena 排名与官方评测支持「值得」;若只需 T2V 或预算极紧,1.0(30 积分)更合适。
总结
Grok Imagine Video 1.5 是 xAI 对「把一张好图变成一段好视频」这个问题的专注回答:Arena #1 的 I2V 实力、Aurora 物理、同 pass 同步音频、更快的 Fast 变体——每一项都指向 静帧 → 动态资产 的高效 pipeline。
它不做全能 T2V,恰恰因此把 I2V 体验推到了 2026 年的第一梯队。上传一张产品图、一张肖像或一张概念稿,用镜头语言描述你想要的 motion——Grok Imagine Video 1.5 会帮你完成剩下的。
立即在 SeedDance 体验 Grok Imagine Video 1.5。需要文生视频?切换至 Grok Imagine Video 1.0。
