2026 年 5–6 月，xAI 正式发布 Grok Imagine Video 1.5——一款 专注图生视频（Image-to-Video） 的旗舰模型。它在 Arena.ai 图生视频盲测排行榜上超越 Seedance 2.0、HappyHorse 1.0 与 Google Veo，较 Grok Imagine Video 1.0 提升约 +52 Elo，成为当时最受关注的 I2V 模型之一。

与「什么都能做」的通用视频模型不同，1.5 的选择很清晰：你有一张起始帧，它负责把它变成带动画、带同步音频、物理更可信的短视频。 对产品摄影、肖像动画、概念艺术动效与分镜预演而言，这正是最常被需要的 workflow。

Grok Imagine Video 1.5 是什么？

Grok Imagine Video 1.5 是 xAI 在 Grok Imagine 产品线下的第二代图生视频模型，基于 proprietary Aurora 引擎 构建。模型将 单张静态图片 作为起始帧，结合自然语言描述的运动、镜头与声音设计，在一次生成中输出 视频 + 同步音频（对白、音效、环境声、背景音乐）。

2026 年 6 月初，xAI 先在 API 上以 grok-imagine-video-1.5-preview 开放预览；随后 Imagine Video 1.5 正式 GA，API 模型名为 grok-imagine-video-1.5。同期还推出了 Video 1.5 Fast 变体，在 grok.com/imagine 与 iOS / Android 应用中提供约 2 倍 生成速度。

重要区分：Grok Imagine Video 1.5 不支持纯文生视频。需要 T2V 时，应使用 Grok Imagine Video（1.0），它同时支持文生视频、图生视频、参考视频与视频扩展。

相比 1.0 的三大跃升

xAI 官方将 1.5 的改进归纳为「真实创作中真正重要的维度」：

1. 原生同步音频（同 pass 生成）

音效、环境声与对白在 与视频相同的生成 pass 中产出，并与画面动作对齐。1.5 显著改善了语音清晰度与口型同步；你可在提示词中描述声音氛围，或使用 AUDIO: 段落单独指定音频方向（如「房间混响」「耳语对白」）。

2. 更强的物理与运动一致性

运动在整段 clip 内更「抱得住」——减少 warp、漂移与违背惯性的动作。Aurora 引擎强调 重力、动量、碰撞、流体与布料 等物理行为，让产品旋转、人物转身、风吹旗帜等镜头更可信。

3. 接近翻倍的生成速度（Fast 变体）

Video 1.5 Fast 可在约 25 秒 内完成 6 秒 720p 片段，而上一代需 40 秒以上——对需要大量试错的创意迭代，wall-clock 时间直接决定产能。

此外，1.5 还在 人脸精度、角色一致性、时间连贯性、提示词遵循 上全面优于 1.0，盲测中肖像与名人风格动画表现突出。

核心能力一览

能力	说明
图生视频（I2V）	上传 1 张 JPG/PNG/WEBP，描述运动与镜头
原生音频	对白、SFX、环境声、BGM 一次生成
分辨率	480p（更快更省）/ 720p（推荐）
时长	1–15 秒（API）；SeedDance 提供 5 / 8 / 10 / 15 秒档位
画幅	auto、16:9、9:16、1:1、4:3、3:4、3:2、2:3
帧率	24 fps
电影镜头	摇摄、俯仰、推拉、跟踪、环绕、航拍、手持等
多节拍动作	提示词中按顺序描述动作，模型生成连贯序列

xAI API 还支持 视频扩展（Video Extension） 与 视频编辑 等 workflow（部分能力在 1.0 模型上更完整；参考生视频 Reference-to-Video 目前为 1.0 专属，1.5 不支持）。

Grok Imagine Video 1.5 vs 1.0：怎么选？

维度	Grok Imagine Video 1.0	Grok Imagine Video 1.5
文生视频	✅	❌
图生视频	✅	✅ 专精
参考生视频 / 视频编辑	✅	有限 / 见 xAI 文档
音频质量	基础	显著提升
物理 / 运动	基准	更强
Arena I2V 排名	被超越	#1（约 +52 Elo）
SeedDance 积分	30 / 次	80 / 次

选型建议：

有图、要最高 I2V 质量 + 同步音频 → 1.5
纯文本出片、或需要 V2V / 视频扩展 → 1.0
预算敏感、快速草稿 → 1.0；定稿级 I2V → 1.5

与 Seedance、HappyHorse 等如何对比？

Grok Imagine Video 1.5 的赛道非常聚焦——单帧动画化：

能力	Grok Imagine 1.5	Seedance 2.0 Fast	HappyHorse 1.1
核心模式	I2V 专精	T2V + I2V + V2V	T2V + I2V + R2V
原生音频	同 pass 同步	联合生成	联合生成
最高分辨率	720p	720p	1080p
Arena I2V	#1 档	顶级竞争者	顶级竞争者
最佳场景	产品/肖像/概念图动画	全链路多模态	多参考一致性

若你的 pipeline 是「设计师出静帧 → 动画师加 motion」，1.5 往往比通用 T2V 模型更省 prompt 工程；若需要从零用文本构建世界，Seedance / Kling 更合适。

在 SeedDance 上如何使用

Grok Imagine Video 1.5 已在 SeedDance 图生视频 模式上线：

打开 AI 视频生成器
选择 Grok Imagine Video 1.5，切换到 图生视频 Tab
上传 1 张参考图（肖像、产品、插画均可）
输入 运动与镜头 提示词（见下方技巧）
选择分辨率（480p / 720p）、时长（5 / 8 / 10 / 15s）、画幅
点击生成——每次消耗 80 积分（固定价，与时长/分辨率无关）

也可访问 Grok Imagine Video 1.5 专题页 查看完整 FAQ。

xAI 官方 API 定价约 $0.08/秒 输出；SeedDance 采用积分打包，便于与平台内其他模型统一计费。

提示词技巧（xAI 官方 + 社区最佳实践）

描述运动，不要重述图片——模型已「看到」你的图
明确镜头语言：「缓慢 cinematic push-in」「手持跟踪」「环绕 360°」
用强度修饰：「高速飞驰而过」优于「经过」
多节拍序列：「运动员蹲下 → 猛冲向前 → 观众欢呼」按顺序写
音频：在 prompt 末尾加 AUDIO: 战场风声与金属碰撞
避免：与图片矛盾的描述、否定 prompt（会被忽略）

画幅选 auto 时，输出通常 匹配输入图片比例，保留原始构图。

适用场景

电商产品图动画化：旋转展示、开箱、液体倾倒
肖像与头像：社交媒体动态头像、LinkedIn 视频封面
概念艺术与插画：让设定稿「活起来」做 pitch
分镜预演：静帧分镜 → 动态预览给客户
游戏与 IP：角色立绘微动效、表情动画

相对不太适合：纯文本创意、需要 1080p+ 交付、或多图参考锁定 SKU 变体（考虑 HappyHorse 1.1 或 Seedance 2.0）。

常见问题

Grok Imagine Video 1.5 是谁开发的？ xAI（Elon Musk 旗下 AI 公司），基于 Aurora 引擎。

支持文生视频吗？ 不支持。 1.5 为 I2V 专精模型；T2V 请用 Grok Imagine Video 1.0。

会自动生成音频吗？ 会。音频与视频同 pass 生成，1.5 音频质量较 1.0 大幅提升。

支持哪些图片格式？ JPG、JPEG、PNG、WEBP。

SeedDance 上多少钱？ 80 积分 / 次（固定计费）。

和 1.0 比值得多花积分吗？ 若核心是 图生视频质量、同步音频、物理可信度，1.5 的 Arena 排名与官方评测支持「值得」；若只需 T2V 或预算极紧，1.0（30 积分）更合适。

总结

Grok Imagine Video 1.5 是 xAI 对「把一张好图变成一段好视频」这个问题的专注回答：Arena #1 的 I2V 实力、Aurora 物理、同 pass 同步音频、更快的 Fast 变体——每一项都指向 静帧 → 动态资产 的高效 pipeline。

它不做全能 T2V，恰恰因此把 I2V 体验推到了 2026 年的第一梯队。上传一张产品图、一张肖像或一张概念稿，用镜头语言描述你想要的 motion——Grok Imagine Video 1.5 会帮你完成剩下的。

立即在 SeedDance 体验 Grok Imagine Video 1.5。需要文生视频？切换至 Grok Imagine Video 1.0。

什么是 Grok Imagine Video 1.5？xAI 图生视频旗舰模型完全指南

目录