Seed Audio 1.0 — 1 回の生成でフルシーン AI 音声フルシーン音声

ByteDance の次世代音声モデルは TTS を大きく超えます。Seed Audio 1.0 は 1 つのプロンプトからマルチキャラクター対話、感情、BGM、環境音を編成し、最大約 2 分の完成音声を一度に生成します。

ByteDance Seed Speech & Seed Music 提供

Seed Audio 1.0 概要

Seed Audio 1.0 とは

Seed Audio 1.0(ByteDance 豆包エコシステムの Doubao-Seed-Audio 1.0)は、Seed チームによるマルチモーダル音声生成モデルです。単一ナレーションを出力する従来の TTS とは異なり、セリフとその周囲の音世界を含む完全なサウンドシーンを生成します。テキストプロンプトと任意の参照オーディオに対応し、ゼロショット多モーダル生成が可能。1 回最大約 2 分、参照入力からの拡張時も音色の一貫性を保ちます。

TTS を超える

従来の TTS は 1 本のボイスのみ。Seed Audio 1.0 は対話、音楽、雰囲気、効果音を 1 つのミックスとして生成。自然言語でシーンを記述するだけで、制作可能な音声が得られます。

マルチモーダル参照入力

説明的なプロンプトと最大 3 つの参照オーディオを組み合わせ、音色・リズム・ムードを固定。プロンプト内の @Audio1、@Audio2、@Audio3 でアップロードしたサンプルを参照。参照画像で雰囲気を誘導することも可能です。

マルチロール対話と感情

複数話者の会話を 1 回で生成。話者ごとに異なる音色と感情の弧を持たせ、オーディオブック、脚本ポッドキャスト、キャラクター叙事に最適。複数の声優録音は不要です。

音楽・雰囲気・効果音を一括生成

ナレーションに合わせて BGM、環境音、効果音を同時生成。プロトタイプ段階での素材ライブラリや手動ミキシングへの依存を減らします。

クリエイターにとっての Seed Audio 1.0

録音ブース、作曲、サウンドデザインを 1 ステップの AI 生成に集約し、プロンプトと参照素材で創作をコントロールできます。

複数ツールを行き来する必要はありません。深夜コンビニを舞台にしたサスペンスラジオドラマも、ささやく対話、蛍光灯の嗡鳴り、ドアチャイム、緊張感のある BGM を 1 つの指示で生成できます。

1 プロンプト 1 ミックス

Seed Audio 1.0 の機能

Seed Audio 1.0 の主要機能。SeedDance から直接利用できます。

テキストから音声シーン

自然言語でキャラクター、設定、ムード、テンポを記述。単一ナレーションではなく完全な音声シーンを生成します。

参照オーディオ条件付け

最大 3 つの参照クリップ(WAV/MP3 等、通常各 30 秒・10MB まで)をアップロードし、プロンプトで @Audio1/@Audio2/@Audio3 として参照できます。

オプションの参照画像

参照オーディオを使わない場合、1 枚の参照画像(JPEG/PNG/WebP)で雰囲気を誘導。画像とオーディオ参照は同時に使用できません。

マルチキャラクター対話

1 回の生成で複数話者に異なるボイスを割り当て。脚本対話、インタビュー、物語的なやり取りに対応します。

BGM と環境 FX

対話に同期したアンダースコア音楽と環境音(雨、足音、街の雑音など)を生成します。

最大約 2 分の出力

ポッドキャストイントロ、CM、ゲームカットシーン、短編ドラマなど、1 回で長めの音声を生成できます。

よくある質問

Seed Audio 1.0、TTS との違い、SeedDance での使い方に関する FAQ。









SeedDance で AI 音声の未来を体験

Seed Audio 1.0 は単一ボイスからシネマティックなサウンドシーンへ。今すぐ SeedDance で創作を始めましょう。