ByteDance の次世代音声モデルは TTS を大きく超えます。Seed Audio 1.0 は 1 つのプロンプトからマルチキャラクター対話、感情、BGM、環境音を編成し、最大約 2 分の完成音声を一度に生成します。
ByteDance Seed Speech & Seed Music 提供

Seed Audio 1.0(ByteDance 豆包エコシステムの Doubao-Seed-Audio 1.0)は、Seed チームによるマルチモーダル音声生成モデルです。単一ナレーションを出力する従来の TTS とは異なり、セリフとその周囲の音世界を含む完全なサウンドシーンを生成します。テキストプロンプトと任意の参照オーディオに対応し、ゼロショット多モーダル生成が可能。1 回最大約 2 分、参照入力からの拡張時も音色の一貫性を保ちます。
従来の TTS は 1 本のボイスのみ。Seed Audio 1.0 は対話、音楽、雰囲気、効果音を 1 つのミックスとして生成。自然言語でシーンを記述するだけで、制作可能な音声が得られます。
説明的なプロンプトと最大 3 つの参照オーディオを組み合わせ、音色・リズム・ムードを固定。プロンプト内の @Audio1、@Audio2、@Audio3 でアップロードしたサンプルを参照。参照画像で雰囲気を誘導することも可能です。
複数話者の会話を 1 回で生成。話者ごとに異なる音色と感情の弧を持たせ、オーディオブック、脚本ポッドキャスト、キャラクター叙事に最適。複数の声優録音は不要です。
ナレーションに合わせて BGM、環境音、効果音を同時生成。プロトタイプ段階での素材ライブラリや手動ミキシングへの依存を減らします。
録音ブース、作曲、サウンドデザインを 1 ステップの AI 生成に集約し、プロンプトと参照素材で創作をコントロールできます。

Seed Audio 1.0 の主要機能。SeedDance から直接利用できます。
自然言語でキャラクター、設定、ムード、テンポを記述。単一ナレーションではなく完全な音声シーンを生成します。
最大 3 つの参照クリップ(WAV/MP3 等、通常各 30 秒・10MB まで)をアップロードし、プロンプトで @Audio1/@Audio2/@Audio3 として参照できます。
参照オーディオを使わない場合、1 枚の参照画像(JPEG/PNG/WebP)で雰囲気を誘導。画像とオーディオ参照は同時に使用できません。
1 回の生成で複数話者に異なるボイスを割り当て。脚本対話、インタビュー、物語的なやり取りに対応します。
対話に同期したアンダースコア音楽と環境音(雨、足音、街の雑音など)を生成します。
ポッドキャストイントロ、CM、ゲームカットシーン、短編ドラマなど、1 回で長めの音声を生成できます。
Seed Audio 1.0、TTS との違い、SeedDance での使い方に関する FAQ。
Seed Audio 1.0 は単一ボイスからシネマティックなサウンドシーンへ。今すぐ SeedDance で創作を始めましょう。