ByteDance 차세대 오디오 모델은 TTS를 훨씬 넘어섭니다. Seed Audio 1.0은 단일 프롬프트로 다중 캐릭터 대화, 감정, BGM, 환경음을 구성하여 최대 약 2분의 완성 오디오를 생성합니다.
ByteDance Seed Speech & Seed Music 제공

Seed Audio 1.0(Doubao-Seed-Audio 1.0)은 ByteDance Seed 팀의 멀티모달 오디오 생성 모델입니다. 단일 나레이션만 출력하는 기존 TTS와 달리, 대사와 그 주변의 음향 세계를 포함한 완전한 사운드 씬을 생성합니다. 텍스트 프롬프트와 선택적 참조 오디오를 지원하며, 제로샷 멀티모달 생성이 가능합니다. 1회 최대 약 2분, 참조 입력으로 확장할 때도 음색 일관성을 유지합니다.
기존 TTS는 한 줄의 보이스만 생성합니다. Seed Audio 1.0은 대화, 음악, 분위기, 효과음을 하나의 믹스로 만듭니다. 자연어로 장면을 설명하면 바로 들을 수 있는 결과물을 얻을 수 있습니다.
설명 프롬프트와 최대 3개의 참조 오디오를 결합해 음색, 리듬, 분위기를 고정합니다. 프롬프트에서 @Audio1, @Audio2, @Audio3으로 업로드한 샘플을 참조할 수 있으며, 참조 이미지로 분위기를 유도할 수도 있습니다.
여러 화자의 대화를 한 번에 생성합니다. 화자마다 다른 음색과 감정선을 부여해 오디오북, 대본 팟캐스트, 캐릭터 서사에 적합합니다. 여러 성우 녹음이 필요 없습니다.
대사에 맞춰 BGM, 환경음, 효과음을 동시에 생성합니다. 프로토타입 단계에서 음원 라이브러리와 수동 믹싱 의존도를 줄입니다.
녹음 부스, 작곡, 사운드 디자인을 하나의 AI 생성 단계로 압축하면서, 프롬프트와 참조 자료로 창작을 제어할 수 있습니다.

Seed Audio 1.0 핵심 기능. SeedDance에서 바로 이용할 수 있습니다.
자연어로 캐릭터, 설정, 분위기, 템포를 설명합니다. 단일 나레이션이 아닌 완전한 오디오 씬을 생성합니다.
최대 3개의 참조 클립(WAV/MP3 등, 보통 각 30초·10MB)을 업로드하고 프롬프트에서 @Audio1/@Audio2/@Audio3으로 참조할 수 있습니다.
참조 오디오를 쓰지 않을 때 JPEG/PNG/WebP 참조 이미지 1장으로 분위기를 유도합니다. 이미지와 오디오 참조는 동시에 사용할 수 없습니다.
한 번의 생성으로 여러 화자에게 서로 다른 보이스를 할당합니다. 대본 대화, 인터뷰, 서사적 교류를 지원합니다.
대사와 동기화된 언더스코어 음악과 환경음(비, 발소리, 도시 소음 등)을 생성합니다.
팟캐스트 인트로, 광고, 게임 컷신, 단편 드라마 등 1회 실행으로 긴 오디오를 생성할 수 있습니다.
Seed Audio 1.0, TTS와의 차이, SeedDance에서의 사용 방법 FAQ.
Seed Audio 1.0으로 단일 보이스에서 시네마틱 사운드 씬까지. 지금 SeedDance에서 시작하세요.