Аудиомодель ByteDance нового поколения выходит далеко за рамки синтеза речи. Seed Audio 1.0 оркестрирует диалоги нескольких персонажей, эмоциональную тональность, фоновую музыку и звуковые эффекты окружения из одного промпта —производя до двух минут готового аудио в одном проходе.
Powered by ByteDance Seed Speech & Seed Music

Seed Audio 1.0 (также известный как Doubao-Seed-Audio 1.0 в экосистеме Doubao ByteDance) —мультимодальная модель генерации аудио от команды Seed ByteDance. В отличие от обычных систем синтеза речи, которые превращают написанные слова в одну голосовую дорожку, Seed Audio 1.0 создан для производства полных звуковых сцен —произнесённая реплика плюс окружающий её мир. Публичные описания позиционируют его как сквозную креативную систему, способную синхронно организовать диалоги персонажей, эмоциональную подачу, диалект или акцент, фоновую музыку и фоли-стильные эффекты окружения в одном проходе генерации. Модель принимает текстовые промпты и опциональные референсные аудиовходы, поддерживает zero-shot мультимодальную генерацию и может выдавать до примерно двух минут аудио, сохраняя согласованность тембра при расширении существующих кlipов. Построенный на исследовательской линии Seed Speech ByteDance (включая Seed-TTS) и стеке генерации Seed-Music, Seed Audio 1.0 представляет стратегический переход от изолированного синтеза речи к единой аудиорежиссии для подкастов, радиопьес, коротких видео, игр и интерактивных медиа.
Традиционный TTS превращает текст в один голос. Seed Audio 1.0 нацелен на всю звуковую картину: диалог, музыку, атмосферу и эффекты, слоённые как готовый микс. Создатели описывают сцену на естественном языке и получают готовое для продакшена аудио вместо ручной сборки нескольких инструментов.
Объедините описательные промпты с до трёх референсных аудиокlipов для якорения стиля голоса, ритма или настроения. Референсные теги @Audio1, @Audio2 и @Audio3 позволяют указать модель на конкретные загруженные сэмплы. Опциональные референсные изображения могут направлять тон, когда аудиореференсы не используются.
Генерируйте разговоры с разными говорящими, каждый со своим тембром и эмоциональной аркой. Seed Audio 1.0 обрабатывает чередование реплик, темп и выразительную подачу —полезно для аудиокниг, сценарных подкастов, тренировочных сценариев и повествования с персонажами без записи нескольких актёров озвучки.
Фоновая музыка, следующая нарративному настроению, атмосфера окружения как дождь или шум толпы, и звуковые эффекты, соответствующие действию, могут генерироваться вместе с речью. Это устраняет отдельные музыкальные библиотеки, SFX-паки и ручной микшинг для многих прототипных и контентных рабочих процессов.
Seed Audio 1.0 сжимает то, что раньше требовало вокальную будку, композитора и звукорежиссёра, в один шаг ИИ-генерации —сохраняя креативный контроль через промпты и референсы.

Ключевые возможности Seed Audio 1.0, доступные напрямую на SeedDance.
Опишите персонажи, обстановку, настроение и темп на естественном языке. Модель создаёт полную аудиосцену, а не плоскую дорожку повествования.
Загрузите до трёх референсных кlipов (WAV, MP3, PCM, OGG Opus; обычно до 30 секунд и 10 МБ каждый) и укажите их в промптах через @Audio1, @Audio2, @Audio3 для клонирования голоса, переноса стиля или ритмического направления.
Предоставьте одно референсное изображение (JPEG, PNG, WebP) для влияния на настроение, когда аудиореференсы не используются. Референсы изображения и аудио нельзя применять в одной генерации.
Назначьте различные голоса нескольким говорящим в одной генерации, поддерживая сценарные разговоры, интервью и нарративные обмены с эмоциональной вариацией.
Генерируйте underscore-музыку и атмосферный звуковой дизайн синхронно с диалогом —дождь, шаги, городской шум, механическое гудение и другие фоли-стильные слои.
Производите расширённые аудиосегменты в одном запуске, подходящие для интро подкастов, рекламных спотов, игровых катсцен и коротких драматических сцен без соединения десятков микрокlipов.
Общие вопросы о Seed Audio 1.0, как он отличается от TTS и как создатели могут его использовать.
Seed Audio 1.0 превращает AI-аудио из одного голоса в кинематографическую звуковую сцену. Начните на SeedDance сегодня.