Le modèle audio de nouvelle génération de ByteDance va bien au-delà de la synthèse vocale. Seed Audio 1.0 orchestre dialogues multi-personnages, tonalité émotionnelle, musique de fond et effets sonores environnementaux depuis un seul prompt —produisant jusqu'à deux minutes d'audio fini en un passage.
Powered by ByteDance Seed Speech & Seed Music

Seed Audio 1.0 (également connu sous Doubao-Seed-Audio 1.0 dans l'écosystème Doubao de ByteDance) est un modèle de génération audio multimodal de l'équipe Seed de ByteDance. Contrairement aux systèmes conventionnels de synthèse vocale qui convertissent des mots écrits en une seule piste vocale, Seed Audio 1.0 est conçu pour produire des scènes sonores complètes —la ligne parlée plus le monde qui l'environne. Les descriptions publiques le positionnent comme un système créatif de bout en bout capable d'organiser synchroniquement dialogues de personnages, interprétation émotionnelle, dialecte ou accent, musique de fond et effets environnementaux de type foley en un seul passage de génération. Le modèle accepte des prompts texte et des entrées audio de référence optionnelles, supporte la génération multimodale zero-shot et peut produire jusqu'à environ deux minutes d'audio tout en preservant la cohérence du timbre lors de l'extension de clips existants. Construit sur la lignée de recherche Seed Speech de ByteDance (incluant Seed-TTS) et la pile de génération Seed-Music, Seed Audio 1.0 représente un changement stratégique de la synthèse vocale isolée vers une direction audio unifiée pour podcasts, radio-théâtre, vidéos courtes, jeux et médias interactifs.
Le TTS traditionnel transforme le texte en une seule voix. Seed Audio 1.0 cible l'ensemble du paysage sonore : dialogue, musique, ambiance et effets superposés comme un mix fini. Les créateurs décrivent une scène en langage naturel et reçoivent un audio prêt pour la production au lieu d'assembler manuellement plusieurs outils.
Combinez des prompts descriptifs avec jusqu'à trois clips audio de référence pour ancrer le style vocal, le rythme ou l'ambiance. Les balises de référence comme @Audio1, @Audio2 et @Audio3 permettent de diriger le modèle vers des échantillons spécifiques uploadés. Des références d'image optionnelles peuvent guider le ton lorsque les références audio ne sont pas utilisées.
Générez des conversations avec des interlocuteurs distincts, chacun avec son propre timbre et arc émotionnel. Seed Audio 1.0 gère les tours de parole, le rythme et l'interprétation expressive —utile pour livres audio, podcasts scriptés, scénarios de formation et narration portée par les personnages sans enregistrer plusieurs comédiens.
La musique de fond qui suit l'ambiance narrative, l'ambiance environnementale comme la pluie ou le bruit de foule, et les effets sonores synchronisés avec l'action peuvent être générés aux côtés de la parole. Cela élimine les bibliothèques musicales séparées, les packs SFX et le mixage manuel pour de nombreux workflows de prototypage et de contenu.
Seed Audio 1.0 condense ce qui nécessitait auparavant une cabine vocale, un compositeur et un designer sonore en une seule étape de génération IA —tout en maintenant le contrôle créatif via les prompts et les références.

Capacités principales de Seed Audio 1.0, disponibles directement sur SeedDance.
Décrivez les personnages, le cadre, l'ambiance et le rythme en langage naturel. Le modèle produit une scène audio complète plutôt qu'une piste de narration plate.
Uploadez jusqu'à trois clips de référence (WAV, MP3, PCM, OGG Opus ; typiquement jusqu'à 30 secondes et 10 MB chacun) et référencez-les dans les prompts avec @Audio1, @Audio2, @Audio3 pour clonage vocal, transfert de style ou guidage rythmique.
Fournissez une seule image de référence (JPEG, PNG, WebP) pour influencer l'ambiance lorsque les références audio ne sont pas fournies. Les références image et audio ne peuvent pas être utilisées dans la même génération.
Attribuez des voix distinctes à plusieurs interlocuteurs dans une génération, supportant conversations scriptées, interviews et échanges narratifs avec variation émotionnelle.
Générez musique underscore et design sonore ambiant synchronisé avec le dialogue —pluie, pas, bruit urbain, bourdonnement mécanique et autres couches de type foley.
Produisez des segments audio étendus en une seule exécution, adaptés aux intros de podcast, spots publicitaires, cinématiques de jeux et scènes dramatiques courtes sans chaîner des dizaines de micro-clips.
Questions courantes sur Seed Audio 1.0, comment il diffère du TTS et comment les créateurs peuvent l'utiliser.
Seed Audio 1.0 fait passer l’audio IA d’une voix unique à une scène sonore cinématographique. Créez sur SeedDance dès aujourd’hui.