Seed Audio 1.0 —Audio IA scène complète en une générationAudio scène complète

Le modèle audio de nouvelle génération de ByteDance va bien au-delà de la synthèse vocale. Seed Audio 1.0 orchestre dialogues multi-personnages, tonalité émotionnelle, musique de fond et effets sonores environnementaux depuis un seul prompt —produisant jusqu'à deux minutes d'audio fini en un passage.

Powered by ByteDance Seed Speech & Seed Music

Aperçu de Seed Audio 1.0

Qu'est-ce que Seed Audio 1.0

Seed Audio 1.0 (également connu sous Doubao-Seed-Audio 1.0 dans l'écosystème Doubao de ByteDance) est un modèle de génération audio multimodal de l'équipe Seed de ByteDance. Contrairement aux systèmes conventionnels de synthèse vocale qui convertissent des mots écrits en une seule piste vocale, Seed Audio 1.0 est conçu pour produire des scènes sonores complètes —la ligne parlée plus le monde qui l'environne. Les descriptions publiques le positionnent comme un système créatif de bout en bout capable d'organiser synchroniquement dialogues de personnages, interprétation émotionnelle, dialecte ou accent, musique de fond et effets environnementaux de type foley en un seul passage de génération. Le modèle accepte des prompts texte et des entrées audio de référence optionnelles, supporte la génération multimodale zero-shot et peut produire jusqu'à environ deux minutes d'audio tout en preservant la cohérence du timbre lors de l'extension de clips existants. Construit sur la lignée de recherche Seed Speech de ByteDance (incluant Seed-TTS) et la pile de génération Seed-Music, Seed Audio 1.0 représente un changement stratégique de la synthèse vocale isolée vers une direction audio unifiée pour podcasts, radio-théâtre, vidéos courtes, jeux et médias interactifs.

Au-delà de la synthèse vocale

Le TTS traditionnel transforme le texte en une seule voix. Seed Audio 1.0 cible l'ensemble du paysage sonore : dialogue, musique, ambiance et effets superposés comme un mix fini. Les créateurs décrivent une scène en langage naturel et reçoivent un audio prêt pour la production au lieu d'assembler manuellement plusieurs outils.

Entrées de référence multimodales

Combinez des prompts descriptifs avec jusqu'à trois clips audio de référence pour ancrer le style vocal, le rythme ou l'ambiance. Les balises de référence comme @Audio1, @Audio2 et @Audio3 permettent de diriger le modèle vers des échantillons spécifiques uploadés. Des références d'image optionnelles peuvent guider le ton lorsque les références audio ne sont pas utilisées.

Dialogue multi-rôles et émotion

Générez des conversations avec des interlocuteurs distincts, chacun avec son propre timbre et arc émotionnel. Seed Audio 1.0 gère les tours de parole, le rythme et l'interprétation expressive —utile pour livres audio, podcasts scriptés, scénarios de formation et narration portée par les personnages sans enregistrer plusieurs comédiens.

Musique, ambiance et SFX en un passage

La musique de fond qui suit l'ambiance narrative, l'ambiance environnementale comme la pluie ou le bruit de foule, et les effets sonores synchronisés avec l'action peuvent être générés aux côtés de la parole. Cela élimine les bibliothèques musicales séparées, les packs SFX et le mixage manuel pour de nombreux workflows de prototypage et de contenu.

Pourquoi Seed Audio 1.0 compte pour les créateurs

Seed Audio 1.0 condense ce qui nécessitait auparavant une cabine vocale, un compositeur et un designer sonore en une seule étape de génération IA —tout en maintenant le contrôle créatif via les prompts et les références.

Au lieu de générer la parole dans un outil, la musique dans un autre et les effets dans une troisième session DAW, Seed Audio 1.0 coordonne toutes les couches ensemble. Un drame radio suspense dans une supérette de nuit peut inclure dialogue chuchoté, bourdonnement fluorescent, carillons de porte et underscore tendu —le tout depuis une instruction. Cela raccourcit considérablement les cycles d'itération pour les créateurs qui ont besoin de maquettes audibles rapidement.

Un prompt un mix

Capacités de Seed Audio 1.0

Capacités principales de Seed Audio 1.0, disponibles directement sur SeedDance.

Génération de scènes texte vers audio

Décrivez les personnages, le cadre, l'ambiance et le rythme en langage naturel. Le modèle produit une scène audio complète plutôt qu'une piste de narration plate.

Conditionnement audio de référence

Uploadez jusqu'à trois clips de référence (WAV, MP3, PCM, OGG Opus ; typiquement jusqu'à 30 secondes et 10 MB chacun) et référencez-les dans les prompts avec @Audio1, @Audio2, @Audio3 pour clonage vocal, transfert de style ou guidage rythmique.

Référence d'image optionnelle

Fournissez une seule image de référence (JPEG, PNG, WebP) pour influencer l'ambiance lorsque les références audio ne sont pas fournies. Les références image et audio ne peuvent pas être utilisées dans la même génération.

Dialogue multi-personnages

Attribuez des voix distinctes à plusieurs interlocuteurs dans une génération, supportant conversations scriptées, interviews et échanges narratifs avec variation émotionnelle.

Musique de fond et FX environnementaux

Générez musique underscore et design sonore ambiant synchronisé avec le dialogue —pluie, pas, bruit urbain, bourdonnement mécanique et autres couches de type foley.

Sortie long format jusqu'à ~2 minutes

Produisez des segments audio étendus en une seule exécution, adaptés aux intros de podcast, spots publicitaires, cinématiques de jeux et scènes dramatiques courtes sans chaîner des dizaines de micro-clips.

Questions fréquemment posées

Questions courantes sur Seed Audio 1.0, comment il diffère du TTS et comment les créateurs peuvent l'utiliser.









Découvrez le futur de l'audio IA sur SeedDance

Seed Audio 1.0 fait passer l’audio IA d’une voix unique à une scène sonore cinématographique. Créez sur SeedDance dès aujourd’hui.