El modelo multimodal más avanzado de Google DeepMind, capaz de crear cualquier cosa desde cualquier entrada — texto, imagen, audio o video existente. Gemini Omni Flash es el primer modelo de la familia, entregando generación de video IA de siguiente generación y edición conversacional a escala.
Próximamente en SeedDance

Revelado en Google I/O 2026, Gemini Omni representa un cambio fundamental en cómo los modelos de IA comprenden y crean contenido. A diferencia de generadores de modalidad única, Gemini Omni es un verdadero modelo mundial — ingiere texto, imágenes, audio, dibujos y video existente simultáneamente, luego produce salidas multimodales ricas con comprensión contextual profunda. El CEO de Google DeepMind Demis Hassabis describió Omni como un cambio fundamental de herramientas de productividad asistivas a un modelo multimodal de cualquier a cualquier, capaz de razonar sobre el mundo físico y generar contenido que refleja contexto preciso — desde eventos históricos hasta física del mundo real. El primer modelo lanzado, Gemini Omni Flash, estará próximamente disponible en SeedDance.
Gemini Omni acepta cualquier combinación de texto, imágenes, clips de audio, dibujos y video existente como entrada — dando a los creadores flexibilidad ilimitada para expresar su intención creativa sin reescribir prompts desde cero.
Omni soporta edición multi-turno con estado. Los creadores pueden refinar salidas conversacionalmente — cambiando un fondo, ajustando iluminación o estabilizando una toma — todo sin reiniciar la generación desde el principio.
Gemini Omni razona sobre el mundo — comprendiendo contexto histórico, física del mundo real y semántica de escena para producir videos que no son solo visualmente coherentes, sino fácticamente fundamentados.
Cada video creado con Gemini Omni está incrustado con la marca de agua invisible SynthID de Google, habilitando identificación transparente de contenido generado por IA y soportando flujos de trabajo creativos responsables.
Gemini Omni no es simplemente un generador de video — es un motor creativo de propósito general que comprende contexto multimodal y habilita flujos de trabajo de creación iterativos y conversacionales previamente imposibles con IA.

Una plataforma creativa multimodal completa para generación, edición y análisis de video — construida sobre la arquitectura de modelo mundial más avanzada de Google DeepMind.
Describe cualquier escena en lenguaje natural y Gemini Omni la renderiza en video. La comprensión a nivel mundial del modelo produce salidas con física precisa, iluminación natural y flujo temporal coherente — mucho más allá de simples modelos de prompt-a-clip.
Sube cualquier imagen de referencia — una fotografía, ilustración o imagen generada por IA — y Gemini Omni la anima en una secuencia de video. Las imágenes de referencia guían composición, estilo y sujeto mientras Omni completa movimiento, entorno y temporalización.
Proporciona descripciones habladas, efectos de sonido o clips de música como dirección creativa. Omni interpreta contexto de audio para generar visuales que coinciden con el tono, ritmo y contenido de la entrada de audio.
Ingresa un clip de video existente como referencia e instruye a Omni a transformarlo — cambiando estilo, entorno, objetos o perspectiva de cámara — mientras preserva el movimiento y estructura central del original.
Refina videos generados a través de conversación natural. Cada instrucción — cambiar iluminación, intercambiar fondo, ajustar personaje — se comprende en contexto del estado anterior, habilitando iteración a nivel profesional sin experiencia en ingeniería de prompts.
Reemplaza elementos visuales específicos dentro de un video — fondos, objetos, texturas o personajes — preservando coherencia de escena y dinámica de movimiento. Actualmente soporta objetivos de clips de 10 segundos con planes de escalar.
Gemini Omni razona sobre contexto histórico, cultural y físico. Un prompt referenciando un evento histórico genera detalles de período visualmente precisos; escenas basadas en física simulan dinámica de fluidos, iluminación y relaciones espaciales reales.
Todas las salidas incluyen la marca de agua SynthID invisible de Google — una firma criptográfica que identifica contenido generado por IA sin afectar calidad visual. Soporta políticas de contenido IA responsable y flujos de cumplimiento.
Todo lo que necesitas saber sobre Gemini Omni y cómo se relaciona con la generación de video IA.
Mientras exploras las capacidades de Gemini Omni, prueba SeedDance para generación de video IA de alta calidad con Seedance, Veo, KLING y más modelos top — todo en una plataforma.