Google anuncia nuevos modelos y herramientas de medios generativos. Primeramente, presentamos Veo, el modelo de Google más capaz para generar video de alta definición, e Imagen 3, un modelo de conversión de texto a imagen de mayor calidad. También es capaz de realizar demos musicales creados con el novedoso Music AI Sandbox.
Durante el año pasado, Google ha logrado avances increíbles en la mejora de la calidad de sus tecnologías de medios generativos. Han estado trabajando estrechamente con la comunidad creativa para explorar cómo la IA generativa puede respaldar mejor el proceso creativo y asegurarse de que sus herramientas de IA sean lo más útiles posible en cada etapa.
En esta ocasión, te presentamos Veo, el nuevo modelo de Google de generación de video más reciente y avanzado, e Imagen 3, un modelo de conversión de texto a imagen de mayor calidad hasta el momento.
En su lanzamiento Google también comparte algunas de sus colaboraciones recientes con el cineasta Donald Glover y su estudio creativo, Gilga, y nuevas grabaciones de demostración lanzadas por los artistas Wyclef Jean, Marc Rebillet y el compositor Justin Tranter, realizadas con la ayuda de su novedoso Music AI Sandbox.
Veo: el modelo de generación de vídeo más capaz
Veo genera videos de alta calidad con resolución de 1080p en una amplia gama de estilos visuales y cinematográficos que pueden durar más de un minuto. Con una comprensión avanzada del lenguaje natural y la semántica visual, genera videos que representan fielmente la visión creativa de un usuario, capturando con precisión el tono de un mensaje y presentando detalles en mensajes más largos.
El modelo proporciona un nivel de control creativo sin precedentes y comprende términos cinematográficos como “timelapse” o “tomas aéreas de un paisaje”. Veo crea imágenes consistentes y coherentes, de modo que las personas, los animales y los objetos se mueven de manera realista a lo largo de las tomas.
Para descubrir cómo Veo puede apoyar mejor el proceso creativo del narrador, se invitaron a una variedad de cineastas y creadores a experimentar con el modelo. Estas colaboraciones también permitieron mejorar la forma de diseñar, construir e implementar estas tecnologías, garantizando que los creadores tengan voz en cómo se desarrollan.
Aquí hay un adelanto del trabajo con el cineasta Donald Glover y su estudio creativo, Gilga, quienes experimentaron con Veo para un proyecto cinematográfico.
Veo se basa en años de trabajo con modelos de vídeo generativo, incluidos Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere, combinando arquitectura, leyes de escalado y otras técnicas novedosas para mejorar la calidad y la resolución de salida.
Con Veo, Google ha mejorado las técnicas sobre cómo el modelo aprende a comprender lo que hay en un video, genera imágenes de alta definición, simula la física de nuestro mundo y más. Estos aprendizajes impulsarán los avances en la investigación de Google sobre la IA y permitiendo crear productos aún más útiles que ayuden a las personas a interactuar y comunicarse de nuevas maneras.
A partir de hoy, Veo está disponible para creadores seleccionados en vista previa privada en VideoFX al unirse a la lista de espera. En el futuro, también se incorporarán algunas de las capacidades de Veo a YouTube Shorts y otros productos.
Puedes ver más sobre las características de Veo en este enlace
Image 3: un modelo de texto a imagen de mayor calidad
Image 3 es un modelo de conversión de texto a imagen de mayor calidad. Genera un increíble nivel de detalle, produciendo imágenes fotorrealistas y realistas, con muchos menos artefactos visuales que distraigan en relación a otros modelos anteriores.
Image 3 comprende mejor el lenguaje natural, la intención detrás de su mensaje e incorpora pequeños detalles de mensajes más largos. La comprensión avanzada del modelo le ayuda a dominar una variedad de estilos.
También es el mejor modelo que Google ha presentado hasta ahora para representar texto, lo que ha sido un desafío para los modelos de generación de imágenes. Esta capacidad abre posibilidades, entre otros, para generar mensajes de cumpleaños personalizados, diapositivas de títulos en presentaciones y más.
Aprende más sobre las capacidades de Image 3
Al igual que Veo, Image 3 está disponible para creadores seleccionados en vista previa privada en ImageFX y uniéndose a la lista de espera. Imagen 3 llegará pronto a Vertex AI.
Google colaborando con la comunidad musical
Como parte de la exploración continua sobre el papel que la IA puede desempeñar en la creación de arte y música, se ha establecido una colaboración en asociación con YouTube y algunos destacados músicos, compositores y productores. El objetivo es informar sobre el desarrollo de nuevas tecnologías de música generativa, incluyendo Lyria, el modelo más avanzado para la generación de música con IA.
Como parte de este trabajo, Google ha estado desarrollando un conjunto de herramientas de inteligencia artificial musical llamado Music AI Sandbox. Estas herramientas están diseñadas para abrir un nuevo campo de juego para la creatividad, permitiendo a las personas crear nuevas secciones instrumentales desde cero, transformar el sonido de nuevas maneras y mucho más.
Google ha buscado sociedad con músicos, compositores y productores para investigar el interesante papel que puede tener la inteligencia artificial en el proceso de creación musical.
Aún en la actualidad, continúa esa experimentación musical con el músico ganador del Grammy Wyclef Jean, el compositor nominado al Grammy Justin Tranter y el músico electrónico Marc Rebillet, quienes están lanzando nuevas grabaciones de demostración en sus canales de YouTube, creadas con la ayuda de estas novedosas herramientas de inteligencia artificial musical.
Responsable desde el diseño hasta la implementación
Conscientes no solo del avance tecnológico, sino también de la responsabilidad social, Google ha estado tomando medidas para abordar los desafíos que plantean estos nuevos modelos y herramientas de medios generativos, ayudando a que las personas y las organizaciones trabajen de manera responsable con contenido generado por IA.
Para cada una de estas tecnologías, ellos han estado trabajando con la comunidad creativa y otras partes interesadas externas, recopilando ideas y escuchando comentarios para mejorar e implementar estas nuevas tecnologías de manera segura y responsable.
Así también Google ha estado realizando pruebas de seguridad, aplicando filtros, colocando sistemas de protección y poniendo a sus equipos de seguridad en el centro del desarrollo. Estos equipos también son herramientas pioneras, como SynthID, que puede incorporar marcas de agua digitales imperceptibles en imágenes, audio, texto y video generados por IA. Y a partir de hoy, todos los vídeos generados por Veo en VideoFX tendrán una marca de agua de SynthID.
El potencial creativo de la IA generativa es inmenso y estamos ansiosos de compartir estos avances con ustedes.
Si te interesa saber más sobre estos nuevos modelos y herramientas de medios generativos en su versión original, haz clic aquí.
Así también Investig-arte, consciente de la necesidad de actualizar la investigación a las dinámicas de la inteligencia artificial, ha diseñado un curso para realizar trabajos de investigación científica con herramientas de IA, con consejos paso a paso y prompts diseñados para brindar excelentes resultados. Si te interesa consulta aquí.