En Resumen

  • Tencent lanzó Hunyuan Video, un generador de video gratuito y de código abierto.
  • El modelo requiere 60GB de memoria GPU para ejecutarse localmente, pero varios servicios en la nube comenzaron a ofrecer acceso al modelo.
  • Las pruebas iniciales mostraron que Hunyuan igualaba la calidad de competidores comerciales, aunque su comprensión del inglés era limitada.

Mientras OpenAI sigue provocando expectación con Sora después de meses de retrasos, Tencent lanzó discretamente un modelo que ya está mostrando resultados comparables a los generadores de video de primer nivel existentes.

Tencent ha presentado Hunyuan Video, un generador de video de IA gratuito y de código abierto, cronometrado estratégicamente durante la campaña de anuncios de 12 días de OpenAI, que se anticipa ampliamente que incluirá el debut de Sora, su esperada herramienta de video.

"Presentamos Hunyuan Video, un novedoso modelo base de video de código abierto que exhibe un rendimiento en la generación de video comparable, si no superior, a los modelos de código cerrado líderes", dijo Tencent en su anuncio oficial.

El gigante tecnológico con sede en Shenzhen, China, afirma que su modelo "supera" a los de Runway Gen-3, Luma 1.6 y "tres modelos generativos de video chinos de alto rendimiento" según los resultados de evaluación humana profesional.

AD

El momento no podría ser más oportuno.

Antes de presentar su generador de video —en algún punto entre las eras SDXL y Flux de generadores de imágenes de código abierto— Tencent lanzó un generador de imágenes con un nombre similar.

HunyuanDit proporcionó excelentes resultados y mejoró la comprensión del texto bilingüe, pero no fue ampliamente adoptado. La familia se completó con un grupo de modelos de lenguaje grandes o Large Language Models (LLMs).

Hunyuan Video utiliza un Modelo de Lenguaje Extenso Multimodal o Multimodal Large Language Model de solo decodificador como su codificador de texto en lugar de la combinación habitual de CLIP y T5-XXL que se encuentra en otras herramientas de video con IA y generadores de imágenes.

AD

Tencent dice que esto ayuda al modelo a seguir mejor las instrucciones, captar los detalles de la imagen con más precisión y aprender nuevas tareas sobre la marcha sin entrenamiento adicional; además, su configuración de atención causal recibe un impulso de un refinador de tokens especial que le ayuda a comprender los prompts más a fondo que los modelos tradicionales.

También reescribe los prompts para hacerlos más ricos y aumentar la calidad de sus generaciones. Por ejemplo, un prompt que simplemente dice "Un hombre paseando a su perro" puede mejorarse incluyendo detalles, configuración de escena, condiciones de luz, artefactos de calidad y raza, entre otros elementos.

Gratis para las masas

Al igual que LLaMA 3 de Meta, Hunyuan es gratuito para usar y monetizar hasta que alcances los 100 millones de usuarios, un umbral del que la mayoría de los desarrolladores no tendrán que preocuparse pronto.

¿El inconveniente? Necesitarás una computadora potente con al menos 60GB de memoria GPU para ejecutar su modelo de 13 mil millones de parámetros localmente: piensa en tarjetas Nvidia H800 o H20. Eso es más vRAM de la que tienen la mayoría de las PC para juegos en total.

Para aquellos que no tienen una supercomputadora a mano, los servicios en la nube ya se están sumándose.

FAL.ai, una plataforma de medios generativos diseñada para desarrolladores, ha integrado Hunyuan, cobrando $0,5 por video. Otros proveedores de la nube, incluidos Replicate o GoEhnance, también han comenzado a ofrecer acceso al modelo. El servidor oficial de Hunyuan Video ofrece 150 créditos por $10, con cada generación de video costando un mínimo de 15 créditos.

Y, por supuesto, los usuarios pueden ejecutar el modelo en una GPU alquilada usando servicios como Runpod o Vast.ai.

Las pruebas iniciales muestran que Hunyuan iguala la calidad de los pesos pesados comerciales como Luma Labs Dream Machine o Kling AI. Los videos tardan unos 15 minutos en generarse, produciendo secuencias fotorrealistas con movimiento natural de humanos y animales.

AD

Las pruebas revelan una debilidad actual: la comprensión del modelo de los prompts en inglés podría ser más aguda que la de sus competidores. Sin embargo, ser de código abierto significa que los desarrolladores ahora pueden modificar y mejorar el modelo.

Tencent dice que su codificador de texto alcanza tasas de alineación de hasta 68,5% —lo que significa qué tan cerca está la salida de lo que piden los usuarios— mientras mantiene puntuaciones de calidad visual de 96,4% según sus pruebas internas.

El código fuente completo y los pesos pre-entrenados están disponibles para descargar en GitHub y en las plataformas de Hugging Face.

Editado por Sebastian Sinclair

Stay on top of crypto news, get daily updates in your inbox.