Leyendo

Nuevo Generador de Video de IA de Tencent Compite Gratuitamente con Sora de OpenAI

Tencent dice que su modelo es mejor que Runway Gen-3, Luma 1.6 y tres principales herramientas chinas de generación de video, según pruebas humanas.

Por Jose Antonio Lanz

Dec 7, 2024

4 min lectura

AI Robot. Image created by Decrypt using AI.

En Resumen

Tencent lanzó Hunyuan Video, un generador de video gratuito y de código abierto.
El modelo requiere 60GB de memoria GPU para ejecutarse localmente, pero varios servicios en la nube comenzaron a ofrecer acceso al modelo.
Las pruebas iniciales mostraron que Hunyuan igualaba la calidad de competidores comerciales, aunque su comprensión del inglés era limitada.

Mientras OpenAI sigue provocando expectación con Sora después de meses de retrasos, Tencent lanzó discretamente un modelo que ya está mostrando resultados comparables a los generadores de video de primer nivel existentes.

Tencent ha presentado Hunyuan Video, un generador de video de IA gratuito y de código abierto, cronometrado estratégicamente durante la campaña de anuncios de 12 días de OpenAI, que se anticipa ampliamente que incluirá el debut de Sora, su esperada herramienta de video.

"Presentamos Hunyuan Video, un novedoso modelo base de video de código abierto que exhibe un rendimiento en la generación de video comparable, si no superior, a los modelos de código cerrado líderes", dijo Tencent en su anuncio oficial.

El gigante tecnológico con sede en Shenzhen, China, afirma que su modelo "supera" a los de Runway Gen-3, Luma 1.6 y "tres modelos generativos de video chinos de alto rendimiento" según los resultados de evaluación humana profesional.

El momento no podría ser más oportuno.

Antes de presentar su generador de video —en algún punto entre las eras SDXL y Flux de generadores de imágenes de código abierto— Tencent lanzó un generador de imágenes con un nombre similar.

HunyuanDit proporcionó excelentes resultados y mejoró la comprensión del texto bilingüe, pero no fue ampliamente adoptado. La familia se completó con un grupo de modelos de lenguaje grandes o Large Language Models (LLMs).

Hunyuan Video utiliza un Modelo de Lenguaje Extenso Multimodal o Multimodal Large Language Model de solo decodificador como su codificador de texto en lugar de la combinación habitual de CLIP y T5-XXL que se encuentra en otras herramientas de video con IA y generadores de imágenes.

Tencent dice que esto ayuda al modelo a seguir mejor las instrucciones, captar los detalles de la imagen con más precisión y aprender nuevas tareas sobre la marcha sin entrenamiento adicional; además, su configuración de atención causal recibe un impulso de un refinador de tokens especial que le ayuda a comprender los prompts más a fondo que los modelos tradicionales.

También reescribe los prompts para hacerlos más ricos y aumentar la calidad de sus generaciones. Por ejemplo, un prompt que simplemente dice "Un hombre paseando a su perro" puede mejorarse incluyendo detalles, configuración de escena, condiciones de luz, artefactos de calidad y raza, entre otros elementos.

Gratis para las masas

Al igual que LLaMA 3 de Meta, Hunyuan es gratuito para usar y monetizar hasta que alcances los 100 millones de usuarios, un umbral del que la mayoría de los desarrolladores no tendrán que preocuparse pronto.

¿El inconveniente? Necesitarás una computadora potente con al menos 60GB de memoria GPU para ejecutar su modelo de 13 mil millones de parámetros localmente: piensa en tarjetas Nvidia H800 o H20. Eso es más vRAM de la que tienen la mayoría de las PC para juegos en total.

Para aquellos que no tienen una supercomputadora a mano, los servicios en la nube ya se están sumándose.

FAL.ai, una plataforma de medios generativos diseñada para desarrolladores, ha integrado Hunyuan, cobrando $0,5 por video. Otros proveedores de la nube, incluidos Replicate o GoEhnance, también han comenzado a ofrecer acceso al modelo. El servidor oficial de Hunyuan Video ofrece 150 créditos por $10, con cada generación de video costando un mínimo de 15 créditos.

Y, por supuesto, los usuarios pueden ejecutar el modelo en una GPU alquilada usando servicios como Runpod o Vast.ai.

Las pruebas iniciales muestran que Hunyuan iguala la calidad de los pesos pesados comerciales como Luma Labs Dream Machine o Kling AI. Los videos tardan unos 15 minutos en generarse, produciendo secuencias fotorrealistas con movimiento natural de humanos y animales.

RIP Sora..

It's only been a few hours since Hunyuan-Video launched,

I've tested out and it's insane.

Here are 8 Wild examples: pic.twitter.com/AeQ2BwZhqv

— el.cine (@EHuanglu) December 4, 2024

Las pruebas revelan una debilidad actual: la comprensión del modelo de los prompts en inglés podría ser más aguda que la de sus competidores. Sin embargo, ser de código abierto significa que los desarrolladores ahora pueden modificar y mejorar el modelo.

Tencent dice que su codificador de texto alcanza tasas de alineación de hasta 68,5% —lo que significa qué tan cerca está la salida de lo que piden los usuarios— mientras mantiene puntuaciones de calidad visual de 96,4% según sus pruebas internas.

El código fuente completo y los pesos pre-entrenados están disponibles para descargar en GitHub y en las plataformas de Hugging Face.

Editado por Sebastian Sinclair

Stay on top of crypto news, get daily updates in your inbox.

Noticias recomendados

Llegó la Navidad: Google y xAI de Elon Musk Liberan sus Últimos Modelos de IA
Amantes de la tecnología gratuita, ¡están de suerte! Google y xAI han revelado actualizaciones bastante interesantes en sus ofertas de IA de forma gratuita, igualando y expandiendo los recientes esfuerzos de democratización de OpenAI. La semana pasada, OpenAI lanzó la última salva en la guerra por los corazones—y, en última instancia, las billeteras de los usuarios—con su ambiciosa campaña "12 Días de OpenAI", lanzando al público una serie de potentes herramientas. Los aspectos destacados de la...
NoticiasArtificial Intelligence
5 min lectura
Jose Antonio LanzDec 18, 2024
Create an account to save your articles.
ChatGPT Ahora Puede Verte e Interactuar Contigo en Tiempo Real
OpenAI presentó el jueves las capacidades de video largamente prometidas de ChatGPT, permitiendo a los usuarios apuntar sus teléfonos a objetos para análisis de IA en tiempo real—una característica que había estado guardada desde su primera demostración en mayo. Anteriormente, podías ingresar texto, gráficos, voz o fotos fijas e interactuar con GPT. Esta característica, lanzada el jueves por la noche, permite que GPT te observe en tiempo real y proporcione retroalimentación conversacional. Por e...
NoticiasArtificial Intelligence
4 min lectura
Jose Antonio LanzDec 14, 2024
Create an account to save your articles.
Google Lanza Gemini 2.0 y Anthropic Claude 3.5 Haiku, Tras Exitoso Cierre de Fin de Año de OpenAI
Esta semana, Google lanzó Gemini 2.0, dotando a su último modelo de IA con capacidades autónomas y características multimodales. Lo que es inmediatamente notable en este lanzamiento es que Google ve los chatbots de IA evolucionando hacia Agentes de IA—software personalizado que usa IA generativa para interactuar con usuarios y entender y ejecutar tareas en tiempo real. "Con nuevos avances en multimodalidad—como salida nativa de imagen y audio—y uso nativo de herramientas, nos permitirá construir...
NoticiasArtificial Intelligence
7 min lectura
Jose Antonio LanzDec 14, 2024
Create an account to save your articles.

Coin Prices