En Resumen

  • OpenAI lanzó capacidades de video en tiempo real para ChatGPT, disponibles solo para suscriptores Plus, Team y Pro.
  • La función permite analizar objetos, resolver problemas y brindar retroalimentación visual en tiempo real con baja latencia.
  • Competidores como Google y Meta también desarrollan asistentes IA con visión, destacando avances en interacciones audiovisuales y realidad aumentada.

OpenAI presentó el jueves las capacidades de video largamente prometidas de ChatGPT, permitiendo a los usuarios apuntar sus teléfonos a objetos para análisis de IA en tiempo real—una característica que había estado guardada desde su primera demostración en mayo.

Anteriormente, podías ingresar texto, gráficos, voz o fotos fijas e interactuar con GPT. Esta característica, lanzada el jueves por la noche, permite que GPT te observe en tiempo real y proporcione retroalimentación conversacional. Por ejemplo, en mis pruebas, este modo fue capaz de resolver problemas matemáticos, dar recetas de comida, contar historias e incluso convertirse en el nuevo mejor amigo de mi hija, interactuando con ella mientras hacía panqueques, dando sugerencias y alentando su proceso de aprendizaje a través de diferentes juegos.

El lanzamiento llega solo un día después de que Google mostrara su propia versión de un asistente de IA habilitado con cámara impulsado por el recién creado Gemini 2.0. Meta también ha estado jugando en este espacio, con su propia IA que puede ver y chatear a través de cámaras de teléfonos.

AD

Sin embargo, las nuevas funciones de ChatGPT no son para todos. Solo los suscriptores Plus, Team y Pro pueden acceder a lo que OpenAI llama "Modo de Voz Avanzado con visión". La suscripción Plus cuesta $20 al mes, y el nivel Pro cuesta $200.

"Estamos emocionados de anunciar que estamos trayendo video al modo de voz Avanzado para que puedas incluir video en vivo y también compartir pantalla en vivo en tus conversaciones con ChatGPT", dijo Kevin Weil, Director de Producto de OpenAI, en un video el jueves.

La transmisión fue parte de su campaña "12 Días de OpenAI" que mostrará 12 anuncios diferentes en tantos días consecutivos. Hasta ahora, OpenAI ha lanzado su modelo o1 para todos los usuarios y presentó el plan ChatGPT Pro por $200 al mes, introdujo el ajuste fino por refuerzo para modelos personalizados, lanzó su aplicación de video generativo Sora, actualizó su función de lienzo y lanzó ChatGPT a dispositivos Apple a través de la función Apple Intelligence.

AD

La empresa dio un vistazo a lo que puede hacer durante la transmisión en vivo del jueves. La idea es que los usuarios pueden activar el modo de video, en la misma interfaz que la voz avanzada, y comenzar a interactuar con el chatbot en tiempo real. El chatbot tiene una gran comprensión visual y es capaz de proporcionar retroalimentación relevante con baja latencia, haciendo que la conversación se sienta natural.

Llegar aquí no fue exactamente un camino suave. OpenAI prometió por primera vez estas características "en unas pocas semanas" a finales de abril, pero la función se pospuso tras la controversia por imitar la voz de la actriz Scarlett Johansson—sin su permiso—en el modo de voz avanzada. Dado que el modo de video depende del modo de voz avanzada, eso aparentemente ralentizó el lanzamiento.

Y el rival Google no está ocioso. Project Astra acaba de llegar a las manos de "probadores de confianza" en Android esta semana, prometiendo una característica similar: una IA que habla múltiples idiomas, aprovecha la búsqueda y mapas de Google, y recuerda conversaciones por hasta 10 minutos.

Sin embargo, esta función aún no está ampliamente disponible, ya que se espera un lanzamiento más amplio para principios del próximo año. Google también tiene planes más ambiciosos para sus modelos de IA, dándoles la capacidad de ejecutar tareas en tiempo real, mostrando comportamiento agéntico más allá de las interacciones audiovisuales.

Meta también está luchando por un lugar en la próxima era de interacciones de IA. Su asistente, Meta AI, fue presentado en septiembre. Muestra capacidades similares a los nuevos asistentes de OpenAI y Google, proporcionando respuestas de baja latencia y comprensión de video en tiempo real.

Pero Meta está apostando por usar realidad aumentada para impulsar su oferta de IA, con gafas inteligentes "discretas" lo suficientemente capaces de alimentar esas interacciones, usando una pequeña cámara incorporada en sus marcos. Meta lo llama Project Orion.

Los usuarios actuales de ChatGPT Plus pueden probar las nuevas funciones de video tocando el ícono de voz junto a la barra de chat, luego presionando el botón de video. Compartir pantalla necesita un toque adicional a través del menú de tres puntos (también conocido como "hamburguesa").

AD

Para los usuarios de ChatGPT Enterprise y Edu ansiosos por probar las nuevas funciones de video, enero es el mes mágico. En cuanto a los suscriptores de la UE? Tendrán que observar desde lejos por ahora.

Editado por Andrew Hayward

Stay on top of crypto news, get daily updates in your inbox.