
En el mundo del desarrollo con inteligencia artificial, cada segundo cuenta, pero también cada centavo. Para quienes trabajan a diario integrando modelos de lenguaje en sus aplicaciones, el equilibrio entre rendimiento y presupuesto es una preocupación constante. Pensando en esto, OpenAI ha presentado Flex, una nueva modalidad en su API que promete reducir a la mitad los costes por uso… con una pequeña condición: hay que tener paciencia.
Este nuevo “plan de ahorro” para desarrolladores busca convertirse en una herramienta útil cuando la velocidad de respuesta no es crítica. Imagina que estás cocinando a fuego lento en lugar de freír: el resultado es el mismo, pero el proceso toma más tiempo. Así funciona Flex.
¿Qué es Flex y cómo funciona?
Flex es un nuevo nivel de servicio disponible en fase beta para los modelos de lenguaje o3 y o4-mini de OpenAI, accesible mediante su API de Chat Completions y Responses. Al activarlo, los desarrolladores pueden reducir sus costes de uso significativamente. Pero como ocurre con las tarifas reducidas en los billetes de avión, hay ciertas condiciones: el sistema puede tardar más en responder y, en algunos casos, incluso no estar disponible de inmediato.
Para habilitarlo, basta con indicar “Flex” como parámetro de servicio en las solicitudes a la API. Es una solución pensada especialmente para tareas donde la velocidad no es prioridad, como:
- Pruebas y validaciones internas
- Enriquecimiento de datos
- Procesamiento en segundo plano o diferido (asíncrono)
- Automatizaciones programadas que no requieren respuesta en tiempo real
¿Qué ventajas ofrece Flex?
La principal ventaja de Flex es económica. Según OpenAI, usar este modo puede reducir el coste por tokens a la mitad en comparación con la tarifa estándar. Esto se traduce en números concretos:
- En el modelo o3, el precio baja de 10 $ a 5 $ por millón de tokens de entrada, y de 40 $ a 20 $ por millón de tokens de salida.
- En el modelo o4-mini, el coste se reduce de 1,10 $ a 0,55 $ para la entrada, y de 4,40 $ a 2,20 $ para la salida.
Para empresas que manejan grandes volúmenes de datos, esto puede representar un ahorro significativo mensual sin necesidad de cambiar de proveedor o infraestructura.
¿Y cuáles son las desventajas?
Como todo en la vida, el ahorro viene con compromisos. En este caso, las desventajas de Flex tienen que ver con el rendimiento:
- Tiempos de respuesta más largos: Al activar Flex, no se garantiza que la respuesta llegue tan rápido como en el servicio estándar. Esto se debe a que los recursos se asignan de manera menos prioritaria.
- Errores por falta de recursos: Puede aparecer el mensaje de error “429 Resource Unavailable”, lo que indica que en ese momento no hay capacidad disponible para atender la solicitud.
- Posibles ‘timeouts’ en tareas complejas: Las peticiones largas o complicadas podrían exceder el tiempo máximo de espera predeterminado (10 minutos), especialmente si no se ajusta manualmente.
OpenAI recomienda aumentar el tiempo de espera (timeout) para evitar errores innecesarios, sobre todo en cargas largas. También sugiere implementar técnicas de “reintento con backoff exponencial”, un método en el que se espera progresivamente más tiempo entre cada nuevo intento de solicitud.
¿En qué casos tiene sentido usar Flex?
Flex no está diseñado para tareas urgentes o en producción, como asistentes conversacionales en tiempo real o bots de atención al cliente. Sin embargo, puede ser ideal para:
- Pruebas de modelos: Donde se necesita evaluar distintos prompts o configuraciones sin presión de tiempo.
- Procesamiento por lotes: Como clasificación de textos, análisis de sentimientos o etiquetado semántico en grandes cantidades de datos.
- Aplicaciones educativas o personales: Donde un retraso de unos segundos o minutos no altera la experiencia.
- Tareas automatizadas en segundo plano: Como la generación de informes nocturnos, sin intervención humana inmediata.
¿Qué pasa si Flex no responde?
Cuando la plataforma no tiene suficientes recursos para atender una solicitud Flex, devuelve un código de error “429”. Lo interesante es que OpenAI no cobra por esas peticiones fallidas. Esto permite implementar mecanismos de reintento sin preocuparse por costes adicionales innecesarios.
Un buen enfoque es programar la lógica de tu aplicación para que, si Flex falla, intente nuevamente después de unos segundos. O bien, como último recurso, pasar la tarea al servicio estándar si es absolutamente necesario cumplir con un tiempo límite.
¿Qué modelos son compatibles?
Por ahora, solo los modelos o3 y o4-mini de OpenAI admiten Flex. Ambos pertenecen a la nueva generación o-Series de modelos con enfoque en razonamiento, e incluso con capacidades de “pensar con imágenes” en ciertas tareas.
Este lanzamiento forma parte de una estrategia más amplia de OpenAI para ofrecer diferentes escalas de acceso a sus herramientas, adaptándose tanto a desarrolladores independientes como a grandes empresas con altos volúmenes de uso.
¿Cómo activar Flex en la API?
El proceso es simple. Solo se necesita añadir un parámetro adicional en la solicitud de la API:
¿Esto cambiará el uso de la IA en el futuro?
Flex no es una herramienta milagrosa, pero sí representa una nueva filosofía de acceso a modelos de IA de alto rendimiento: ofrecer más control sobre los costes según la urgencia de cada tarea.
Es como tener dos tipos de envío en una tienda en línea: si puedes esperar, pagas menos. Si lo necesitas al instante, pagas más. La diferencia es que, en este caso, tú decides en cada llamada a la API cuál camino seguir.
Este modelo puede facilitar la expansión de la IA en sectores donde los presupuestos son ajustados, como el educativo, el académico, o incluso startups que aún están explorando cómo integrar estas tecnologías.
OpenAI Flex es una opción económica y flexible para quienes usan la API de modelos de lenguaje, ideal para tareas que no requieren respuesta inmediata. Ofrece un ahorro de hasta el 50 % en costes de tokens, a cambio de asumir tiempos de espera mayores y la posibilidad ocasional de errores por falta de recursos. Con una correcta configuración, puede ser una herramienta muy útil para equipos técnicos con visión de optimización.