Qwen 3.5: Hacia Agentes Multimodales Nativos - La Revolución de Alibaba
Analizamos en profundidad el nuevo modelo Qwen 3.5 de Alibaba: arquitectura MoE ultra-sparse, multimodalidad nativa, capacidades agentic, benchmarks y cómo se compara con GPT-5.2, Claude y Gemini.
Índice de contenido
El 16 de febrero de 2026, en víspera del Año Nuevo Chino, Alibaba Cloud desvelaba Qwen 3.5, un modelo que marca un punto de inflexión en la carrera de la inteligencia artificial. No es simplemente una iteración más en la familia Qwen: representa una redefinición fundamental de cómo los modelos de lenguaje pueden integrar capacidades multimodales y comportarse como agentes autónomos.
La Estrategia de Alibaba: Más Allá de los LLMs Tradicionales
Alibaba tomó una decisión arquitectónica significativa con Qwen 3.5: la fusión nativa de texto y visión desde el pre-entrenamiento. Esto significa que el modelo no “ve” imágenes a través de un encoder visual separado que luego conecta a un LLM; más bien, la comprensión visual está tejida en la estructura fundamental del modelo desde su concepción.
El resultado, según los benchmarks oficiales publicados por Alibaba, es un rendimiento que supera a GPT-5.2 en MMLU-Pro (87.8 vs 62.82) y se posiciona competitivamente contra Claude Opus 4.5 y Gemini 3 Pro en múltiples dimensiones, todo mientras ofrece pesos abiertos bajo licencia Apache 2.0.
Arquitectura Revolucionaria: Cuatro Pilares Técnicos
1. Mixture-of-Experts Ultra-Sparse
Qwen 3.5-397B-A17B, la primera versión lanzada, implementa una arquitectura MoE (Mixture-of-Experts) extremadamente dispersa:
- 397 mil millones de parámetros totales
- Solo 17 mil millones activos por token (aproximadamente 4.3%)
Esta arquitectura permite que el modelo active solo los “expertos” relevantes para cada token procesado. En lugar de usar todos los 397B parámetros para cada predicción, el modelo activa dinámicamente un subconjunto diminuto pero altamente especializado. El resultado es una eficiencia de inferencia dramáticamente mejorada: Alibaba reporta que Qwen 3.5 es 60% más económico que su predecesor y 8 veces más eficiente en procesamiento de workloads grandes.
2. Mecanismo de Atención Híbrida
El modelo implementa Gated DeltaNet + Gated Attention, una combinación que permite atención dinámica según la importancia de la información:
- Para información crítica: “lectura detallada” con atención completa
- Para información contextual: “lectura rápida” con atención reducida
Este mecanismo resuelve uno de los mayores cuellos de botella de los modelos de lenguaje: el costo computacional de atención que escala cuadráticamente con la longitud del contexto. Según Alibaba, esto permite 8.6x más throughput en contextos de 32k tokens y 19.0x más throughput en contextos de 256k tokens comparado con Qwen3-Max.
3. Predicción Multi-Token
A diferencia de modelos tradicionales que generan un token a la vez, Qwen 3.5 fue entrenado para predecir múltiples posiciones futuras simultáneamente. Esta capacidad de “multi-step planning” permite que la velocidad de inferencia se aproxime al doble de la de modelos convencionales, especialmente en escenarios de generación de código, textos largos y diálogos multipaso.
4. Infraestructura de Entrenamiento FP8 Nativo
El entrenamiento introduce un pipeline FP8 completo aplicado a activaciones, routing MoE y operaciones GEMM, con monitoreo runtime que preserva BF16 en capas sensibles. Según el equipo de Qwen, esto logra:
- ~50% reducción en memoria de activaciones
- >10% aceleración en entrenamiento
- Escalamiento estable a decenas de trillones de tokens
Multimodalidad Nativa: No es un LLM con Vision Adjunta
Qwen 3.5 destaca por su multimodalidad nativa: integra texto y visión desde el inicio del pre-entrenamiento, lo que le permite procesar contenido multimodal de manera más eficiente.
Implicaciones Prácticas
Esta integración temprana permite capacidades avanzadas:
- Procesamiento de video de hasta 2 horas: El modelo puede consumir una película completa y luego organizar la trama, relaciones de personajes y estilo visual en documentos o código.
- Comprensión de GUI: El modelo puede “ver” interfaces de usuario como lo haría un humano, entendiendo la posición y función de elementos en pantalla.
- Análisis de documentos complejos: Benchmarks como OmniDocBench v1.5 (90.8) y MMMU-Pro (79.0) muestran fortaleza en comprensión documental multimodal.
Video-MME y Video Understanding
En Video-MME (87.5), Qwen 3.5 demuestra comprensión temporal de contenido video, una capacidad crítica para aplicaciones de análisis de multimedia, monitoreo y contenido generativo video-texto.
Capacidades Agentic: De Asistente a Agente Autónomo
El anuncio de Qwen 3.5 se titula “Towards Native Multimodal Agents” (Hacia Agentes Multimodales Nativos), y esto no es retórica: el modelo introduce visual agentic capabilities que le permiten ejecutar acciones autónomas.
Visual Agent Capabilities
Según el blog oficial y reportes de Reuters, Qwen 3.5 puede:
- Ver pantallas de móviles y desktop como lo haría un humano
- Entender la posición y función de elementos de interfaz
- Ejecutar acciones cross-app de forma autónoma
En demostraciones oficiales, un usuario puede dar una instrucción en lenguaje natural y el modelo navega múltiples aplicaciones en un dispositivo móvil, completa formularios, realiza compras o procesa datos en una hoja de cálculo, todo sin intervención humana más allá del comando inicial.
Built-in Tools
Qwen 3.5-Plus (la versión API) incluye herramientas integradas:
- enable_thinking: Activa modo reasoning (chain-of-thought)
- enable_search: Búsqueda web
- Code Interpreter: Ejecución de código
Esto contrasta con la aproximación de otros proveedores que requieren frameworks externos o plataformas separadas para capacidades tool-use.
Rendimiento y Benchmarks: Análisis Detallado
Todos los benchmarks a continuación provienen de fuentes oficiales de Qwen (blog.qwen.ai, GitHub, HuggingFace). Se indica cuando las comparativas con otros modelos son reportadas por Alibaba.
Conocimiento General y Multilingüe
| Benchmark | Qwen3.5-397B-A17B | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| MMLU-Pro | 87.8 | 87.4 | 89.5 | 89.8 |
| MMLU-Redux | 94.9 | 95.0 | 95.6 | 95.9 |
| SuperGPQA | 70.4 | 67.9 | 70.6 | 74.0 |
| C-Eval | 93.0 | 90.5 | 92.2 | 93.4 |
| IFEval | 92.6 | 94.8 | 90.9 | 93.5 |
| IFBench | 76.5 | 75.4 | 58.0 | 70.4 |
| MultiChallenge | 67.6 | 57.9 | 54.2 | 64.2 |
| MMMLU | 88.5 | 89.5 | 90.1 | 90.6 |
| Include | 85.6 | 87.5 | 86.2 | 90.5 |
| LiveCodeBench v6 | 83.6 | 87.7 | 84.8 | 90.7 |
* Todos los benchmarks provienen del announcement oficial de Qwen
MMLU-Pro (87.8) es particularmente significativo: este benchmark, diseñado para ser más desafiante que MMLU original, muestra un rendimiento competitivo frente a GPT-5.2 (87.4), Claude Opus 4.5 (89.5) y Gemini 3 Pro (89.8).
Razonamiento y STEM
| Benchmark | Qwen3.5 | Qwen3 |
|---|---|---|
| BBH | 90.98 | 87.95 |
| MATH | 74.14 | 71.84 |
| GSM8K | 93.71 | 91.17 |
| KoRBench | 54.08 | 50.80 |
* Dato de Qwen2.5 de fuentes externas, no announcement oficial
GSM8K (93.71) y MATH (74.14) muestran fortaleza continua en razonamiento matemático, con mejoras progresivas a través de generaciones.
Coding y Desarrollo
| Benchmark | Qwen3.5 | Qwen3 |
|---|---|---|
| Evalplus | 79.32 | 69.49 |
| MultiPLE | 79.39 | 70.64 |
| SWE-agentless | 43.26 | 34.67 |
| CRUX-I | 71.13 | 67.63 |
| CRUX-O | 82.38 | 77.13 |
| SWE-bench Verified* | 76.4 | - |
* Benchmark de terceros, no en announcement oficial
Los benchmarks de coding muestran mejoras sustanciales, especialmente en Evalplus (79.32 vs 69.49) y MultiPLE (79.39 vs 70.64), que evalúan generación de código en múltiples lenguajes de programación.
Capacidad Agentic
| Benchmark | Qwen3.5 | Nota |
|---|---|---|
| IFBench | 76.5 | Récord en su clase según Qwen |
| BFCL-V4 | 72.9 | Supera a Gemini 3 Pro y GPT-5.2* |
| BrowseComp | 69.0/78.6 | Supera a Gemini 3 Pro y GPT-5.2* |
| VITA-Bench | 49.7 | Agentic multimodal interaction |
* Afirmación de Alibaba, no verificada independientemente
IFBench (76.5) evalúa instruction following, y según Alibaba, establece un nuevo récord entre modelos en su clase.
Multimodal y Video
| Benchmark | Qwen3.5 | Nota |
|---|---|---|
| MMMU-Pro | 79.0 | Visual reasoning |
| OmniDocBench v1.5 | 90.8 | Document understanding |
| Video-MME | 87.5 | Video reasoning |
| VITA-Bench | 49.7 | Agentic multimodal |
| ERQA | 67.5 | Embodied & spatial reasoning |
Comparación con Generaciones Anteriores
vs Qwen3
Las mejoras arquitectónicas de Qwen3.5 sobre Qwen3 son sustanciales:
- 8.6x throughput en contexto 32k
- 19.0x throughput en contexto 256k
- 3.5x-7.2x más rápido que Qwen3-235B-A22B
- Multimodalidad nativa (Qwen3 requería VL separado)
- Contexto expandido: 256k nativo (Open Source) vs rangos inferiores
vs Qwen2.5
La evolución desde Qwen2.5 es aún más dramática:
| Aspecto | Qwen2.5 | Qwen3 | Qwen3.5 |
|---|---|---|---|
| Entrenamiento | ~18T tokens | 36T tokens | Mayor énfasis visual |
| Arquitectura | Dense | MoE | MoE ultra-sparse |
| Idiomas | ~29 | 119 | 201 |
| Contexto máximo | 131k | Hasta 256k | 1M (Plus) |
| Multimodalidad | VL separado | VL separado | Nativo |
Precios y Eficiencia Económica
Precios Verificados (Alibaba Cloud Model Studio)
| Modelo | Input (1M tokens) | Output (1M tokens) |
|---|---|---|
| Qwen3.5-Plus | $0.40 (<256K) / $1.20 (256K-1M) | $2.40 (<256K) / $7.20 (256K-1M) |
Comparación con Competidores
| Modelo | Input | Output | Nota |
|---|---|---|---|
| Qwen3.5-Plus | $0.40 (<256K) | $2.40 (<256K) | Open weights disponibles, pricing tiered |
| GPT 5.2 | $1.75 | $14.00 | Closed-source |
| Claude Opus 4.5 | $5.00 | $25.00 | Closed-source |
| Gemini 3.0 Pro | $2.00 (<200K) / $4.00 (200K-2M) | $12.00 (<200K) / $18.00 (200K-2M) | Closed-source |
Precio en China
Según reportes de fuentes chinas, Qwen3.5-Plus cuesta ¥0.8 (~$0.11 USD) por millón de tokens en el mercado interno (0-128K tokens), lo que representa aproximadamente 1/18 del precio de Gemini 3.0 Pro ($2.00/M input).
Eficiencia Operacional
Alibaba reporta que Qwen3.5 es:
- 60% más económico que su predecesor inmediato
- 8 veces más eficiente en procesamiento de workloads grandes
- Capaz de despliegue local con licencia Apache 2.0
Disponibilidad y Acceso
Open Source (Apache 2.0)
Modelo: Qwen/Qwen3.5-397B-A17B en Hugging Face
- 397B parámetros totales, 17B activos
- 256k tokens de contexto (nativo)
- Licencia Apache 2.0 (uso comercial permitido)
- Requiere hardware significativo: ~8×H100 o equivalente
API y Cloud Services
Alibaba Cloud Model Studio
- Qwen3.5-Plus con 1M tokens contexto
- Built-in tools (search, Code Interpreter)
- Disponible internacionalmente (endpoint en Singapur)
OpenRouter
- Qwen3.5-Plus a $0.40/$2.40 por millón de tokens
- API compatible con OpenAI
- Disponible globalmente
Qwen Chat (App Oficial)
- Aplicación web y móvil
- Modos: Auto, Thinking, Fast
- Disponible en iOS, Android, macOS, Windows
Casos de Uso y Aplicaciones
1. Agentic AI y Automatización
La capacidad de ejecutar acciones autónomas en interfaces móviles y desktop abre casos de uso:
- Automatización de workflows: Procesos multi-paso que atraviesan múltiples aplicaciones
- Testing automatizado: Navegación y testing de UI/UX
- Data entry automatizado: Extracción y entrada de datos cross-app
2. Desarrollo de Software
Con 256k tokens de contexto y benchmarks fuertes en coding:
- Análisis de repositorios completos: Ingesta de codebases grandes
- Refactoring: Optimización y reestructuración de código
- Debugging: Identificación y resolución de bugs
3. Enterprise y Multilingüismo
Soporte para 201 idiomas y dialectos lo hace adecuado para:
- Soporte global: Chatbots multilingües
- Documentación: Traducción y localización
- RAG multilingüe: Retrieval-augmented generation con documentos extensos
4. Procesamiento de Video y Documentos
Comprensión multimodal nativa habilita:
- Análisis de video: Resumen, indexación y búsqueda de contenido video
- Document intelligence: Extracción de información de documentos complejos
- Compliance: Revisión automatizada de documentos multimedia
El Contexto Competitivo: China vs EE.UU.
El lanzamiento de Qwen 3.5 se enmarca en una intensificación de la competencia IA entre China y Estados Unidos:
- Enero 2026: DeepSeek anuncia modelos que desafían a GPT
- Febrero 2026: Alibaba responde con Qwen 3.5
- Febrero 2026: ByteDance lanza Doubao 2.0 (200M usuarios en China)
Según Reuters, Alibaba no mencionó a DeepSeek en su anuncio, pero los benchmarks publicados muestran Qwen3.5 superando a modelos estadounidenses en múltiples métricas.
La Aproximación de Alibaba: Open Weights
Mientras OpenAI, Anthropic y Google mantienen modelos cerrados, Alibaba ha apostado por pesos abiertos (open weights):
- Estrategia similar a Meta con Llama
- Permite despliegue local y customización
- Fomenta ecosistema de desarrolladores
- Qwen tiene >20M descargas en plataformas como Hugging Face
Limitaciones y Consideraciones
Dependencia de Benchmarks Propios
Todos los benchmarks de comparación contra GPT-5.2, Claude y Gemini provienen de fuentes oficiales de Qwen. No hay verificación independiente de momento de:
- Comparaciones head-to-head con GPT-5.2
- Afirmaciones de superioridad en BFCL-V4 y BrowseComp
- Números exactos de MMLU-Pro vs otros modelos
Requisitos Hardware
El deployment local del modelo 397B-A17B requiere hardware significativo:
- ~8×H100 (80GB) o equivalente
- Cuantización necesaria para despliegues más pequeños
- Versiones más pequeñas no anunciadas aún (esperadas según roadmap)
Disponibilidad Regional
- Alibaba Cloud Model Studio: Endpoint en Singapur para internacional
- Acceso desde China: Restricciones de región pueden aplicar
- OpenRouter: Disponibilidad global confirmada
El Futuro: ¿Qué Viene Después de Qwen 3.5?
En el blog oficial, el equipo de Qwen outline una visión que va más allá del escalamiento de modelos:
“El próximo salto requiere cambiar del escalamiento de modelos a la integración de sistemas: construir agentes con memoria persistente para aprendizaje cross-session, interfaces embodied para interacción con el mundo real, mecanismos de auto-mejora dirigida, y conciencia económica para operar dentro de restricciones prácticas.”
Componentes clave mencionados:
- Memoria Persistente: Agentes que aprenden cross-session
- Embodied Interfaces: Interacción con el mundo físico
- Self-Directed Improvement: Agentes que mejoran autónomamente
- Economic Awareness: Operación dentro de restricciones prácticas
Esta visión apunta a agentes que funcionen de forma autónoma por periodos prolongados, ejecutando objetivos complejos multi-día con juicio alineado a humanos.
Conclusión: Qwen 3.5 y la Era de Agentes Multimodales
Qwen 3.5 representa algo más que un modelo de lenguaje más grande o más capaz: es una declaración de intenciones de Alibaba sobre el futuro de la IA.
Con su arquitectura MoE ultra-sparse, multimodalidad nativa, y visual agentic capabilities, el modelo apunta hacia una transición desde asistentes conversacionales hacia agentes autónomos que pueden ver, entender y actuar en interfaces digitales como lo haría un humano.
Los benchmarks reportados muestran rendimiento competitivo o superior a modelos estadounidenses, mientras que los precios significativamente más bajos y licencia open-source podrían acelerar adopción enterprise y experimentation por desarrolladores.
Sin embargo, la verdadera prueba no vendrá de benchmarks internos, sino de:
- Validación independiente de capacidades
- Adopción real por enterprises y desarrolladores
- Ecosistema que se desarrolle alrededor del modelo
- Iteraciones futuras que expandan capacidades agentic
Mientras tanto, Qwen 3.5 ha puesto claramente sobre la mesa una pregunta que la industria empezará a responder en 2026: ¿Cómo se ve un modelo de lenguaje cuando deja de ser solo un modelo de lenguaje y se convierte en un agente multimodal nativo?
Alibaba ha dado su respuesta. Ahora toca al mercado evaluarla.
Fuentes
- Blog Oficial Qwen: qwen.ai/blog?id=qwen3.5
- GitHub Qwen: github.com/QwenLM/Qwen3.5
- Hugging Face: huggingface.co/collections/Qwen/qwen35
- Alibaba Cloud Model Studio: alibabacloud.com/model-studio
- Reuters: reuters.com - Alibaba unveils new Qwen3.5 model
- SCMP: scmp.com - Alibaba unveils Qwen-3.5
Nota: Todos los benchmarks comparativos con GPT-5.2, Claude Opus 4.5 y Gemini 3 Pro provienen de fuentes oficiales de Qwen. No hay verificación independiente de momento. Precios de Alibaba Cloud son USD aproximados para regiones internacionales.