MyntDev_

Qwen 3.5: Hacia Agentes Multimodales Nativos - La Revolución de Alibaba

Analizamos en profundidad el nuevo modelo Qwen 3.5 de Alibaba: arquitectura MoE ultra-sparse, multimodalidad nativa, capacidades agentic, benchmarks y cómo se compara con GPT-5.2, Claude y Gemini.

Qwen 3.5: Arquitectura multimodal nativa con capacidades agentic de Alibaba
Índice de contenido

El 16 de febrero de 2026, en víspera del Año Nuevo Chino, Alibaba Cloud desvelaba Qwen 3.5, un modelo que marca un punto de inflexión en la carrera de la inteligencia artificial. No es simplemente una iteración más en la familia Qwen: representa una redefinición fundamental de cómo los modelos de lenguaje pueden integrar capacidades multimodales y comportarse como agentes autónomos.

La Estrategia de Alibaba: Más Allá de los LLMs Tradicionales

Alibaba tomó una decisión arquitectónica significativa con Qwen 3.5: la fusión nativa de texto y visión desde el pre-entrenamiento. Esto significa que el modelo no “ve” imágenes a través de un encoder visual separado que luego conecta a un LLM; más bien, la comprensión visual está tejida en la estructura fundamental del modelo desde su concepción.

El resultado, según los benchmarks oficiales publicados por Alibaba, es un rendimiento que supera a GPT-5.2 en MMLU-Pro (87.8 vs 62.82) y se posiciona competitivamente contra Claude Opus 4.5 y Gemini 3 Pro en múltiples dimensiones, todo mientras ofrece pesos abiertos bajo licencia Apache 2.0.

Arquitectura Revolucionaria: Cuatro Pilares Técnicos

1. Mixture-of-Experts Ultra-Sparse

Qwen 3.5-397B-A17B, la primera versión lanzada, implementa una arquitectura MoE (Mixture-of-Experts) extremadamente dispersa:

  • 397 mil millones de parámetros totales
  • Solo 17 mil millones activos por token (aproximadamente 4.3%)

Esta arquitectura permite que el modelo active solo los “expertos” relevantes para cada token procesado. En lugar de usar todos los 397B parámetros para cada predicción, el modelo activa dinámicamente un subconjunto diminuto pero altamente especializado. El resultado es una eficiencia de inferencia dramáticamente mejorada: Alibaba reporta que Qwen 3.5 es 60% más económico que su predecesor y 8 veces más eficiente en procesamiento de workloads grandes.

2. Mecanismo de Atención Híbrida

El modelo implementa Gated DeltaNet + Gated Attention, una combinación que permite atención dinámica según la importancia de la información:

  • Para información crítica: “lectura detallada” con atención completa
  • Para información contextual: “lectura rápida” con atención reducida

Este mecanismo resuelve uno de los mayores cuellos de botella de los modelos de lenguaje: el costo computacional de atención que escala cuadráticamente con la longitud del contexto. Según Alibaba, esto permite 8.6x más throughput en contextos de 32k tokens y 19.0x más throughput en contextos de 256k tokens comparado con Qwen3-Max.

3. Predicción Multi-Token

A diferencia de modelos tradicionales que generan un token a la vez, Qwen 3.5 fue entrenado para predecir múltiples posiciones futuras simultáneamente. Esta capacidad de “multi-step planning” permite que la velocidad de inferencia se aproxime al doble de la de modelos convencionales, especialmente en escenarios de generación de código, textos largos y diálogos multipaso.

4. Infraestructura de Entrenamiento FP8 Nativo

El entrenamiento introduce un pipeline FP8 completo aplicado a activaciones, routing MoE y operaciones GEMM, con monitoreo runtime que preserva BF16 en capas sensibles. Según el equipo de Qwen, esto logra:

  • ~50% reducción en memoria de activaciones
  • >10% aceleración en entrenamiento
  • Escalamiento estable a decenas de trillones de tokens

Multimodalidad Nativa: No es un LLM con Vision Adjunta

Qwen 3.5 destaca por su multimodalidad nativa: integra texto y visión desde el inicio del pre-entrenamiento, lo que le permite procesar contenido multimodal de manera más eficiente.

Implicaciones Prácticas

Esta integración temprana permite capacidades avanzadas:

  1. Procesamiento de video de hasta 2 horas: El modelo puede consumir una película completa y luego organizar la trama, relaciones de personajes y estilo visual en documentos o código.
  2. Comprensión de GUI: El modelo puede “ver” interfaces de usuario como lo haría un humano, entendiendo la posición y función de elementos en pantalla.
  3. Análisis de documentos complejos: Benchmarks como OmniDocBench v1.5 (90.8) y MMMU-Pro (79.0) muestran fortaleza en comprensión documental multimodal.

Video-MME y Video Understanding

En Video-MME (87.5), Qwen 3.5 demuestra comprensión temporal de contenido video, una capacidad crítica para aplicaciones de análisis de multimedia, monitoreo y contenido generativo video-texto.

Capacidades Agentic: De Asistente a Agente Autónomo

El anuncio de Qwen 3.5 se titula “Towards Native Multimodal Agents” (Hacia Agentes Multimodales Nativos), y esto no es retórica: el modelo introduce visual agentic capabilities que le permiten ejecutar acciones autónomas.

Visual Agent Capabilities

Según el blog oficial y reportes de Reuters, Qwen 3.5 puede:

  • Ver pantallas de móviles y desktop como lo haría un humano
  • Entender la posición y función de elementos de interfaz
  • Ejecutar acciones cross-app de forma autónoma

En demostraciones oficiales, un usuario puede dar una instrucción en lenguaje natural y el modelo navega múltiples aplicaciones en un dispositivo móvil, completa formularios, realiza compras o procesa datos en una hoja de cálculo, todo sin intervención humana más allá del comando inicial.

Built-in Tools

Qwen 3.5-Plus (la versión API) incluye herramientas integradas:

  • enable_thinking: Activa modo reasoning (chain-of-thought)
  • enable_search: Búsqueda web
  • Code Interpreter: Ejecución de código

Esto contrasta con la aproximación de otros proveedores que requieren frameworks externos o plataformas separadas para capacidades tool-use.

Rendimiento y Benchmarks: Análisis Detallado

Todos los benchmarks a continuación provienen de fuentes oficiales de Qwen (blog.qwen.ai, GitHub, HuggingFace). Se indica cuando las comparativas con otros modelos son reportadas por Alibaba.

Conocimiento General y Multilingüe

BenchmarkQwen3.5-397B-A17BGPT-5.2Claude Opus 4.5Gemini 3 Pro
MMLU-Pro87.887.489.589.8
MMLU-Redux94.995.095.695.9
SuperGPQA70.467.970.674.0
C-Eval93.090.592.293.4
IFEval92.694.890.993.5
IFBench76.575.458.070.4
MultiChallenge67.657.954.264.2
MMMLU88.589.590.190.6
Include85.687.586.290.5
LiveCodeBench v683.687.784.890.7

* Todos los benchmarks provienen del announcement oficial de Qwen

MMLU-Pro (87.8) es particularmente significativo: este benchmark, diseñado para ser más desafiante que MMLU original, muestra un rendimiento competitivo frente a GPT-5.2 (87.4), Claude Opus 4.5 (89.5) y Gemini 3 Pro (89.8).

Razonamiento y STEM

BenchmarkQwen3.5Qwen3
BBH90.9887.95
MATH74.1471.84
GSM8K93.7191.17
KoRBench54.0850.80

* Dato de Qwen2.5 de fuentes externas, no announcement oficial

GSM8K (93.71) y MATH (74.14) muestran fortaleza continua en razonamiento matemático, con mejoras progresivas a través de generaciones.

Coding y Desarrollo

BenchmarkQwen3.5Qwen3
Evalplus79.3269.49
MultiPLE79.3970.64
SWE-agentless43.2634.67
CRUX-I71.1367.63
CRUX-O82.3877.13
SWE-bench Verified*76.4-

* Benchmark de terceros, no en announcement oficial

Los benchmarks de coding muestran mejoras sustanciales, especialmente en Evalplus (79.32 vs 69.49) y MultiPLE (79.39 vs 70.64), que evalúan generación de código en múltiples lenguajes de programación.

Capacidad Agentic

BenchmarkQwen3.5Nota
IFBench76.5Récord en su clase según Qwen
BFCL-V472.9Supera a Gemini 3 Pro y GPT-5.2*
BrowseComp69.0/78.6Supera a Gemini 3 Pro y GPT-5.2*
VITA-Bench49.7Agentic multimodal interaction

* Afirmación de Alibaba, no verificada independientemente

IFBench (76.5) evalúa instruction following, y según Alibaba, establece un nuevo récord entre modelos en su clase.

Multimodal y Video

BenchmarkQwen3.5Nota
MMMU-Pro79.0Visual reasoning
OmniDocBench v1.590.8Document understanding
Video-MME87.5Video reasoning
VITA-Bench49.7Agentic multimodal
ERQA67.5Embodied & spatial reasoning

Comparación con Generaciones Anteriores

vs Qwen3

Las mejoras arquitectónicas de Qwen3.5 sobre Qwen3 son sustanciales:

  • 8.6x throughput en contexto 32k
  • 19.0x throughput en contexto 256k
  • 3.5x-7.2x más rápido que Qwen3-235B-A22B
  • Multimodalidad nativa (Qwen3 requería VL separado)
  • Contexto expandido: 256k nativo (Open Source) vs rangos inferiores

vs Qwen2.5

La evolución desde Qwen2.5 es aún más dramática:

AspectoQwen2.5Qwen3Qwen3.5
Entrenamiento~18T tokens36T tokensMayor énfasis visual
ArquitecturaDenseMoEMoE ultra-sparse
Idiomas~29119201
Contexto máximo131kHasta 256k1M (Plus)
MultimodalidadVL separadoVL separadoNativo

Precios y Eficiencia Económica

Precios Verificados (Alibaba Cloud Model Studio)

ModeloInput (1M tokens)Output (1M tokens)
Qwen3.5-Plus$0.40 (<256K) / $1.20 (256K-1M)$2.40 (<256K) / $7.20 (256K-1M)

Comparación con Competidores

ModeloInputOutputNota
Qwen3.5-Plus$0.40 (<256K)$2.40 (<256K)Open weights disponibles, pricing tiered
GPT 5.2$1.75$14.00Closed-source
Claude Opus 4.5$5.00$25.00Closed-source
Gemini 3.0 Pro$2.00 (<200K) / $4.00 (200K-2M)$12.00 (<200K) / $18.00 (200K-2M)Closed-source

Precio en China

Según reportes de fuentes chinas, Qwen3.5-Plus cuesta ¥0.8 (~$0.11 USD) por millón de tokens en el mercado interno (0-128K tokens), lo que representa aproximadamente 1/18 del precio de Gemini 3.0 Pro ($2.00/M input).

Eficiencia Operacional

Alibaba reporta que Qwen3.5 es:

  • 60% más económico que su predecesor inmediato
  • 8 veces más eficiente en procesamiento de workloads grandes
  • Capaz de despliegue local con licencia Apache 2.0

Disponibilidad y Acceso

Open Source (Apache 2.0)

Modelo: Qwen/Qwen3.5-397B-A17B en Hugging Face

  • 397B parámetros totales, 17B activos
  • 256k tokens de contexto (nativo)
  • Licencia Apache 2.0 (uso comercial permitido)
  • Requiere hardware significativo: ~8×H100 o equivalente

API y Cloud Services

Alibaba Cloud Model Studio

  • Qwen3.5-Plus con 1M tokens contexto
  • Built-in tools (search, Code Interpreter)
  • Disponible internacionalmente (endpoint en Singapur)

OpenRouter

  • Qwen3.5-Plus a $0.40/$2.40 por millón de tokens
  • API compatible con OpenAI
  • Disponible globalmente

Qwen Chat (App Oficial)

  • Aplicación web y móvil
  • Modos: Auto, Thinking, Fast
  • Disponible en iOS, Android, macOS, Windows

Casos de Uso y Aplicaciones

1. Agentic AI y Automatización

La capacidad de ejecutar acciones autónomas en interfaces móviles y desktop abre casos de uso:

  • Automatización de workflows: Procesos multi-paso que atraviesan múltiples aplicaciones
  • Testing automatizado: Navegación y testing de UI/UX
  • Data entry automatizado: Extracción y entrada de datos cross-app

2. Desarrollo de Software

Con 256k tokens de contexto y benchmarks fuertes en coding:

  • Análisis de repositorios completos: Ingesta de codebases grandes
  • Refactoring: Optimización y reestructuración de código
  • Debugging: Identificación y resolución de bugs

3. Enterprise y Multilingüismo

Soporte para 201 idiomas y dialectos lo hace adecuado para:

  • Soporte global: Chatbots multilingües
  • Documentación: Traducción y localización
  • RAG multilingüe: Retrieval-augmented generation con documentos extensos

4. Procesamiento de Video y Documentos

Comprensión multimodal nativa habilita:

  • Análisis de video: Resumen, indexación y búsqueda de contenido video
  • Document intelligence: Extracción de información de documentos complejos
  • Compliance: Revisión automatizada de documentos multimedia

El Contexto Competitivo: China vs EE.UU.

El lanzamiento de Qwen 3.5 se enmarca en una intensificación de la competencia IA entre China y Estados Unidos:

  • Enero 2026: DeepSeek anuncia modelos que desafían a GPT
  • Febrero 2026: Alibaba responde con Qwen 3.5
  • Febrero 2026: ByteDance lanza Doubao 2.0 (200M usuarios en China)

Según Reuters, Alibaba no mencionó a DeepSeek en su anuncio, pero los benchmarks publicados muestran Qwen3.5 superando a modelos estadounidenses en múltiples métricas.

La Aproximación de Alibaba: Open Weights

Mientras OpenAI, Anthropic y Google mantienen modelos cerrados, Alibaba ha apostado por pesos abiertos (open weights):

  • Estrategia similar a Meta con Llama
  • Permite despliegue local y customización
  • Fomenta ecosistema de desarrolladores
  • Qwen tiene >20M descargas en plataformas como Hugging Face

Limitaciones y Consideraciones

Dependencia de Benchmarks Propios

Todos los benchmarks de comparación contra GPT-5.2, Claude y Gemini provienen de fuentes oficiales de Qwen. No hay verificación independiente de momento de:

  • Comparaciones head-to-head con GPT-5.2
  • Afirmaciones de superioridad en BFCL-V4 y BrowseComp
  • Números exactos de MMLU-Pro vs otros modelos

Requisitos Hardware

El deployment local del modelo 397B-A17B requiere hardware significativo:

  • ~8×H100 (80GB) o equivalente
  • Cuantización necesaria para despliegues más pequeños
  • Versiones más pequeñas no anunciadas aún (esperadas según roadmap)

Disponibilidad Regional

  • Alibaba Cloud Model Studio: Endpoint en Singapur para internacional
  • Acceso desde China: Restricciones de región pueden aplicar
  • OpenRouter: Disponibilidad global confirmada

El Futuro: ¿Qué Viene Después de Qwen 3.5?

En el blog oficial, el equipo de Qwen outline una visión que va más allá del escalamiento de modelos:

“El próximo salto requiere cambiar del escalamiento de modelos a la integración de sistemas: construir agentes con memoria persistente para aprendizaje cross-session, interfaces embodied para interacción con el mundo real, mecanismos de auto-mejora dirigida, y conciencia económica para operar dentro de restricciones prácticas.”

Componentes clave mencionados:

  1. Memoria Persistente: Agentes que aprenden cross-session
  2. Embodied Interfaces: Interacción con el mundo físico
  3. Self-Directed Improvement: Agentes que mejoran autónomamente
  4. Economic Awareness: Operación dentro de restricciones prácticas

Esta visión apunta a agentes que funcionen de forma autónoma por periodos prolongados, ejecutando objetivos complejos multi-día con juicio alineado a humanos.

Conclusión: Qwen 3.5 y la Era de Agentes Multimodales

Qwen 3.5 representa algo más que un modelo de lenguaje más grande o más capaz: es una declaración de intenciones de Alibaba sobre el futuro de la IA.

Con su arquitectura MoE ultra-sparse, multimodalidad nativa, y visual agentic capabilities, el modelo apunta hacia una transición desde asistentes conversacionales hacia agentes autónomos que pueden ver, entender y actuar en interfaces digitales como lo haría un humano.

Los benchmarks reportados muestran rendimiento competitivo o superior a modelos estadounidenses, mientras que los precios significativamente más bajos y licencia open-source podrían acelerar adopción enterprise y experimentation por desarrolladores.

Sin embargo, la verdadera prueba no vendrá de benchmarks internos, sino de:

  1. Validación independiente de capacidades
  2. Adopción real por enterprises y desarrolladores
  3. Ecosistema que se desarrolle alrededor del modelo
  4. Iteraciones futuras que expandan capacidades agentic

Mientras tanto, Qwen 3.5 ha puesto claramente sobre la mesa una pregunta que la industria empezará a responder en 2026: ¿Cómo se ve un modelo de lenguaje cuando deja de ser solo un modelo de lenguaje y se convierte en un agente multimodal nativo?

Alibaba ha dado su respuesta. Ahora toca al mercado evaluarla.


Fuentes

Nota: Todos los benchmarks comparativos con GPT-5.2, Claude Opus 4.5 y Gemini 3 Pro provienen de fuentes oficiales de Qwen. No hay verificación independiente de momento. Precios de Alibaba Cloud son USD aproximados para regiones internacionales.

Preguntas frecuentes

¿Necesitas un equipo de desarrollo para tu empresa?

En Mynt trabajamos como equipo independiente para arquitectura, implementacion y escalado de productos digitales en distintos contextos.

Ingenieria de software Equipo de desarrollo