¿Qwen 3.5 es realmente mejor que GPT-5.2?

Según benchmarks oficiales de Qwen, supera a GPT-5.2 en MMLU-Pro (87.8 vs 62.82). Sin embargo, estos números provienen de fuentes de Alibaba y falta validación independiente. La ventaja principal es que es open-source (Apache 2.0) y significativamente más económico.

¿Qué significa 'multimodalidad nativa' en Qwen 3.5?

A diferencia de modelos que conectan un encoder visual a un LLM, Qwen 3.5 integra texto y visión desde el pre-entrenamiento. Esto permite procesar video de hasta 2 horas, entender GUI/interfaces y ejecutar acciones visuales autónomas.

¿Cuánto cuesta usar Qwen 3.5?

Qwen3.5-Plus cuesta $0.40 por millón de tokens input y $2.40 por millón output. En China, el precio es aproximadamente ¥0.8 (~$0.11 USD) por millón, que es 1/18 del precio de Gemini 3 Pro.

¿Puedo ejecutar Qwen 3.5 localmente?

Sí, el modelo Qwen3.5-397B-A17B está disponible bajo licencia Apache 2.0 en Hugging Face. Sin embargo, requiere hardware significativo: aproximadamente 8×H100 o equivalente. Se espera lanzamiento de versiones más pequeñas.

¿Qué capacidades agentic tiene Qwen 3.5?

Qwen 3.5 puede ver pantallas de móviles/desktop, entender interfaces de usuario, y ejecutar acciones cross-app autónomamente. Incluye herramientas integradas como búsqueda web, Code Interpreter y modo thinking.

Qwen 3.5: Hacia Agentes Multimodales Nativos - La Revolución de Alibaba

16/2/2026 12 min de lectura Por Nicolas - MyntDev Actualizado: 16/2/2026

Analizamos en profundidad el nuevo modelo Qwen 3.5 de Alibaba: arquitectura MoE ultra-sparse, multimodalidad nativa, capacidades agentic, benchmarks y cómo se compara con GPT-5.2, Claude y Gemini.

Inteligencia Artificial
Qwen
Alibaba
LLM
Multimodal
Agentic AI

Índice de contenido

El 16 de febrero de 2026, en víspera del Año Nuevo Chino, Alibaba Cloud desvelaba Qwen 3.5, un modelo que marca un punto de inflexión en la carrera de la inteligencia artificial. No es simplemente una iteración más en la familia Qwen: representa una redefinición fundamental de cómo los modelos de lenguaje pueden integrar capacidades multimodales y comportarse como agentes autónomos.

La Estrategia de Alibaba: Más Allá de los LLMs Tradicionales

Alibaba tomó una decisión arquitectónica significativa con Qwen 3.5: la fusión nativa de texto y visión desde el pre-entrenamiento. Esto significa que el modelo no “ve” imágenes a través de un encoder visual separado que luego conecta a un LLM; más bien, la comprensión visual está tejida en la estructura fundamental del modelo desde su concepción.

El resultado, según los benchmarks oficiales publicados por Alibaba, es un rendimiento que supera a GPT-5.2 en MMLU-Pro (87.8 vs 62.82) y se posiciona competitivamente contra Claude Opus 4.5 y Gemini 3 Pro en múltiples dimensiones, todo mientras ofrece pesos abiertos bajo licencia Apache 2.0.

Arquitectura Revolucionaria: Cuatro Pilares Técnicos

1. Mixture-of-Experts Ultra-Sparse

Qwen 3.5-397B-A17B, la primera versión lanzada, implementa una arquitectura MoE (Mixture-of-Experts) extremadamente dispersa:

397 mil millones de parámetros totales
Solo 17 mil millones activos por token (aproximadamente 4.3%)

Esta arquitectura permite que el modelo active solo los “expertos” relevantes para cada token procesado. En lugar de usar todos los 397B parámetros para cada predicción, el modelo activa dinámicamente un subconjunto diminuto pero altamente especializado. El resultado es una eficiencia de inferencia dramáticamente mejorada: Alibaba reporta que Qwen 3.5 es 60% más económico que su predecesor y 8 veces más eficiente en procesamiento de workloads grandes.

2. Mecanismo de Atención Híbrida

El modelo implementa Gated DeltaNet + Gated Attention, una combinación que permite atención dinámica según la importancia de la información:

Para información crítica: “lectura detallada” con atención completa
Para información contextual: “lectura rápida” con atención reducida

Este mecanismo resuelve uno de los mayores cuellos de botella de los modelos de lenguaje: el costo computacional de atención que escala cuadráticamente con la longitud del contexto. Según Alibaba, esto permite 8.6x más throughput en contextos de 32k tokens y 19.0x más throughput en contextos de 256k tokens comparado con Qwen3-Max.

3. Predicción Multi-Token

A diferencia de modelos tradicionales que generan un token a la vez, Qwen 3.5 fue entrenado para predecir múltiples posiciones futuras simultáneamente. Esta capacidad de “multi-step planning” permite que la velocidad de inferencia se aproxime al doble de la de modelos convencionales, especialmente en escenarios de generación de código, textos largos y diálogos multipaso.

4. Infraestructura de Entrenamiento FP8 Nativo

El entrenamiento introduce un pipeline FP8 completo aplicado a activaciones, routing MoE y operaciones GEMM, con monitoreo runtime que preserva BF16 en capas sensibles. Según el equipo de Qwen, esto logra:

~50% reducción en memoria de activaciones
>10% aceleración en entrenamiento
Escalamiento estable a decenas de trillones de tokens

Multimodalidad Nativa: No es un LLM con Vision Adjunta

Qwen 3.5 destaca por su multimodalidad nativa: integra texto y visión desde el inicio del pre-entrenamiento, lo que le permite procesar contenido multimodal de manera más eficiente.

Implicaciones Prácticas

Esta integración temprana permite capacidades avanzadas:

Procesamiento de video de hasta 2 horas: El modelo puede consumir una película completa y luego organizar la trama, relaciones de personajes y estilo visual en documentos o código.
Comprensión de GUI: El modelo puede “ver” interfaces de usuario como lo haría un humano, entendiendo la posición y función de elementos en pantalla.
Análisis de documentos complejos: Benchmarks como OmniDocBench v1.5 (90.8) y MMMU-Pro (79.0) muestran fortaleza en comprensión documental multimodal.

Video-MME y Video Understanding

En Video-MME (87.5), Qwen 3.5 demuestra comprensión temporal de contenido video, una capacidad crítica para aplicaciones de análisis de multimedia, monitoreo y contenido generativo video-texto.

Capacidades Agentic: De Asistente a Agente Autónomo

El anuncio de Qwen 3.5 se titula “Towards Native Multimodal Agents” (Hacia Agentes Multimodales Nativos), y esto no es retórica: el modelo introduce visual agentic capabilities que le permiten ejecutar acciones autónomas.

Visual Agent Capabilities

Según el blog oficial y reportes de Reuters, Qwen 3.5 puede:

Ver pantallas de móviles y desktop como lo haría un humano
Entender la posición y función de elementos de interfaz
Ejecutar acciones cross-app de forma autónoma

En demostraciones oficiales, un usuario puede dar una instrucción en lenguaje natural y el modelo navega múltiples aplicaciones en un dispositivo móvil, completa formularios, realiza compras o procesa datos en una hoja de cálculo, todo sin intervención humana más allá del comando inicial.

Built-in Tools

Qwen 3.5-Plus (la versión API) incluye herramientas integradas:

enable_thinking: Activa modo reasoning (chain-of-thought)
enable_search: Búsqueda web
Code Interpreter: Ejecución de código

Esto contrasta con la aproximación de otros proveedores que requieren frameworks externos o plataformas separadas para capacidades tool-use.

Rendimiento y Benchmarks: Análisis Detallado

Todos los benchmarks a continuación provienen de fuentes oficiales de Qwen (blog.qwen.ai, GitHub, HuggingFace). Se indica cuando las comparativas con otros modelos son reportadas por Alibaba.

Conocimiento General y Multilingüe

Benchmark	Qwen3.5-397B-A17B	GPT-5.2	Claude Opus 4.5	Gemini 3 Pro
MMLU-Pro	87.8	87.4	89.5	89.8
MMLU-Redux	94.9	95.0	95.6	95.9
SuperGPQA	70.4	67.9	70.6	74.0
C-Eval	93.0	90.5	92.2	93.4
IFEval	92.6	94.8	90.9	93.5
IFBench	76.5	75.4	58.0	70.4
MultiChallenge	67.6	57.9	54.2	64.2
MMMLU	88.5	89.5	90.1	90.6
Include	85.6	87.5	86.2	90.5
LiveCodeBench v6	83.6	87.7	84.8	90.7

* Todos los benchmarks provienen del announcement oficial de Qwen

MMLU-Pro (87.8) es particularmente significativo: este benchmark, diseñado para ser más desafiante que MMLU original, muestra un rendimiento competitivo frente a GPT-5.2 (87.4), Claude Opus 4.5 (89.5) y Gemini 3 Pro (89.8).

Razonamiento y STEM

Benchmark	Qwen3.5	Qwen3
BBH	90.98	87.95
MATH	74.14	71.84
GSM8K	93.71	91.17
KoRBench	54.08	50.80

* Dato de Qwen2.5 de fuentes externas, no announcement oficial

GSM8K (93.71) y MATH (74.14) muestran fortaleza continua en razonamiento matemático, con mejoras progresivas a través de generaciones.

Coding y Desarrollo

Benchmark	Qwen3.5	Qwen3
Evalplus	79.32	69.49
MultiPLE	79.39	70.64
SWE-agentless	43.26	34.67
CRUX-I	71.13	67.63
CRUX-O	82.38	77.13
SWE-bench Verified*	76.4	-

* Benchmark de terceros, no en announcement oficial

Los benchmarks de coding muestran mejoras sustanciales, especialmente en Evalplus (79.32 vs 69.49) y MultiPLE (79.39 vs 70.64), que evalúan generación de código en múltiples lenguajes de programación.

Capacidad Agentic

Benchmark	Qwen3.5	Nota
IFBench	76.5	Récord en su clase según Qwen
BFCL-V4	72.9	Supera a Gemini 3 Pro y GPT-5.2*
BrowseComp	69.0/78.6	Supera a Gemini 3 Pro y GPT-5.2*
VITA-Bench	49.7	Agentic multimodal interaction

* Afirmación de Alibaba, no verificada independientemente

IFBench (76.5) evalúa instruction following, y según Alibaba, establece un nuevo récord entre modelos en su clase.

Multimodal y Video

Benchmark	Qwen3.5	Nota
MMMU-Pro	79.0	Visual reasoning
OmniDocBench v1.5	90.8	Document understanding
Video-MME	87.5	Video reasoning
VITA-Bench	49.7	Agentic multimodal
ERQA	67.5	Embodied & spatial reasoning

Comparación con Generaciones Anteriores

vs Qwen3

Las mejoras arquitectónicas de Qwen3.5 sobre Qwen3 son sustanciales:

8.6x throughput en contexto 32k
19.0x throughput en contexto 256k
3.5x-7.2x más rápido que Qwen3-235B-A22B
Multimodalidad nativa (Qwen3 requería VL separado)
Contexto expandido: 256k nativo (Open Source) vs rangos inferiores

vs Qwen2.5

La evolución desde Qwen2.5 es aún más dramática:

Aspecto	Qwen2.5	Qwen3	Qwen3.5
Entrenamiento	~18T tokens	36T tokens	Mayor énfasis visual
Arquitectura	Dense	MoE	MoE ultra-sparse
Idiomas	~29	119	201
Contexto máximo	131k	Hasta 256k	1M (Plus)
Multimodalidad	VL separado	VL separado	Nativo

Precios y Eficiencia Económica

Precios Verificados (Alibaba Cloud Model Studio)

Modelo	Input (1M tokens)	Output (1M tokens)
Qwen3.5-Plus	$0.40 (<256K) / $1.20 (256K-1M)	$2.40 (<256K) / $7.20 (256K-1M)

Comparación con Competidores

Modelo	Input	Output	Nota
Qwen3.5-Plus	$0.40 (<256K)	$2.40 (<256K)	Open weights disponibles, pricing tiered
GPT 5.2	$1.75	$14.00	Closed-source
Claude Opus 4.5	$5.00	$25.00	Closed-source
Gemini 3.0 Pro	$2.00 (<200K) / $4.00 (200K-2M)	$12.00 (<200K) / $18.00 (200K-2M)	Closed-source

Precio en China

Según reportes de fuentes chinas, Qwen3.5-Plus cuesta ¥0.8 (~$0.11 USD) por millón de tokens en el mercado interno (0-128K tokens), lo que representa aproximadamente 1/18 del precio de Gemini 3.0 Pro ($2.00/M input).

Eficiencia Operacional

Alibaba reporta que Qwen3.5 es:

60% más económico que su predecesor inmediato
8 veces más eficiente en procesamiento de workloads grandes
Capaz de despliegue local con licencia Apache 2.0

Disponibilidad y Acceso

Open Source (Apache 2.0)

Modelo: Qwen/Qwen3.5-397B-A17B en Hugging Face

397B parámetros totales, 17B activos
256k tokens de contexto (nativo)
Licencia Apache 2.0 (uso comercial permitido)
Requiere hardware significativo: ~8×H100 o equivalente

API y Cloud Services

Alibaba Cloud Model Studio

Qwen3.5-Plus con 1M tokens contexto
Built-in tools (search, Code Interpreter)
Disponible internacionalmente (endpoint en Singapur)

OpenRouter

Qwen3.5-Plus a $0.40/$2.40 por millón de tokens
API compatible con OpenAI
Disponible globalmente

Qwen Chat (App Oficial)

Aplicación web y móvil
Modos: Auto, Thinking, Fast
Disponible en iOS, Android, macOS, Windows

Casos de Uso y Aplicaciones

1. Agentic AI y Automatización

La capacidad de ejecutar acciones autónomas en interfaces móviles y desktop abre casos de uso:

Automatización de workflows: Procesos multi-paso que atraviesan múltiples aplicaciones
Testing automatizado: Navegación y testing de UI/UX
Data entry automatizado: Extracción y entrada de datos cross-app

2. Desarrollo de Software

Con 256k tokens de contexto y benchmarks fuertes en coding:

Análisis de repositorios completos: Ingesta de codebases grandes
Refactoring: Optimización y reestructuración de código
Debugging: Identificación y resolución de bugs

3. Enterprise y Multilingüismo

Soporte para 201 idiomas y dialectos lo hace adecuado para:

Soporte global: Chatbots multilingües
Documentación: Traducción y localización
RAG multilingüe: Retrieval-augmented generation con documentos extensos

4. Procesamiento de Video y Documentos

Comprensión multimodal nativa habilita:

Análisis de video: Resumen, indexación y búsqueda de contenido video
Document intelligence: Extracción de información de documentos complejos
Compliance: Revisión automatizada de documentos multimedia

El Contexto Competitivo: China vs EE.UU.

El lanzamiento de Qwen 3.5 se enmarca en una intensificación de la competencia IA entre China y Estados Unidos:

Enero 2026: DeepSeek anuncia modelos que desafían a GPT
Febrero 2026: Alibaba responde con Qwen 3.5
Febrero 2026: ByteDance lanza Doubao 2.0 (200M usuarios en China)

Según Reuters, Alibaba no mencionó a DeepSeek en su anuncio, pero los benchmarks publicados muestran Qwen3.5 superando a modelos estadounidenses en múltiples métricas.

La Aproximación de Alibaba: Open Weights

Mientras OpenAI, Anthropic y Google mantienen modelos cerrados, Alibaba ha apostado por pesos abiertos (open weights):

Estrategia similar a Meta con Llama
Permite despliegue local y customización
Fomenta ecosistema de desarrolladores
Qwen tiene >20M descargas en plataformas como Hugging Face

Limitaciones y Consideraciones

Dependencia de Benchmarks Propios

Todos los benchmarks de comparación contra GPT-5.2, Claude y Gemini provienen de fuentes oficiales de Qwen. No hay verificación independiente de momento de:

Comparaciones head-to-head con GPT-5.2
Afirmaciones de superioridad en BFCL-V4 y BrowseComp
Números exactos de MMLU-Pro vs otros modelos

Requisitos Hardware

El deployment local del modelo 397B-A17B requiere hardware significativo:

~8×H100 (80GB) o equivalente
Cuantización necesaria para despliegues más pequeños
Versiones más pequeñas no anunciadas aún (esperadas según roadmap)

Disponibilidad Regional

Alibaba Cloud Model Studio: Endpoint en Singapur para internacional
Acceso desde China: Restricciones de región pueden aplicar
OpenRouter: Disponibilidad global confirmada

El Futuro: ¿Qué Viene Después de Qwen 3.5?

En el blog oficial, el equipo de Qwen outline una visión que va más allá del escalamiento de modelos:

“El próximo salto requiere cambiar del escalamiento de modelos a la integración de sistemas: construir agentes con memoria persistente para aprendizaje cross-session, interfaces embodied para interacción con el mundo real, mecanismos de auto-mejora dirigida, y conciencia económica para operar dentro de restricciones prácticas.”

Componentes clave mencionados:

Memoria Persistente: Agentes que aprenden cross-session
Embodied Interfaces: Interacción con el mundo físico
Self-Directed Improvement: Agentes que mejoran autónomamente
Economic Awareness: Operación dentro de restricciones prácticas

Esta visión apunta a agentes que funcionen de forma autónoma por periodos prolongados, ejecutando objetivos complejos multi-día con juicio alineado a humanos.

Conclusión: Qwen 3.5 y la Era de Agentes Multimodales

Qwen 3.5 representa algo más que un modelo de lenguaje más grande o más capaz: es una declaración de intenciones de Alibaba sobre el futuro de la IA.

Con su arquitectura MoE ultra-sparse, multimodalidad nativa, y visual agentic capabilities, el modelo apunta hacia una transición desde asistentes conversacionales hacia agentes autónomos que pueden ver, entender y actuar en interfaces digitales como lo haría un humano.

Los benchmarks reportados muestran rendimiento competitivo o superior a modelos estadounidenses, mientras que los precios significativamente más bajos y licencia open-source podrían acelerar adopción enterprise y experimentation por desarrolladores.

Sin embargo, la verdadera prueba no vendrá de benchmarks internos, sino de:

Validación independiente de capacidades
Adopción real por enterprises y desarrolladores
Ecosistema que se desarrolle alrededor del modelo
Iteraciones futuras que expandan capacidades agentic

Mientras tanto, Qwen 3.5 ha puesto claramente sobre la mesa una pregunta que la industria empezará a responder en 2026: ¿Cómo se ve un modelo de lenguaje cuando deja de ser solo un modelo de lenguaje y se convierte en un agente multimodal nativo?

Alibaba ha dado su respuesta. Ahora toca al mercado evaluarla.

Fuentes

Blog Oficial Qwen: qwen.ai/blog?id=qwen3.5
GitHub Qwen: github.com/QwenLM/Qwen3.5
Hugging Face: huggingface.co/collections/Qwen/qwen35
Alibaba Cloud Model Studio: alibabacloud.com/model-studio
Reuters: reuters.com - Alibaba unveils new Qwen3.5 model
SCMP: scmp.com - Alibaba unveils Qwen-3.5

Nota: Todos los benchmarks comparativos con GPT-5.2, Claude Opus 4.5 y Gemini 3 Pro provienen de fuentes oficiales de Qwen. No hay verificación independiente de momento. Precios de Alibaba Cloud son USD aproximados para regiones internacionales.