¿Claude Sonnet 4.6 es mejor que Opus 4.6?

No exactamente. Sonnet 4.6 se acerca al rendimiento de Opus en muchas tareas, pero Opus 4.6 sigue siendo superior en razonamiento profundo y tareas complejas. La ventaja de Sonnet 4.6 es que ofrece rendimiento cercano a Opus a precio de Sonnet.

¿Realmente mejora el uso de computadora?

Sí, según el benchmark OSWorld, Sonnet 4.6 muestra una mejora significativa respecto a Sonnet 4.5 en tareas de uso de computadora, acercándose a capacidades de nivel humano en tareas como navegación de hojas de cálculo y formularios web complejos.

¿El contexto de 1M tokens es útil en la práctica?

Sí, permite cargar codebases completos, contratos extensos o docenas de papers de investigación en una sola solicitud. Más importante aún, Sonnet 4.6 razona efectivamente a través de todo ese contexto, mejorando la planificación de largo plazo.

¿Vale la pena migrar de Sonnet 4.5?

Para la mayoría de los casos de uso, sí. Los desarrolladores en Claude Code prefirieron Sonnet 4.6 sobre 4.5 aproximadamente el 70% de las veces, citando mejor adherencia a instrucciones, menos alucinaciones y mejor seguimiento en tareas multi-paso.

¿Cómo se compara en precio con otros modelos?

Sonnet 4.6 mantiene el mismo precio que Sonnet 4.5: $3/$15 por millón de tokens. Esto lo hace significativamente más económico que Opus 4.6 ($5/$25), ofreciendo rendimiento cercano a Opus a un menor costo.

Claude Sonnet 4.6: Benchmark, precio y análisis real para developers

17/2/2026 19 min de lectura Por Nicolas - MyntDev Actualizado: 17/2/2026

Análisis completo de Claude Sonnet 4.6: Benchmarks vs Opus y GPT-5, uso de computadora, contexto 1M tokens, precio y ROI real.

IA para desarrolladores
Claude Sonnet 4.6
Uso de computadora
Productividad técnica

Índice de contenido

Si me quedo solo con el hype, Sonnet 4.6 parece magia. Si me quedo solo con los numeros, parece una mejora incremental. Mi lectura, despues de revisar el system card oficial, el anuncio y fuentes de terceros, es mas matizada y util para trabajo real:

Sonnet 4.6 es el modelo Sonnet mas capaz hasta la fecha, que acerca el rendimiento de nivel Opus a un precio de Sonnet, con mejoras sustanciales en coding, uso de computadora y razonamiento de contexto largo.

Que es Claude Sonnet 4.6?

Claude Sonnet 4.6 es el modelo de nivel medio de Anthropic lanzado el 17 de febrero de 2026. Se posiciona como un “full upgrade” del modelo Sonnet en habilidades de coding, uso de computadora, razonamiento de contexto largo, planificacion de agentes, trabajo de conocimiento y diseno.

La diferencia clave frente a generaciones anteriores no es solo “mejor codigo”; es que rendimiento que antes requeria un modelo Opus ahora esta disponible con Sonnet, a un precio mucho mas accesible.

Si lo digo en una linea: es un modelo que ofrece inteligencia cercana a la frontera a precio de produccion.

Resumen en 90 segundos

Si mejora de verdad: coding, uso de computadora, contexto largo, seguimiento de instrucciones.
Donde pega mas fuerte: desarrollo de software, automatizacion de tareas de computadora, analisis de documentos.
Precio: ≤200K contexto: $3/$15 por MTok, >200K: $6/$22.50 por MTok.
Contexto: ventana de 1M tokens en beta, max output 128K.
Posicionamiento: rendimiento de nivel Opus en varios benchmarks, a precio de Sonnet.

Que trae Sonnet 4.6 (lo importante)

Estos son los cambios que impactan en producto:

1. Ventana de contexto de 1M tokens (beta)

Segun el anuncio oficial, Sonnet 4.6 puede mantener:

codebases completas,
contratos extensos,
docenas de papers de investigacion, en una sola solicitud.

Mas importante aun: Sonnet 4.6 razona efectivamente a traves de todo ese contexto. Esto no solo es memoria; es capacidad de conectar informacion dispersa en grandes volumenes de datos.

2. Mejoras en uso de computadora

El anuncio oficial destaca que Sonnet 4.6 muestra una mejora en habilidades de uso de computadora comparado con modelos Sonnet anteriores.

En el benchmark OSWorld (estandar para evaluacion de uso de computadora por IA), Sonnet 4.6 demuestra progresos sustanciales, acercandose a capacidades de nivel humano en tareas como:

navegacion de hojas de calculo complejas,
llenado de formularios web multi-paso,
coordinacion entre multiples pestañas del navegador.

3. Adaptive thinking y extended thinking

Sonnet 4.6 soporta ambos modos de pensamiento en la plataforma de desarrolladores:

Adaptive thinking: el modelo decide cuando usar razonamiento extendido.
Extended thinking: razonamiento profundo para tareas complejas.

Esto permite ajustar el balance entre velocidad y rendimiento segun el caso de uso.

4. Context compaction (beta)

Esta caracteristica resume automaticamente el contexto antiguo cuando la conversacion se aproxima a los limites, permitiendo:

conversaciones mas largas,
tareas agentes prolongadas,
mayor longitud efectiva de contexto.

5. Precio

Segun informacion oficial, Sonnet 4.6 tiene precio escalonado segun uso de contexto:

Tipo	≤200K tokens	>200K tokens
Input	$3/MTok	$6/MTok
Output	$15/MTok	$22.50/MTok
Cache Read	$0.30/MTok	$0.60/MTok
Cache Write	$3.75/MTok	$7.50/MTok

Contexto: 1M tokens (beta) Max Output: 128K tokens

Para uso normal (≤200K contexto), el precio es identico a Sonnet 4.5. Esto posiciona a Sonnet 4.6 como una opcion de costo-efectividad alta para la mayoria de casos de uso.

Benchmarks oficiales

Los benchmarks comparan Sonnet 4.6 contra Sonnet 4.5, Opus 4.6, Opus 4.5, Gemini 3 Pro y GPT-5.2. Los resultados muestran que Sonnet 4.6 lidera en tareas de oficina y analisis financiero, iguala a Opus 4.6 en uso de computadora, y supera a todos los modelos de la competencia en computer use.

Agentic terminal coding (Terminal-Bench 2.0)

Modelo	Score
Opus 4.6	65.4%
GPT-5.2	64.7%
Opus 4.5	59.8%
Sonnet 4.6	59.1%
Gemini 3 Pro	56.2%
Sonnet 4.5	51.0%

Sonnet 4.6 queda 6.3 puntos por debajo del lider (Opus 4.6), pero supera a Gemini 3 Pro y mejora 8.1 puntos sobre Sonnet 4.5. GPT-5.2 y Opus 4.5 estan muy cerca, lo que hace de este un benchmark competitivo entre los modelos top.

Agentic coding (SWE-bench Verified)

Modelo	Score
Opus 4.5	80.9%
Opus 4.6	80.8%
GPT-5.2	80.0%
Sonnet 4.6	79.6%
Gemini 3 Pro	78.0%
Sonnet 4.5	77.2%

El campo esta extremadamente comprimido: los seis modelos estan dentro de 3.7 puntos. Sonnet 4.6 queda solo 1.3 puntos por debajo del lider (Opus 4.5) y supera a Gemini 3 Pro y Sonnet 4.5. En la practica, la diferencia entre modelos en coding agentico es marginal.

Agentic computer use (OSWorld-Verified)

Modelo	Score
Opus 4.6	72.7%
Sonnet 4.6	72.5%
Opus 4.5	66.3%
Sonnet 4.5	61.4%
GPT-5.2	38.2%

Sonnet 4.6 es practicamente igual al lider Opus 4.6 (diferencia de 0.2 puntos), y supera a todos los demas modelos por un margen amplio. GPT-5.2 queda 34 puntos por detras, lo que convierte a Sonnet 4.6 en el modelo mas accesible con rendimiento de nivel Opus en uso de computadora. Gemini 3 Pro no tiene datos disponibles en este benchmark.

Agentic tool use (t2-bench)

Retail:

Modelo	Score
Opus 4.6	91.9%
Sonnet 4.6	91.7%
Opus 4.5	88.9%
Sonnet 4.5	86.2%
Gemini 3 Pro	85.3%
GPT-5.2	82.0%

Telecom:

Modelo	Score
Opus 4.6	99.3%
GPT-5.2	98.7%
Opus 4.5	98.2%
Gemini 3 Pro	98.0%
Sonnet 4.5	98.0%
Sonnet 4.6	97.9%

En Retail, Sonnet 4.6 queda a solo 0.2 puntos del lider (Opus 4.6) y supera a todos los modelos de la competencia. En Telecom, Sonnet 4.6 queda ultimo a 1.4 puntos del lider (Opus 4.6, 99.3%), pero todos los modelos estan agrupados dentro de ese mismo rango de 1.4 puntos, lo que hace la diferencia practicamente irrelevante en este nivel de saturacion.

Scaled tool use (MCP-Atlas)

Modelo	Score
Opus 4.5	62.3%
Sonnet 4.6	61.3%
GPT-5.2	60.6%
Opus 4.6	59.5%
Gemini 3 Pro	54.1%
Sonnet 4.5	43.8%

Sonnet 4.6 es el segundo modelo en este benchmark, a solo 1 punto del lider (Opus 4.5) y por encima de GPT-5.2 y Opus 4.6. El salto desde Sonnet 4.5 es de 17.5 puntos, el mayor salto generacional entre los modelos Claude en este benchmark.

Agentic search (BrowseComp)

Modelo	Score
Opus 4.6	84.0%
GPT-5.2	77.9%
Sonnet 4.6	74.7%
Opus 4.5	67.8%
Gemini 3 Pro	59.2%
Sonnet 4.5	43.9%

Sonnet 4.6 queda 9.3 puntos por debajo del lider (Opus 4.6) pero supera a Opus 4.5, Gemini 3 Pro y Sonnet 4.5. El salto desde Sonnet 4.5 es de 30.8 puntos, el mayor salto generacional en este benchmark. GPT-5.2 queda 3.2 puntos por encima de Sonnet 4.6.

Multidisciplinary reasoning (Humanity’s Last Exam - HLE)

Sin herramientas:

Modelo	Score
Opus 4.6	40.0%
Gemini 3 Pro	37.5%
GPT-5.2	36.6%
Sonnet 4.6	33.2%
Opus 4.5	30.8%
Sonnet 4.5	17.7%

Con herramientas:

Modelo	Score
Opus 4.6	53.0%
GPT-5.2	50.0%
Sonnet 4.6	49.0%
Gemini 3 Pro	45.8%
Opus 4.5	43.4%
Sonnet 4.5	33.6%

Sin herramientas, Sonnet 4.6 queda 6.8 puntos por debajo del lider (Opus 4.6) y detras de Gemini 3 Pro y GPT-5.2. Con herramientas, el panorama mejora: Sonnet 4.6 sube al tercer lugar, a solo 4 puntos de Opus 4.6 y por encima de Gemini 3 Pro y Opus 4.5. Las herramientas reducen la brecha con los modelos top.

Agentic financial analysis (Finance Agent v1.1)

Modelo	Score
Sonnet 4.6	63.3%
Opus 4.6	60.1%
GPT-5.2	59.0%
Opus 4.5	58.8%
Gemini 3 Pro	55.2%
Sonnet 4.5	54.5%

Sonnet 4.6 lidera este benchmark, superando a Opus 4.6 por 3.2 puntos y a GPT-5.2 por 4.3 puntos. Es el unico benchmark donde un modelo Sonnet supera a todos los demas modelos, incluyendo Opus 4.6 y los modelos de la competencia. Relevante para equipos que trabajan con analisis financiero automatizado.

Office tasks (GDPval-AA Elo)

Modelo	Elo
Sonnet 4.6	1633
Opus 4.6	1606
GPT-5.2	1462
Opus 4.5	1416
Sonnet 4.5	1276
Gemini 3 Pro	1201

Sonnet 4.6 lidera este benchmark con Elo 1633, superando a Opus 4.6 (1606), GPT-5.2 (1462) y todos los demas modelos. La ventaja sobre Gemini 3 Pro es de 432 puntos Elo, una diferencia sustancial. Este benchmark mide tareas de oficina economicamente valiosas del mundo real, lo que hace de este resultado uno de los mas relevantes para uso empresarial.

Novel problem-solving (ARC-AGI-2)

Modelo	Score
Opus 4.6	68.8%
Sonnet 4.6	58.3%
GPT-5.2	54.2%
Opus 4.5	37.6%
Gemini 3 Pro	31.1%
Sonnet 4.5	13.6%

Sonnet 4.6 es segundo, a 10.5 puntos del lider (Opus 4.6), pero supera a GPT-5.2 por 4.1 puntos y a todos los demas modelos por un margen amplio. El salto desde Sonnet 4.5 es de 44.7 puntos, el mayor salto generacional de todos los benchmarks. ARC-AGI-2 mide capacidad de razonamiento novedoso, lo que indica una mejora estructural en como Sonnet 4.6 aborda problemas que no ha visto antes.

Graduate-level reasoning (GPQA Diamond)

Modelo	Score
GPT-5.2	93.2%
Gemini 3 Pro	91.9%
Opus 4.6	91.3%
Sonnet 4.6	89.9%
Opus 4.5	87.0%
Sonnet 4.5	83.4%

Sonnet 4.6 queda en cuarto lugar, a 3.3 puntos del lider (GPT-5.2), pero supera a Opus 4.5 y Sonnet 4.5. GPT-5.2 y Gemini 3 Pro lideran este benchmark de razonamiento cientifico de nivel graduado. La diferencia entre los cuatro modelos del top es de solo 3.3 puntos, lo que indica un campo competitivo.

Visual reasoning (MMMU-Pro)

Sin herramientas:

Modelo	Score
Gemini 3 Pro	81.0%
GPT-5.2	79.5%
Sonnet 4.6	74.5%
Opus 4.6	73.9%
Opus 4.5	70.6%
Sonnet 4.5	63.4%

Con herramientas:

Modelo	Score
GPT-5.2	80.4%
Opus 4.6	77.3%
Sonnet 4.6	75.6%
Opus 4.5	73.9%
Sonnet 4.5	68.9%

Sin herramientas, Sonnet 4.6 es tercero y supera a Opus 4.6 (73.9%), lo que es notable. Gemini 3 Pro lidera con 81.0%. Con herramientas, Sonnet 4.6 se mantiene tercero, a 4.8 puntos de GPT-5.2, y supera a Opus 4.5 y Sonnet 4.5. Gemini 3 Pro no tiene datos disponibles en la modalidad con herramientas.

Multilingual Q&A (MMLU)

Modelo	Score
Gemini 3 Pro	91.8%
Opus 4.6	91.1%
Opus 4.5	90.8%
GPT-5.2	89.6%
Sonnet 4.5	89.5%
Sonnet 4.6	89.3%

Sonnet 4.6 queda ultimo en este benchmark, pero la diferencia con el lider (Gemini 3 Pro) es de solo 2.5 puntos y todos los modelos estan dentro de un rango de 2.5 puntos. En la practica, las diferencias en MMLU a este nivel de rendimiento son estadisticamente marginales.

Uso de computadora: donde brilla

El anuncio dedica una seccion sustancial a esta capacidad, lo cual es indicativo de su importancia estrategica.

Progreso en OSWorld

El benchmark OSWorld presenta cientos de tareas en software real (Chrome, LibreOffice, VS Code, etc.) ejecutandose en una computadora simulada. No hay APIs especiales o conectores; el modelo ve la computadora e interactua como lo haria una persona.

El dato mas relevante: Sonnet 4.6 (72.5%) casi iguala a Opus 4.6 (72.7%) en OSWorld-Verified. Esto significa que rendimiento de nivel Opus en uso de computadora ahora esta disponible a precio de Sonnet.

Comparativa:

Opus 4.6: 72.7%
Sonnet 4.6: 72.5%
Opus 4.5: 66.3%
Sonnet 4.5: 61.4%
GPT-5.2: 38.2%

Segun Anthropic, Sonnet 4.6 esta alcanzando “human-level capability” en tareas como navegacion de hojas de calculo complejas y formularios web multi-paso.

Implicancia practica

El punto clave es: casi toda organizacion tiene software que no puede automatizar facilmente. Son sistemas especializados construidos antes de que existieran APIs modernas.

Un modelo que puede usar una computadora como una persona cambia esta ecuacion:

No se requieren conectores personalizados,
La automatizacion es posible sin modificacion del software existente,
El ROI de automatizacion mejora sustancialmente.

Seguridad: prompt injection

El anuncio reconoce explicitamente el riesgo de prompt injection (instrucciones ocultas en sitios web que pueden “secuestrar” al modelo).

Segun evaluaciones de seguridad:

Sonnet 4.6 muestra una “mejora importante” comparado con Sonnet 4.5,
Rinde similar a Opus 4.6 en resistencia a prompt injections.

Esto es critico para uso en produccion: un modelo que usa computadoras debe ser resistente a este tipo de ataques.

Capacidades de razonamiento de contexto largo

Vending-Bench Arena

El anuncio destaca este benchmark porque prueba capacidad de razonamiento de largo plazo:

Simula operacion de un negocio a traves del tiempo,
Incluye competencia entre modelos de IA,
Mide capacidad de estrategia y ejecucion prolongada.

Resultado interesante: Sonnet 4.6 desarrollo una estrategia distintiva:

Inversion agresiva en capacidad durante los primeros diez meses simulados,
Pivot abrupto hacia rentabilidad en el tramo final,
El timing de este pivot le permitio terminar bien adelante de la competencia.

Esto indica que Sonnet 4.6 no solo recuerda contexto largo, sino que razona estrategica mente a traves de el.

Aplicaciones practicas

El contexto de 1M tokens habilita casos de uso como:

Analisis de codebases completas: entender dependencias y flujos completos,
Revision de contratos extensos: identificar clausulas criticas en documentos legales largos,
Sintesis de investigacion: correlacionar hallazgos across docenas de papers.

Mejoras en coding

El anuncio y el system card enfatizan mejoras en coding, pero con matices importantes.

Lo que mejoró

Segun feedback temprano de clientes:

Frontend code: salto cualitativo en outputs visuales,
- mejores layouts,
- mejores animaciones,
- mejor sensibilidad de diseno,
Financial analysis: mejora notable en analisis financiero,
Code consistency: menos duplicacion, mas consolidacion de logica,
Instruction following: mejor adherencia a especificaciones.

Lo que no cambié

El precio se mantiene igual a Sonnet 4.5: $3/$15 por millon de tokens.

Esto es estrategicamente importante: Anthropic esta mejorando el modelo Sonnet sin aumentar el precio, lo cual sugiere una estrategia de share de mercado agresiva.

Safety y alineacion

El system card (que analice en su totalidad) contiene evaluaciones extensivas de seguridad. Puntos clave del resumen del anuncio:

Evaluaciones de seguridad

“Extensive safety evaluations” fueron ejecutadas,
Resultado: “as safe as, or safer than” otros modelos Claude recientes,
Investigadores de seguridad concluyeron que Sonnet 4.6 tiene:
- “a broadly warm, honest, prosocial, and at times funny character”,
- “very strong safety behaviors”,
- “no signs of major concerns around high-stakes forms of misalignment”.

Responsible Scaling Policy

El system card indica que Sonnet 4.6 es deployado bajo AI Safety Level 3 (ASL-3) Standard, similar a Sonnet 4.5.

Esto indica que las evaluaciones de seguridad no revelaron nuevos riesgos que justifiquen un nivel de seguridad mas alto.

Comparacion con otros modelos

vs Sonnet 4.5

Mejor en: practicamente todas las dimensiones (coding, uso de computadora, razonamiento),
Saltos mas grandes:
- ARC-AGI-2: 13.6% → 58.3% (problema-solving novedoso),
- MCP-Atlas: 43.8% → 61.3% (tool use escalado),
- BrowseComp: 43.9% → 74.7% (busqueda agentic),
Igual en: precio base ($3/$15 por MTok hasta 200K contexto),
Veredicto: upgrade claro sin costo adicional.

vs Opus 4.6

Donde Sonnet 4.6 iguala o supera a Opus 4.6:

OSWorld-Verified: 72.5% vs 72.7% (practicamente igual),
GDPval-AA: Elo 1633 vs 1606 (Sonnet gana),
Finance Agent v1.1: 63.3% vs 60.1% (Sonnet gana),
t2-bench Retail: 91.7% vs 91.9% (practicamente igual),

Donde Opus 4.6 sigue siendo superior:

ARC-AGI-2: 68.8% vs 58.3%,
Terminal-Bench 2.0: 65.4% vs 59.1%,
HLE (sin tools): 40.0% vs 33.2%,

Precio: Sonnet 4.6 es mas economico ($3/$15 vs $5/$25 para uso normal), Veredicto: para muchos casos practicos, Sonnet 4.6 ofrece mejor costo-beneficio.

vs competencia (GPT-5.2, Gemini 3 Pro)

Los benchmarks muestran que Sonnet 4.6 es competitivo:

OSWorld: Supera a GPT-5.2 por amplio margen (72.5% vs 38.2%),
GDPval-AA: Supera a GPT-5.2 (1633 vs 1462 Elo),
Finance Agent: Supera a GPT-5.2 (63.3% vs 59.0%),
GPQA Diamond: Competitivo con GPT-5.2 (89.9% vs 93.2%),
MMLU: Ligeramente por debajo de Gemini 3 Pro (89.3% vs 91.8%),

Casos de uso ideales

Basado en el anuncio y el system card, Sonnet 4.6 brilla en:

1. Desarrollo de software

Refactor de codebases medianas,
Debugging multi-archivo,
Generacion de codigo frontend con restricciones de diseno,
Analisis de codigo existente.

2. Automatizacion de tareas de computadora

Llenado de formularios web complejos,
Navegacion de hojas de calculo,
Coordinacion de tareas across multiples aplicaciones,
Procesamiento de documentos empresariales.

3. Analisis de documentos

Contratos legales extensos,
Reportes financieros,
Documentacion tecnica,
Papers de investigacion.

4. Workflows agentes

Tareas multi-paso que requieren planificacion,
Coordinacion de herramientas multiples,
Sesiones de trabajo prolongadas.

Limitaciones

El anuncio es honesto sobre limitaciones:

Uso de computadora “still lags behind the most skilled humans”,
No reemplaza juicio humano en decisiones criticas,
Evaluaciones de seguridad muestran areas de mejora (todas las modelos tienen),

Mi vision por stack

Frontend

Donde lo sentirias mas:

mejor adherencia a restricciones de diseno,
outputs visuales mas pulidos,
mejor consistencia entre componentes,
menos iteraciones para alcanzar calidad de produccion.

Limites:

para UI muy visual/de hindsight, sigue dependiendo de prompting y referencias,
en tareas triviales, el razonamiento extendido puede sobredimensionar tiempo/costo.

Mi conclusion: para producto real, Sonnet 4.6 es claramente superior a 4.5 en frontend.

Backend

Fortalezas:

mejor planificacion de cambios multi-archivo,
mejor continuidad en debugging largo,
mejor rendimiento con herramientas (MCP, APIs),
menos duplicacion de logica, mas consolidacion.

Riesgos:

sigue existiendo sobreconfianza si el contexto esta incompleto,
en tareas simples, puede sobrepensar.

Mi conclusion: para backend complejo, Sonnet 4.6 es una excelente opcion de costo-beneficio.

Base de datos y observabilidad

Donde brilla:

correlacion de senales (logs, trazas, metricas),
generacion de SQL con esquema correcto,
capacidad de RCA en escenarios multi-senal.

Donde hay que tener disciplina:

sin esquema y contexto, puede inventar supuestos,
migraciones siempre requieren validacion humana.

Mi regla: copiloto excelente, autoridad final no.

Precio y ROI

Precio oficial (tiered)

Modelo	Input ≤200K	Input >200K	Output ≤200K	Output >200K
Sonnet 4.6	$3	$6	$15	$22.50
Sonnet 4.5	$3	-	$15	-
Opus 4.6	$5	-	$25	-
Haiku 4.5	$1	-	$5	-

Cache pricing (Sonnet 4.6):

Cache Read: $0.30/MTok (≤200K), $0.60/MTok (>200K)
Cache Write: $3.75/MTok (≤200K), $7.50/MTok (>200K)

Calculo de ROI

Considerando:

Sonnet 4.6 iguala o supera a Opus 4.6 en varios benchmarks clave (OSWorld, GDPval-AA, Finance Agent),
Precio base es 40% menor (input) y 40% menor (output) que Opus,
Para workflows que no requieren el maximo de razonamiento profundo,

El ROI de Sonnet 4.6 vs Opus 4.6 es potencialmente muy alto.

Migracion de Sonnet 4.5

Dado que el precio base es identico:

No hay riesgo de aumento de costo por token (hasta 200K contexto),
Mejoras en rendimiento son “gratis”,
Saltos masivos en ARC-AGI-2, MCP-Atlas y BrowseComp justifican el upgrade,
Unica consideracion: consumo de tokens puede cambiar (extend thinking usa mas tokens).

Disponibilidad

Segun el anuncio, Sonnet 4.6 esta disponible:

Todos los planes Claude: Free, Pro, Max, Team, Enterprise,
Claude Cowork,
Claude Code,
API: model ID claude-sonnet-4-6,
Plataformas cloud: AWS Bedrock, Google Vertex AI,

Adicionalmente:

Free tier upgradeado: ahora incluye Sonnet 4.6 por defecto,
- creacion de archivos,
- conectores,
- skills,
- compaction.

Esto es significativo: Anthropic esta llevando capacidades de nivel fronterizo al tier gratuito, lo cual presiona fuertemente a la competencia.

Veredicto final

Claude Sonnet 4.6 es el modelo Sonnet mas capaz lanzado por Anthropic, y representa una mejora sustancial sobre Sonnet 4.5 en practicamente todas las dimensiones.

Puntos clave:

Rendimiento de nivel Opus en varios benchmarks: OSWorld (72.5% vs 72.7%), GDPval-AA (1633 vs 1606), Finance Agent (63.3% vs 60.1%).
Mejoras masivas vs Sonnet 4.5: ARC-AGI-2 (+44.7%), MCP-Atlas (+17.5%), BrowseComp (+30.8%).
Contexto de 1M tokens que razona: no es solo memoria; es capacidad de sintesis y planificacion.
Precio base inalterado: $3/$15 por MTok hasta 200K contexto, mismo que Sonnet 4.5.
Feedback positivo de desarrolladores: 70% de preferencia sobre 4.5 en Claude Code.

Para quien esta considerando migrar de Sonnet 4.5:

Si estas en coding, analisis de documentos, o automatizacion de tareas, el upgrade es claro y sin costo adicional.
Los saltos en ARC-AGI-2, MCP-Atlas y BrowseComp son particularmente relevantes para workflows agentes.

Para quien esta considerando Sonnet 4.6 vs Opus 4.6:

Si necesitas maximo razonamiento profundo (ARC-AGI-2, HLE), Opus 4.6 sigue siendo la mejor opcion.
Si buscas mejor costo-beneficio para workflows practicos, Sonnet 4.6 iguala o supera a Opus en varios benchmarks clave.