Anthropic lanzó Claude Opus 4.7 el jueves, su modelo de IA más capaz disponible en general hasta la fecha, con mejoras medibles en codificación, visión y trabajo agéntico de varios pasos. El lanzamiento conlleva una admisión inusual: el modelo más fuerte de la compañía, Mythos Preview, permanece detrás de un programa de acceso restringido al que la mayoría de los desarrolladores y empresas no pueden unirse.
Qué incluye el lanzamiento de Claude Opus 4.7
Introducing Claude Opus 4.7, our most capable Opus model yet.
It handles long-running tasks with more rigor, follows instructions more precisely, and verifies its own outputs before reporting back.
You can hand off your hardest work with less supervision. pic.twitter.com/PtlRdpQcG5
— Claude (@claudeai) April 16, 2026
El nuevo modelo está disponible a través de la API de Claude, Amazon Bedrock, Vertex AI de Google Cloud y Microsoft Foundry. Según Anthropic, en un benchmark de codificación de 93 tareas, Claude Opus 4.7 mejoró la resolución en un 13% respecto a Opus 4.6, cubriendo cuatro tareas que ni Opus 4.6 ni Sonnet 4.6 pudieron resolver. Rakuten informó que en su SWE-Bench interno, el nuevo modelo resuelve 3 veces más tareas de producción que Opus 4.6, con mejoras de doble dígito en Calidad de Código y Calidad de Pruebas.
El modelo viene con un nuevo nivel de esfuerzo xhigh, posicionado entre los ajustes existentes de alto y máximo, dando a los desarrolladores un control más fino sobre el equilibrio entre profundidad de razonamiento y latencia de respuesta en problemas difíciles. El soporte de resolución de imagen se ha expandido sustancialmente: Opus 4.7 ahora maneja imágenes de hasta 3,75 megapíxeles y 2.576 píxeles en el borde largo — aproximadamente tres veces el límite de su predecesor. Un tokenizador actualizado aumenta el uso de tokens en 1,0–1,35 veces, lo que los desarrolladores deben tener en cuenta en la planificación de costos; Anthropic ha publicado una guía de migración para ayudar a los equipos a migrar desde Opus 4.6.
Los presupuestos de tareas — una herramienta de desarrollador para guiar el gasto de tokens de Claude — entraron en beta pública junto con este lanzamiento. Anthropic dice que Opus 4.7 tiene la línea de base de eficiencia más fuerte que ha observado para el trabajo de varios pasos en su benchmark interno de agente de investigación, obteniendo una puntuación de 0,715 en general.
Beneficios concretos y limitaciones documentadas
Los primeros en adoptar en todos los sectores informan una mejora constante en tareas complejas y de larga duración. CursorBench puntuó a Opus 4.7 con un 70%, frente al 58% de Opus 4.6, describiéndolo como “un modelo de codificación muy impresionante, particularmente por su autonomía y razonamiento más creativo”. En el benchmark de agudeza visual de Xbow, el modelo obtuvo una puntuación del 98,5% frente al 54,5% de Opus 4.6 — un casi duplicar que Solve Intelligence vinculó a “mejoras importantes en la comprensión multimodal, desde la lectura de estructuras químicas hasta la interpretación de diagramas técnicos complejos”.
En los sectores financiero y legal, Harvey informó una precisión del 90,9% en BigLaw Bench con alto esfuerzo, con una mejor calibración de razonamiento en tablas de revisión y un manejo notablemente más inteligente de tareas de edición de documentos ambiguos. Databricks encontró un 21% menos de errores en su benchmark OfficeQA Pro cuando Opus 4.7 trabajó con documentos fuente, en comparación con su predecesor. El módulo de Finanzas Generales en el benchmark interno de Anthropic mejoró de 0,767 bajo Opus 4.6 a 0,813 bajo Opus 4.7.
Las plataformas agénticas notaron mejoras de eficiencia sin el impuesto de regresión típico. Notion Agent describió una mejora del 14% en flujos de trabajo complejos de varios pasos lograda con menos tokens y un tercio de los errores de herramientas. Genspark atribuyó al modelo el destacar en resistencia a bucles, consistencia y recuperación de errores elegante — tres atributos que a menudo se degradan a medida que las cadenas de agentes crecen más largas. Factory Droids informó una mejora de entre el 10% y el 15% en las tasas de éxito de tareas en sus flujos de trabajo de droides.
Anthropic ofreció una demostración interna notable: Opus 4.7 construyó de forma autónoma un motor de texto a voz completo en Rust desde cero — modelo neuronal, kernels SIMD y una demostración en navegador — y luego pasó su propia salida a través de un reconocedor de voz para verificar que coincidía con una implementación de referencia en Python. Qodo añadió que el modelo pasó tres tareas TBench que los modelos anteriores de Claude no pudieron completar, y corrigió una condición de carrera que había eludido al mejor modelo anterior.
Las limitaciones están documentadas en la tarjeta del sistema Claude Opus 4.7. Anthropic reconoce que Opus 4.7 es modestamente más débil que Opus 4.6 en ciertas medidas de seguridad — mostrando específicamente una mayor tendencia a ofrecer consejos de reducción de daños demasiado detallados sobre sustancias controladas. Anthropic también afirma claramente que Mythos Preview sigue siendo el modelo mejor alineado que la compañía ha entrenado. El aumento de uso de tokens del 1,0–1,35 veces del tokenizador tiene implicaciones de costo directas para los consumidores de API de alto volumen, una realidad operativa que la guía de migración aborda directamente.
Competencia, desigualdad de acceso y el límite de Mythos
El lanzamiento posiciona a Opus 4.7 frente a GPT-5.4 de OpenAI y Gemini 3.1 Pro de Google. Según The Next Web, Opus 4.7 lidera en SWE-bench Pro con una puntuación del 64,3% frente al 57,7% de GPT-5.4. Gemini 3.1 Pro tiene un precio más bajo por token, lo que importará a los equipos sensibles al costo incluso cuando los números de benchmark favorecen la oferta de Anthropic.
El contexto más estructuralmente significativo es la estrategia de modelo de dos niveles de Anthropic. Como informó The Verge, Anthropic reconoció en la tarjeta del sistema de Opus 4.7 que el modelo no avanza la frontera de capacidad de la compañía, ya que Mythos Preview obtuvo una puntuación más alta en todas las evaluaciones relevantes. Mythos Preview sigue estando restringido a organizaciones selectas — incluyendo, según 9to5Mac, proveedores clave de plataformas de software como Apple — mientras que el mercado de desarrolladores más amplio utiliza Opus 4.7.
Anthropic enmarca la división como impulsada por la seguridad. La compañía declaró que pretende mantener limitada la implementación de Mythos Preview y utilizar Opus 4.7 como banco de pruebas para nuevas salvaguardias de ciberseguridad antes de una implementación más amplia. Los profesionales de la seguridad que buscan acceso temprano para trabajos legítimos ofensivos y defensivos pueden solicitarlo a través del Programa de Verificación Cibernética; el Proyecto Glasswing de Anthropic describe su marco público para sopesar los riesgos y beneficios de la IA en ciberseguridad. Los evaluadores independientes pueden comparar el rendimiento del modelo en trabajos de conocimiento económicamente valiosos a través de la herramienta de terceros GDPval-AA.
Anthropic también ha establecido un ritmo aproximadamente bimensual para las actualizaciones de Opus, según 9to5Mac — un ritmo que señala confianza en la tubería pero también acelera la pregunta de qué tan rápido se queda atrás el nivel de modelo accesible públicamente.
Qué sigue y qué sigue sin resolverse
Las aprobaciones de socios son amplias y consistentes en todos los sectores. Replit llamó a la actualización una decisión fácil. Warp la describió como un paso significativo hacia adelante. Vercel informó una actualización sólida sin regresiones. Bolt confirmó ganancias de hasta el 10% en trabajos de construcción de aplicaciones de mayor duración sin las regresiones típicamente asociadas con modelos altamente agénticos. Hebbia informó un salto de doble dígito en la precisión de las llamadas a herramientas y la planificación en sus agentes orquestadores principales.
Quantium llamó a Opus 4.7 “el mejor modelo del mundo para construir paneles e interfaces ricas en datos” y “el modelo más capaz que hemos probado”. Una plataforma de tecnología financiera en pruebas tempranas dijo que vio “el potencial para un salto significativo” para sus desarrolladores. Qodo dijo que el modelo “se siente como un paso real hacia adelante en inteligencia”. Ramp señaló que Opus 4.7 se destaca específicamente en flujos de trabajo de equipo de agentes, donde la coordinación entre múltiples instancias de modelo es más importante.
Las preguntas abiertas son estructurales. ¿Cuánto tiempo mantendrá Anthropic una brecha de rendimiento significativa entre Opus 4.7 y Mythos Preview, y en qué punto se convierte esa brecha en una desventaja competitiva para las empresas que no pueden calificar para el acceso restringido? El cambio de tokenizador aumenta silenciosamente el costo total de propiedad para implementaciones de alto volumen, incluso cuando la eficiencia por tarea mejora. Y como dice Anthropic, Opus 4.7 “extiende el límite de lo que los modelos pueden hacer para investigar y realizar tareas” — lo que todavía implica un límite, y ese límite está por debajo de lo que las propias evaluaciones internas de la compañía pueden lograr.
Preguntas frecuentes – FAQ
¿Cómo afectará el nuevo nivel de esfuerzo xhigh en Claude Opus 4.7 a mis costos de API?
Se espera que el nivel de esfuerzo xhigh aumente los costos en alrededor del 15-20% en comparación con el nivel de esfuerzo alto, pero esto puede variar dependiendo del caso de uso específico y la complejidad de la tarea. Para mitigar esto, los desarrolladores pueden ajustar sus presupuestos de tareas y ajustar sus modelos para optimizar la relación costo-rendimiento. Anthropic proporciona orientación sobre la planificación de costos en su guía de migración.
¿Puedo ajustar Claude Opus 4.7 para mi industria o tarea específica?
Sí, Anthropic permite a los desarrolladores ajustar Claude Opus 4.7 para tareas e industrias específicas a través de su API. Esto puede ser particularmente útil para dominios como finanzas y derecho, donde el conocimiento y la terminología especializados son cruciales. El ajuste puede ayudar a mejorar la precisión y relevancia del modelo para casos de uso específicos.
¿Cómo se compara Claude Opus 4.7 con otros modelos de IA de última generación en términos de comprensión multimodal?
Claude Opus 4.7 demuestra mejoras significativas en la comprensión multimodal, rivalizando con otros modelos destacados como GPT-4 y Gemini. Su capacidad para interpretar diagramas técnicos complejos y estructuras químicas ha sido particularmente elogiada por los primeros en adoptarlo. Sin embargo, todavía se necesita una comparación exhaustiva con otros modelos para evaluar completamente sus fortalezas y debilidades relativas.
Last Updated on abril 16, 2026 7:28 pm by Laszlo Szabo / NowadAIs | Published on abril 16, 2026 by Laszlo Szabo / NowadAIs

