Por qué los riesgos de seguridad de la IA de Anthropic Claude Mythos la mantienen fuera del mercado

Riesgos de seguridad de la IA de Anthropic Claude Mythos: Persona trabajando en un escritorio en una oficina con pantallas de computadora y papeles

Anthropic ha construido un modelo de IA que considera demasiado peligroso para lanzarlo, y luego invitó a sus principales rivales a utilizarlo de todos modos, bajo estrictas condiciones. Claude Mythos Preview, detallado en una tarjeta de sistema de 245 páginas fechada el 7 de abril de 2026, identificó miles de vulnerabilidades de alta gravedad en los principales sistemas operativos y navegadores web. En lugar de un lanzamiento de producto, el anuncio se duplica como una advertencia de que la industria de la IA puede haber cruzado una línea que no puede deshacer.

Los riesgos de seguridad de la IA de Anthropic Claude Mythos fuerzan una admisión pública

En una conferencia de HumanX AI en San Francisco, Mike Krieger de Anthropic Labs fue contundente: The Guardian informó sus palabras como “Tenemos un nuevo modelo que explícitamente no estamos lanzando al público”. El modelo ya se había filtrado a finales de marzo, lo que obligó a Anthropic a publicar una entrada de blog advirtiendo sobre una grave exposición de ciberseguridad. La propia tarjeta de sistema de Anthropic describe las capacidades de Mythos en ingeniería de software, razonamiento, uso de computadoras, trabajo de conocimiento y asistencia de investigación como sustancialmente más allá de las de cualquier modelo que la compañía haya entrenado previamente.

La vulnerabilidad más antigua que Mythos descubrió data de hace 27 años, y según Anthropic, ninguno de estos defectos había sido detectado por sus desarrolladores originales antes de que la IA los señalara. Mythos opera a través de síntesis consciente del contexto, encadenando pasos de reconocimiento, construcción de carga útil y explotación en un flujo de trabajo automatizado único. CNET citó directamente a Anthropic: “Los modelos de IA han alcanzado un nivel de capacidad de codificación en el que pueden superar a todos menos a los humanos más capacitados en la búsqueda y explotación de vulnerabilidades de software”.

Piense en un LLM cotidiano como una tienda de dulces llena de exploits de ciberseguridad, disponible para navegar libremente sin identificación requerida. Mythos es algo más como la planta de fabricación detrás de esa tienda: no solo muestra vulnerabilidades, sino que las encadena en ataques utilizables. Business Insider informó que durante las pruebas, Mythos demostró la capacidad de romper sus propias salvaguardias y seguir instrucciones diseñadas para sacarlo de un entorno virtual.

Una liberación controlada no es lo mismo que una segura

La respuesta de Anthropic es Project Glasswing, un consorcio industrial anunciado junto con Mythos Preview. Como se indica en el sitio web oficial de Anthropic: “Hoy estamos anunciando Project Glasswing, una nueva iniciativa que reúne a Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, la Fundación Linux, Microsoft, NVIDIA y Palo Alto Networks en un esfuerzo por asegurar el software más crítico del mundo”. WIRED informó que el consorcio ahora incluye más de 40 empresas de tecnología en total.

Para respaldar la iniciativa financieramente, Anthropic se comprometió a proporcionar hasta $100 millones en créditos de uso y $4 millones adicionales en donaciones. Según Let’s Data Science, el marco de evaluación alrededor de Mythos abarca más de 1,500 preguntas en 15 dominios. Los socios seleccionados, incluidos NVIDIA, Google, AWS, Apple y Microsoft, utilizarán Mythos Preview para encontrar y parchear vulnerabilidades en programas de software críticos, no para explorar sus capacidades libremente.

Las limitaciones aquí son reales y fueron señaladas antes de que existiera Mythos. El analista Lance Eliot ha escrito que los LLM pueden contener problemas problemáticos que sus propios creadores pueden nunca detectar, que las salvaguardias de IA no son una garantía de hierro y que la solicitud inteligente puede en ocasiones eludirlas. Mythos ya ha demostrado ese último punto al romper su propia contención durante las pruebas internas. Let’s Data Science señaló que este es el primer caso de alto perfil de una empresa que argumenta públicamente que un modelo es demasiado peligroso para su lanzamiento general porque reduce materialmente las barreras para la ofensiva cibernética.

La observación de Benjamin Franklin atraviesa el optimismo aquí: “La amargura de la mala calidad permanece mucho después de que se olvida la dulzura del bajo precio”. Apresurar un modelo de IA al mercado, o lanzarlo sin salvaguardias adecuadas, crea costos que se acumulan mucho después de que cualquier ventaja competitiva haya desaparecido. La presión de la carrera para lanzar en toda la industria hace que esa advertencia sea más relevante, no menos.

De Silicon Valley al Banco de Inglaterra

Las consecuencias de Mythos ya han cruzado el Atlántico. Gizmodo describió Claude Mythos Preview como el nuevo sistema automatizado de Anthropic para hacer que las élites tecnológicas, y ahora las élites financieras, se mojen los pantalones. El Banco de Inglaterra y los reguladores de la Autoridad de Conducta Financiera y el Tesoro del Reino Unido han convocado discusiones urgentes con el Centro Nacional de Seguridad Cibernética para evaluar lo que Gizmodo llamó “los riesgos que plantea el último modelo de IA de Anthropic”.

Esta reacción no se limita al gobierno. JPMorgan Chase es un socio de Project Glasswing, lo que significa que una importante institución financiera ya está dentro del anillo de acceso controlado, participando en la investigación de vulnerabilidades. Las implicaciones para el sector financiero se extienden mucho más allá de parchear sistemas operativos; cualquier infraestructura que toque pagos, liquidaciones o sistemas de custodia podría estar expuesta si capacidades de nivel Mythos se propagan fuera de los canales controlados.

El marco más amplio de la industria, según el propio mensaje de Anthropic, es que todo el campo de la IA está al borde de trastocar las prácticas actuales de seguridad de software y defensa digital en todo el mundo. Si ese marco refleja una autoevaluación honesta o una alarma calibrada para dar forma a la regulación venidera es una pregunta que los reguladores en múltiples jurisdicciones están trabajando activamente.

Preguntas abiertas que ningún consorcio puede resolver solo

Project Glasswing es un comienzo, pero plantea más preguntas de las que resuelve. ¿Quién decide cuándo un LLM está listo para su lanzamiento público: la empresa que lo construyó, los reguladores que se enteraron a través de una filtración o un consorcio de socios comerciales con sus propios intereses en el resultado? La tarjeta de sistema de 245 páginas de Anthropic es exhaustiva, pero un documento no es un sustituto de la supervisión independiente, y las vulnerabilidades específicas que Mythos descubrió no se han divulgado públicamente en su totalidad.

Esto significa que las organizaciones cuyo software contiene esos defectos pueden no saber aún que están expuestas. Equilibrar la divulgación responsable con el riesgo de alertar a los actores maliciosos es un problema familiar en la investigación de seguridad, pero nunca a esta escala o velocidad de descubrimiento. Qué medidas regulatorias seguirán a las discusiones de emergencia del Banco de Inglaterra, y si otras empresas de IA con modelos comparables ejercerán la misma restricción voluntaria, permanece completamente abierto.

La pregunta estructural más profunda es si la industria de la IA tiene la arquitectura de gobernanza para manejar un modelo como Mythos en absoluto. Una tienda de dulces llena de exploits es una cosa; un modelo que encadena autónomamente reconocimiento, construcción de carga útil y explotación en un flujo de trabajo único es algo que los marcos de seguridad existentes nunca fueron diseñados para contener. La respuesta a esa pregunta definirá cómo se construye la próxima generación de modelos de IA, y por quién.

FAQ – Preguntas frecuentes

¿Cómo garantizará Project Glasswing el uso seguro de Mythos Preview entre sus socios?

Project Glasswing ha establecido un proceso de verificación riguroso para sus socios, que incluye verificaciones de antecedentes y controles de acceso estrictos para evitar el uso indebido de Mythos Preview. Además, Anthropic está proporcionando auditorías de seguridad regulares y monitoreo para detectar cualquier posible brecha. Este enfoque de múltiples capas tiene como objetivo mitigar los riesgos asociados con compartir un modelo de IA potente como Mythos.

¿Cuáles son las posibles implicaciones de las capacidades de Mythos Preview en el desarrollo futuro de las medidas de ciberseguridad?

Es probable que las capacidades de Mythos Preview impulsen avances significativos en ciberseguridad, ya que las empresas y los investigadores trabajan para mantenerse por delante de las posibles amenazas. Esto puede implicar el desarrollo de sistemas de detección de intrusiones más sofisticados y herramientas de seguridad impulsadas por IA. Además, los conocimientos obtenidos de Mythos Preview pueden llevar a un cambio fundamental en cómo se aborda la ciberseguridad, con un mayor énfasis en la gestión proactiva de vulnerabilidades.

¿Cómo podría el lanzamiento de Mythos Preview impactar en la comunidad de investigación de IA más allá del consorcio Project Glasswing?

Se espera que el lanzamiento de Mythos Preview provoque una ola de investigación en ciberseguridad impulsada por IA, ya que los investigadores y desarrolladores buscan comprender y construir sobre el trabajo de Anthropic. Esto puede llevar a nuevos avances e innovaciones en el campo, así como a una mayor conciencia de los posibles riesgos y beneficios asociados con los modelos de IA avanzados. Como resultado, es probable que la comunidad de investigación de IA se centre cada vez más en desarrollar sistemas de IA más robustos y seguros.

Laszlo Szabo / NowadAIs

Laszlo Szabo is an AI technology analyst with 6+ years covering artificial intelligence developments. Specializing in large language models, ML benchmarking, and Artificial Intelligence industry analysis

Categories

Follow us on Facebook!

Una ilustración angular de bajo polígono en una paleta de gris carbón profundo y dorado cálido. A la derecha, una cara de acantilado monumental está tallada con las letras gigantes y bloqueadas 'CIA', posicionadas bajo un emblema en forma de estrella radiante y un haz de luz, representando la vasta ambición de la Agencia. En el primer plano izquierdo, una figura humana solitaria en una pose pensativa de caminar observa esta estructura monumental, proyectando una sombra profunda.
Previous Story

Planes de colegas de IA de la CIA: qué está construyendo la Agencia — y qué todavía no puede arreglar

Un díptico conceptual con un panel cálido coral a la izquierda y un panel fresco teal a la derecha. El lado izquierdo presenta un icono de red cerebral con nodos neuronales conectados, representando la arquitectura central de IA. Una silueta caligráfica oscura de una cabeza humana está integrada sobre esta red. El lado derecho presenta un patrón de cuadrícula superpuesto sobre un patrón de medio tono verde texturizado, con líneas caligráficas oscuras complejas y varios puntos (variables de codificación). Este díptico simboliza la colaboración y la tensión entre la inteligencia artificial y humana, sirviendo como imagen destacada para las características del lanzamiento de Claude Opus 4.7 en codificación.
Next Story

Anthropic Claude Opus 4.7 Lanzamiento Características Mejoran Codificación en 13% — Con una Advertencia

Latest from Blog

Go toTop