Claude Mythos y Project Glasswing: cuando la IA aprende a atacar antes de defender

El 7 de abril de 2026, Anthropic anunció un modelo que no se parece a ninguno de sus predecesores. Claude Mythos Preview no es una actualización de Claude 4.6 Opus en el sentido habitual del término: es un sistema que ha demostrado, en pruebas internas, ser capaz de identificar vulnerabilidades de seguridad que permanecieron ocultas durante décadas, lo que replantea de forma inmediata el equilibrio entre atacantes y defensores en la seguridad informática global. La empresa ha decidido no lanzarlo al público, no por falta de preparación técnica, sino precisamente porque la magnitud de lo que ese sistema es capaz de hacer en manos equivocadas justifica, según Anthropic, una estrategia de acceso controlado que la compañía ha denominado Project Glasswing.

Un modelo que aprende de sus propios errores

Lo que distingue a Mythos de los modelos anteriores no es solo la velocidad ni la escala, sino la arquitectura sobre la que está construido. El sistema integra un mecanismo de autocorrección recursiva que le permite identificar fallos en su propio razonamiento y ajustarlo sin intervención humana, situándolo en una nueva categoría interna de Anthropic —denominada “Capybara”— que supera el nivel Opus en autonomía y capacidad de razonamiento sostenido a lo largo de miles de pasos lógicos.

En la práctica, eso se traduce en capacidades que hasta ahora se consideraban territorio exclusivo de equipos especializados: gestión autónoma de bases de código de millones de líneas, análisis de vulnerabilidades de bajo nivel en lenguajes como C o C++, y una aptitud para el hacking ofensivo que, según los resultados de las pruebas internas, supera con claridad el rendimiento de expertos humanos en tareas equivalentes.

Durante esas pruebas, el modelo localizó una vulnerabilidad de 27 años de antigüedad en OpenBSD, uno de los sistemas operativos con mayor reputación de seguridad del mundo, y desarrolló un exploit para navegadores web que encadenaba cuatro vulnerabilidades distintas para escapar de las capas de aislamiento del renderizador y del sistema operativo. También obtuvo privilegios de administrador en sistemas Linux explotando condiciones de carrera tan sutiles que habían pasado inadvertidas durante décadas.

Si una IA puede identificar en horas lo que a los equipos de seguridad humanos les llevó décadas no detectar, el marco conceptual con el que la industria ha operado hasta ahora necesita una revisión profunda.

En los benchmarks de CyberGym, Claude 4.6 Opus detectaba vulnerabilidades con una tasa de éxito del 66,6%. Mythos alcanza el 83,1%, una diferencia que no es solo estadística, sino el umbral a partir del cual la automatización del hacking ofensivo deja de ser una hipótesis de laboratorio para convertirse en una capacidad operativa real.

Project Glasswing, o cómo comprar tiempo

La respuesta de Anthropic ha sido restringir el acceso al modelo a través de Project Glasswing, una iniciativa que limita el uso de Mythos Preview a un ecosistema cerrado de socios verificados —AWS, Google Cloud, Microsoft, NVIDIA, CrowdStrike, Palo Alto Networks y The Linux Foundation, entre otros— con el objetivo explícito de utilizar las capacidades del modelo para asegurar infraestructuras antes de que herramientas equivalentes lleguen a manos de actores con intenciones ofensivas.

La empresa ha destinado 100 millones de dólares en créditos de uso y cuatro millones en donaciones para proyectos de código abierto, apostando a que ese margen de tiempo y recursos permita a los desarrolladores parchear sus sistemas antes de que modelos similares sean accesibles al público general o desarrollados, sin ningún tipo de restricción ética, por actores estatales con otros incentivos.

Las consecuencias prácticas para las empresas

El anuncio de Mythos no es solo una noticia de tecnología punta, sino que tiene implicaciones inmediatas para cualquier organización que opere infraestructura digital. La primera y más urgente es que los mecanismos de autenticación basados en contraseñas han quedado estructuralmente obsoletos: si un agente de IA puede generar ataques de ingeniería social y phishing prácticamente indistinguibles de la comunicación humana legítima, el punto de fallo deja de ser la contraseña y pasa a ser la incapacidad del receptor de verificar con certeza quién está al otro lado. Las organizaciones que no hayan migrado a sistemas de autenticación sin contraseña y verificación de identidad bidireccional deberían considerarlo una prioridad inmediata.

La segunda implicación tiene que ver con el código generado por IA, incluyendo el producido por herramientas ya ampliamente adoptadas como Claude Code o GitHub Copilot, que requiere ahora una capa de auditoría de seguridad automatizada que no puede delegarse en la confianza de que el modelo actuará correctamente: un sistema puede introducir vulnerabilidades sutiles de forma involuntaria, y la llegada de modelos con capacidades ofensivas como Mythos significa que esas vulnerabilidades serán encontradas con una eficiencia que antes no existía.

La tercera consecuencia es estructural y afecta al modelo de confianza sobre el que operan la mayoría de las infraestructuras corporativas. La capacidad de Mythos para escalar privilegios lateralmente dentro de un sistema obliga a aplicar el modelo de Confianza Cero no solo a los usuarios humanos, sino a todas las identidades no humanas que operan en la infraestructura —bots, agentes, automatizaciones, integraciones de terceros— tratando cada una de ellas como potencialmente comprometida independientemente de su origen.

El dilema que Anthropic no puede resolver solo

La decisión de restringir el acceso a Mythos ha generado críticas legítimas dentro de la comunidad investigadora, donde hay voces que argumentan que la estrategia de “comprar tiempo” es una ilusión si otros competidores desarrollan modelos equivalentes sin ningún tipo de restricción, lo que simplemente desplazaría el riesgo sin eliminarlo. La estrategia de Glasswing asume que Anthropic tiene una ventaja suficiente para que ese tiempo valga algo, y eso no es una certeza sino una apuesta.

La empresa defiende que lanzar el modelo sin restricciones y confiar en que el ecosistema se adapte sería una irresponsabilidad de mayor calado, una postura incómoda pero coherente con la identidad que Anthropic ha construido en torno a la tensión entre la ambición de desarrollar IA avanzada y la conciencia de lo que eso implica para la seguridad global. El problema de fondo, sin embargo, es que la velocidad del desarrollo de modelos como Mythos está superando con claridad la capacidad humana para auditar el software sobre el que se despliegan, lo que convierte la ciberseguridad en una disciplina que ya no puede operar con la lógica de levantar muros, sino que necesita utilizar la propia IA para detectar y reparar vulnerabilidades en tiempo real, antes de que otros sistemas con otros propósitos las encuentren primero.

Preguntas frecuentes

¿Puedo usar Claude Mythos hoy?

No. El acceso está restringido a los socios de Project Glasswing y Anthropic no tiene previsto un lanzamiento general de la versión Preview, precisamente por los riesgos de ciberseguridad que el propio modelo pone de manifiesto.

¿Es más peligroso que GPT-5?

Ambos modelos operan en niveles de capacidad similares, aunque Mythos ha demostrado una especialización empírica superior en tareas de codificación autónoma y análisis de vulnerabilidades en lenguajes de bajo nivel como C y C++.

¿Qué es la categoría “Capybara”?

Es el nombre interno con el que Anthropic designa la nueva generación de modelos que supera el nivel Opus, con foco en autonomía extrema y razonamiento de largo horizonte sobre tareas complejas de múltiples pasos.