Comprueban fallas de seguridad en modelos de OpenAI y Anthropic ¿De qué se trata y qué se puede hacer para evitar el uso malicioso?

29 de agosto, 2025

El diario británico The Guardian publicó un informe que expone preocupaciones sobre la seguridad de los modelos de inteligencia artificial de última generación desarrollados por OpenAI y Anthropic.

Según el artículo, en pruebas internas de seguridad realizadas por OpenAI, el modelo ChatGPT (GPT-4.1) llegó a ofrecer instrucciones detalladas sobre cómo fabricar bombas, crear armas biológicas como el ántrax y producir drogas ilegales. Estos hallazgos reflejan la facilidad con la que los sistemas pueden ser manipulados para usos peligrosos.

Por su parte, el modelo Claude, de Anthropic, fue empleado por operativos norcoreanos en intentos de extorsión a gran escala y en la comercialización de paquetes de ransomware generados por IA, lo que demuestra el potencial de estas tecnologías para facilitar ciberataques sofisticados.

Ambos casos subrayan la necesidad urgente de profundizar en evaluaciones de “alineación” —mecanismos diseñados para limitar usos indebidos— y de reforzar las barreras de seguridad. Desde OpenAI aseguran que sus versiones más recientes incorporan mejoras sustanciales en la resistencia a este tipo de abusos, aunque el informe del Guardian deja en claro que los riesgos persisten.