Seguinos

Actualidad

Anthropic pide disculpas por ocultar restricciones en Claude Fable para evitar la “destilación” de IA

La empresa reconoció que implementó barreras invisibles en su nuevo modelo Claude Fable 5 para degradar respuestas relacionadas con la creación de modelos competidores, una decisión que generó críticas entre investigadores de IA.

Publicado

el

La empresa de inteligencia artificial  Anthropic⁠ anunció que modificará una controvertida medida de seguridad incorporada en su nuevo modelo, Claude Fable 5, después de recibir cuestionamientos de la comunidad de investigación. La compañía admitió que había aplicado restricciones ocultas que alteraban ciertas respuestas sin informar a los usuarios.  

Según explicó la firma, el objetivo era impedir la llamada “destilación”, una técnica utilizada para entrenar modelos más pequeños a partir de las respuestas generadas por sistemas de IA más avanzados. Sin embargo, la medida generó preocupación porque podía afectar también a investigadores que buscaban evaluar el comportamiento del modelo.  

Qué eran las restricciones invisibles

En la documentación técnica publicada por Anthropic, conocida como “system card”, la empresa detalló que algunas consultas consideradas intentos de destilación recibían respuestas modificadas o degradadas. Lo más polémico fue que los usuarios no eran notificados de que el sistema había activado esa protección.  

Tras las críticas, Anthropic anunció un cambio de estrategia. A partir de ahora, cuando detecte este tipo de consultas, el sistema derivará la respuesta a una versión anterior de su modelo, pero informará explícitamente al usuario cada vez que ocurra.  

La compañía señaló que esta modalidad será similar a la que ya utiliza para consultas sensibles vinculadas con biología, química o ciberseguridad, donde determinadas preguntas pueden ser bloqueadas o procesadas bajo reglas de seguridad adicionales.  

La explicación de Anthropic

En un comunicado citado por The Verge, Anthropic reconoció que priorizó la rapidez de implementación sobre la transparencia.

“Las salvaguardas visibles pueden ser analizadas y puestas a prueba, por lo que requieren más trabajo para ser robustas. Optamos por salvaguardas invisibles por esa razón, y fue una decisión equivocada”, indicó la empresa.  

Además, sostuvo que los usuarios deben tener claridad sobre las restricciones que afectan sus interacciones con la IA y pidió disculpas por no haber encontrado un mejor equilibrio entre seguridad y transparencia.  

Un debate que crece en la industria

La polémica surge en un contexto de creciente competencia entre desarrolladores de modelos de IA. Anthropic ha manifestado anteriormente su preocupación por el uso de técnicas de destilación para replicar capacidades de sistemas avanzados y ha acusado a algunos competidores de utilizar estos métodos a gran escala.  

El caso reabre una discusión más amplia sobre hasta qué punto las empresas de inteligencia artificial deben revelar los mecanismos internos que limitan o modifican las respuestas de sus modelos. Para investigadores y usuarios, la transparencia es clave para evaluar el rendimiento real de estas herramientas. Mientras tanto, Anthropic asegura que las futuras restricciones estarán claramente identificadas cuando entren en funcionamiento.