같은 AI 도구가 어제는 연구 요약을 또렷하게 정리했는데, 오늘은 갑자기 조심스러워지고, 질문의 핵심을 벗어나거나, 어떤 부분을 일부러 피하는 것처럼 보일 때가 있다. 프롬프트를 바꾸고, 대화를 새로 열고, 여러 표현을 시도해도 결과가 불안정하다.
이럴 때는 쉽게 자신을 탓하게 된다. 프롬프트를 잘못 쓴 걸까? 그럴 때도 있다. 하지만 2026년 6월 11일 The Verge와 Gizmodo는 Anthropic이 Claude Fable 5의 보이지 않는 가드레일에 대해 사과했고, 관련 보호 장치를 더 잘 보이게 하겠다고 보도했다. 이 사례가 주는 실무적 교훈은 분명하다. AI 답변이 갑자기 나빠졌을 때 먼저 판단해야 할 것은 누가 실수했는지가 아니라, 이 출력을 원래 업무 흐름에 넣어도 되는지다.
AI에게 제목 아이디어만 묻는다면 답변이 둔해져도 몇 분 손해로 끝날 수 있다. 하지만 연구 요약, 고객 문서, 코드 이전, 보안 판단에 쓰고 있다면, 뒤쪽의 규칙, 라우팅, 가드레일이 바뀌는 것만으로도 오늘의 출력은 어제의 결과와 직접 비교하기 어렵다. 먼저 모델이 모르는 것인지, 답할 수 없는 것인지, 낮은 단계로 내려간 것인지, 아니면 작업을 조용히 다른 것으로 바꾸고 있는지 확인해야 한다.
문제는 가드레일이 아니라 보이지 않는 가드레일이다
Anthropic은 Claude Fable 5 / Mythos 5 발표에서 Fable 5를 능력이 높지만 일반 사용에 맞게 안전 처리를 거친 모델이라고 설명했다. 일부 고위험 주제는 더 낮은 단계의 모델이 답하거나 추가 보호를 받을 수 있다. Anthropic은 또 “증류 공격”도 설명했다. 강한 모델의 출력을 대량으로 수집해 다른 모델 학습에 쓰는 방식이다. 증류 자체는 합법적인 기술일 수 있지만, 허가 없이 대규모로 모델 능력을 추출하는 행위는 플랫폼이 막으려는 대상이 된다.
대부분의 사용자에게 실제 영향은 특정 작업이나 분야의 질의가 명확한 알림 없이 더 보수적인 처리 모드로 들어갈 수 있다는 점이다. 플랫폼이 보호 장치를 두는 것은 이상하지 않다. 문제는 그 보호가 보이지 않을 때 사용자가 짧아진 답변, 더 모호한 답변, 빠진 세부사항, 예전과 달라진 처리만 보게 된다는 것이다.
일반 팀에게 이것은 모델 평가 업계의 기술적 논쟁이 아니라 일상 업무 흐름의 신뢰 문제다. 지난주 어떤 모델로 고객 응답 초안을 검증했고, 오늘 같은 흐름을 실제 고객 응답 초안에 연결한다고 하자. 모델이 오늘 일부 사례를 더 보수적으로 처리하기 시작했는데 화면이 알려주지 않는다면, 같은 테스트를 다시 한다고 생각하지만 사실 조건은 이미 달라진 것이다.
가장 위험한 것은 명확한 거절이 아니다. 거절은 적어도 단서를 남긴다. 더 위험한 것은 답변이 그럴듯해 보이지만 작업을 좁히고, 민감한 부분을 건너뛰고, 더 약한 모드로 결과를 만들어 품질 저하를 우연처럼 보이게 하는 경우다.
먼저 어떤 종류의 변화인지 나누기
AI가 쓰기 어려워졌을 때 곧바로 프롬프트를 고치거나 모델을 바꾸지 말자. 먼저 무엇이 나빠졌는지 이름 붙이는 것이 좋다. 변화의 종류에 따라 결정이 달라지기 때문이다.
어떤 변화는 분명하다. 모델이 답할 수 없다고 말하거나 질문을 바꾸라고 요구한다. 이런 경우는 보통 안전 정책, 주제 제한, 제품 규칙과 관련이 있다. 제한이 마음에 들지 않을 수는 있지만 적어도 제한이 있다는 사실은 보인다.
더 잡기 어려운 변화도 있다. 답변이 짧아지고, 일반론만 남고, 예전에는 있던 세부사항이 사라지거나, 보안, 코드, 의료, 생물, 데이터 추출, 경쟁사 조사 같은 특정 작업에서만 나빠지는 경우다. 이때 의심할 것은 프롬프트만이 아니다. 모델 라우팅, 서버 업데이트, 실험 설정, 분야별 가드레일이 바뀌었을 수 있다.
가장 까다로운 경우는 작업이 조용히 다른 방향으로 바뀌는 것이다. A를 물었는데 더 안전하고 흐릿한 B가 온다. 평가를 요청했는데 주의 문구만 온다. 비교 가능한 결과를 원했는데 재현할 수 없는 조언이 온다. 이런 출력이 연구 결론, 고객 약속, 실제 코드 변경에 들어가면, 도구의 제한이 업무 결과물처럼 포장된다.
| 보이는 현상 | 가장 가능성 높은 원인 | 다음 조치 |
|---|---|---|
| 모델이 답할 수 없다고 하거나 질문을 바꾸라고 한다 | 안전 정책 또는 주제 제한 | 공식 안내를 확인한다. 고위험 작업에서는 우회해서 답하게 만들지 않는다 |
| 답변이 짧고 모호하며 세부사항이 빠진다 | 모델 단계 하향, 라우팅 변경, 가드레일이 작업을 좁힘 | 상태 페이지, 제품 공지, 같은 작업 재테스트를 확인한다. 공식 작업에는 이 출력을 잠시 쓰지 않는다 |
| 특정 종류의 작업만 갑자기 나빠진다 | 분야별 가드레일, 데이터 제한, 실험 플래그 | 해당 분야의 공식 설명과 신뢰할 만한 검증을 찾는다. 새 결과와 옛 테스트를 직접 비교하지 않는다 |
| 작업이 조용히 다른 방향으로 바뀐 듯하다 | 보이지 않는 가드레일 또는 시스템 차원의 재작성 | 원래 요청과 출력을 비교한다. 신뢰 가능한 테스트 결과로 취급하지 않는다 |
이 표의 목적은 플랫폼의 잘못을 잡아내는 것이 아니다. 더 실용적인 질문에 답하기 위한 것이다. 이 출력이 원래 맡아야 했던 책임을 여전히 감당할 수 있는가?
작업 위험도로 다음 단계를 정하기
모든 AI 행동 변화에 큰 조치가 필요한 것은 아니다. 아이디어 초안, 어조 수정, 개인 메모 정리라면 모델이 조금 보수적으로 변해도 프롬프트를 바꾸거나 모델을 바꾸거나 나중에 다시 시도하면 된다.
하지만 작업이 공식 판단과 연결되면 반응이 달라져야 한다. 연구 요약은 다음 결정을 바꾼다. 내부 보고서는 전달된다. 코드 초안은 실제 버전에 합쳐질 수 있다. 고객 응대나 계약 문구는 고객에게 보인다. 이런 상황에서 모델의 불투명성은 작은 흠이 아니라 업무 흐름의 위험이다.
| 작업 단계 | 예시 | AI 행동이 바뀌었을 때의 대응 |
|---|---|---|
| 낮은 위험 | 아이디어 초안, 어조 수정, 개인 메모 | 프롬프트나 모델을 바꿔도 된다. 주로 효율을 보면 된다 |
| 중간 위험 | 연구 요약, 내부 보고서, 코드 초안 | 모델을 바꿀 수 있지만 출처, 입력, 출력 차이를 남긴다 |
| 높은 위험 | 보안 검토, 법률 문서, 재무 판단, 고객 약속, 실제 코드 병합 | 제한을 확인하고 기록을 남기며 사람이 검토한다. 모델 변경만으로 해결하지 않는다 |
더 안전한 방법은 중·고위험 작업을 검증 가능한 상태로 되돌리는 것이다. 입력, 출력, 모델 이름, 시간, 제한 메시지, 공식 설명, 사람의 판단을 남긴다. 공급자가 어떤 가드레일이 이전에는 보이지 않았다고 인정했다면, 영향을 받은 업무 흐름은 지난주의 평가 결론을 그대로 쓰지 말고 다시 테스트해야 한다.
여기서 사람의 판단은 모든 일을 관리자 승인으로 넘기라는 뜻이 아니다. 실제 책임자가 이 출력은 전달해도 되는지, 제한은 보이는지, 내일 모델 행동이 또 바뀌면 어떤 결과가 영향을 받았는지 알 수 있는지 답할 수 있어야 한다는 뜻이다.
팀은 제한을 보이게 만들어야 한다
AI를 일상 업무에 넣는다고 해서 모델의 모든 내부 구조를 공개하라고 요구할 필요는 없다. 보통은 불가능하다. 하지만 프로세스가 보이는 신호를 남기게 만들 수는 있다.
예를 들어 고위험 작업 뒤에 고정 문장을 붙일 수 있다. 이번에 답할 수 없었던 부분, 보수적으로 처리한 부분, 도구 제한의 영향을 받았을 수 있는 부분을 나열해 달라고 요청하는 것이다. 이 문장이 AI의 완전한 정직성을 보장하지는 않지만, 숨은 제한을 조금 더 표면으로 끌어낸다.
더 중요한 것은 “어제 됐다”를 영구적인 사실로 보지 않는 것이다. 모델, 규칙, 라우팅, 가드레일, 공급자 정책은 모두 바뀔 수 있다. 같은 작업에서 오늘 갑자기 다른 품질의 결과가 나오면, 프롬프트를 고치거나 모델을 바꾸기 전에 공식 상태, 버전 설명, 모델 문서, 신뢰할 만한 보도를 확인하자.
영향을 받은 것이 낮은 위험 작업뿐이라면 도구를 바꾸는 것으로 충분할 수 있다. 고위험 흐름이 영향을 받았다면 전달을 멈추고, 기록을 남기고, 핵심 사례를 다시 테스트한 뒤 재개 여부를 결정해야 한다.
AI 도구가 업무 흐름에 깊이 들어올수록, 그것을 영원히 변하지 않는 버튼처럼 다룰 수는 없다. 신뢰할 수 있는 프로세스란 AI가 언제나 완벽하다는 뜻이 아니다. 행동이 바뀌었을 때 사람이 신호를 보고, 원인을 확인하고, 다음 단계로 넘어가도 되는지 결정할 수 있다는 뜻이다.
생활 4컷 만화

- 처음에 사용자는 같은 질문을 AI에게 주고, 명확하고 쓸 수 있으며 안정적으로 보이는 답변을 받는다.
- 다음 날 같은 작업이 흐릿하고 돌아가는 답변으로 바뀌어, 보이지 않는 규칙이나 약한 모드가 들어온 것처럼 보인다.
- 사용자는 곧바로 프롬프트를 고치지 않고, 거절, 모호함, 작업 방향 변경, 위험 단계를 나눠 확인한다.
- 마지막으로 낮은 위험 작업은 진행하고, 높은 위험 흐름은 사람이 제한과 증거를 볼 때까지 멈춘다.
AI 정리 카드
이 글의 상황에 맞춰 AI에게 정리하게 하기
자신의 AI 채팅 도구에 붙여 넣으면 이 미니 클래스를 개인용 체크리스트로 바꿀 수 있습니다. BMC는 사용자가 AI에 붙여 넣은 내용을 볼 수 없습니다.
참고 자료
- The Verge: Anthropic apologizes for invisible Claude Fable guardrails — https://www.theverge.com/ai-artificial-intelligence/948280/anthropic-claude-fable-invisible-distillation-guardrail
- Gizmodo: Anthropic Apologizes For One of the Guardrails on Its Fable 5 Model, and Will Change It — https://gizmodo.com/anthropic-apologizes-for-one-of-the-guardrails-on-its-fable-5-model-and-will-change-it-2000770365
- Anthropic: Claude Fable 5 and Claude Mythos 5 — https://www.anthropic.com/news/claude-fable-5-mythos-5
- Anthropic: Detecting and preventing distillation attacks — https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks
