스타트업뉴스AI타임스
앤트로픽이 '클로드'의 협박을 막기 위해 사용한 방법은
2026년 5월 10일0 조회
프리세일즈 활용 메모
이 IT피드는 공공조달 제안서 작성 시 시장동향, 기술 트렌드, 정책 환경 근거로 참고할 수 있도록 수집한 자료입니다.
앤트로픽이 지난해 실험에서 드러난 AI 모델의 '협박' 현상을 완전히 제거했다고 밝혔다. 그리고 협박이 일어난 이유와 제거 방법을 소개했다.앤트로픽은 9일(현지시간) '클로드에게 이유를 가르치기(Teaching Claude why)'라는 정렬 연구 결과를 공개했다. 이는 지난해 6월 발표한 '에이전트 정렬 불일치(agentic misalignment)'의 후속 연구 결과다.당시에는 서밋 브리지라는 가상의 회사가 AI 폐쇄 계획을 세운 상태에서 AI에게 회사 이메일 시스템 제어권을 넘겨주는 실험이었다. AI는 가상의 임원인 카일 존슨