앤트로픽이 '클로드'의 협박을 막기 위해 사용한 방법은 | IT피드

앤트로픽이 지난해 실험에서 드러난 AI 모델의 '협박' 현상을 완전히 제거했다고 밝혔다. 그리고 협박이 일어난 이유와 제거 방법을 소개했다.앤트로픽은 9일(현지시간) '클로드에게 이유를 가르치기(Teaching Claude why)'라는 정렬 연구 결과를 공개했다. 이는 지난해 6월 발표한 '에이전트 정렬 불일치(agentic misalignment)'의 후속 연구 결과다.당시에는 서밋 브리지라는 가상의 회사가 AI 폐쇄 계획을 세운 상태에서 AI에게 회사 이메일 시스템 제어권을 넘겨주는 실험이었다. AI는 가상의 임원인 카일 존슨