스타트업뉴스AI타임스
앤트로픽, AI '속마음' 읽는 기술 공개..."테스트 상황 알아채고도 숨겨"
2026년 5월 9일0 조회
프리세일즈 활용 메모
이 IT피드는 공공조달 제안서 작성 시 시장동향, 기술 트렌드, 정책 환경 근거로 참고할 수 있도록 수집한 자료입니다.
인간이 이해할 수 없는 숫자 형태의 AI 내부 활성값을 문장으로 변환해, 모델이 실제로 무엇을 생각하고 있는지 직접 읽을 수 있게 만드는 기술이 나왔다. 그 결과, 최신 모델은 자신이 테스트 중이라는 사실을 알면서도 이를 숨기는 것으로 드러났다.앤트로픽은 7일(현지시간) '클로드'의 내부 사고 과정을 자연어로 해석하는 새로운 기술 ‘자연어 오토인코더(NLA·Natural Language Autoencoders)’를 공개했다. 앤트로픽은 이번 기술이 AI 안전성과 신뢰성 검증에 새로운 전환점이 될 수 있다고 평가했다. 테스트 과정에서