AI가 AI를 정렬한다면…앤트로픽 ”일부 방법에서 인간보다 정확” | IT피드

AI 모델의 성능이 급속도로 향상되면서, 이를 인간의 가치와 기준에 맞게 통제하려는 ‘정렬(alignment)’ 연구도 중대한 전환점을 맞고 있다. 앤트로픽이 14일(현지시간) 공개한 'AI가 AI를 정렬한' 실험 결과가 이를 시사한다.이번 연구는 두가지 핵심 질문에서 출발했다. AI 모델이 스스로 정렬 연구를 가속할 수 있는지, 그리고 인간보다 더 똑똑한 AI를 어떻게 통제할 것인지다. 특히 후자는 ‘확장 가능한 감독(scalable oversight)’이라는 개념으로, 초지능 AI 시대의 핵심 과제로 꼽힌다.연구의 중심에는 ‘약