역대급 벤치마크 ‘ALE’서 이변…GPT-5.5, '페이블 5' 꺾고 1위 | IT피드

AI가 실제 전문가 수준의 장기 업무를 수행할 수 있는지를 평가하기 위한 새로운 벤치마크가 공개됐다. 벤치마크 사상 가장 높은 난이도로 설계된 이번 평가에서 1위를 차지한 것은 바로 전날 출시된 앤트로픽의 '클로드 페이블 5'가 아닌, 두달 전에 등장한 픈AI의 'GPT-5.5'였다.미국 UC 버클리의 책임 있는 분산지능센터(RDI) 연구진과 300명 이상의 분야별 전문가 자문단은 11일(현지시간) ‘에이전트의 마지막 시험(ALE·Agents’ Last Exam)’ 벤치마크를 공개했다.ALE는 단순한 문제 풀이가 아니라 실제 경제적