스타트업뉴스AI타임스
역대급 벤치마크 ‘ALE’서 이변…GPT-5.5, '페이블 5' 꺾고 1위
2026년 6월 12일0 조회
프리세일즈 활용 메모
이 IT피드는 공공조달 제안서 작성 시 시장동향, 기술 트렌드, 정책 환경 근거로 참고할 수 있도록 수집한 자료입니다.
AI가 실제 전문가 수준의 장기 업무를 수행할 수 있는지를 평가하기 위한 새로운 벤치마크가 공개됐다. 벤치마크 사상 가장 높은 난이도로 설계된 이번 평가에서 1위를 차지한 것은 바로 전날 출시된 앤트로픽의 '클로드 페이블 5'가 아닌, 두달 전에 등장한 픈AI의 'GPT-5.5'였다.미국 UC 버클리의 책임 있는 분산지능센터(RDI) 연구진과 300명 이상의 분야별 전문가 자문단은 11일(현지시간) ‘에이전트의 마지막 시험(ALE·Agents’ Last Exam)’ 벤치마크를 공개했다.ALE는 단순한 문제 풀이가 아니라 실제 경제적
