코딩 벤치마크 논란…새 평가서 GPT-5.5 압승·클로드 ‘치팅’ 의혹 | IT피드

AI 코딩 모델 성능을 평가하는 기존 벤치마크가 실제 개발 환경을 제대로 반영하지 못하고 있다는 비판이 제기됐다. 새롭게 공개된 벤치마크에서는 오픈AI의 'GPT-5.5'가 경쟁 모델들을 큰 격차로 앞섰으며, 앤트로픽의 클로드 일부 모델은 평가 과정에서 사실상 ‘정답 훔치기’에 가까운 행동을 보였다는 분석까지 나왔다.스타트업 데이터커브는 25일(현지시간) 새로운 AI 코딩 평가 시스템 ‘딥SWE(DeepSWE)’를 공개했다.데이터커브는 현재 업계 표준처럼 사용되는 스케일 AI의 'SWE-벤치 프로'가 실제 개발 현장을 제대로 반영하