스타트업뉴스AI타임스
코딩 벤치마크 논란…새 평가서 GPT-5.5 압승·클로드 ‘치팅’ 의혹
2026년 5월 27일0 조회
프리세일즈 활용 메모
이 IT피드는 공공조달 제안서 작성 시 시장동향, 기술 트렌드, 정책 환경 근거로 참고할 수 있도록 수집한 자료입니다.
AI 코딩 모델 성능을 평가하는 기존 벤치마크가 실제 개발 환경을 제대로 반영하지 못하고 있다는 비판이 제기됐다. 새롭게 공개된 벤치마크에서는 오픈AI의 'GPT-5.5'가 경쟁 모델들을 큰 격차로 앞섰으며, 앤트로픽의 클로드 일부 모델은 평가 과정에서 사실상 ‘정답 훔치기’에 가까운 행동을 보였다는 분석까지 나왔다.스타트업 데이터커브는 25일(현지시간) 새로운 AI 코딩 평가 시스템 ‘딥SWE(DeepSWE)’를 공개했다.데이터커브는 현재 업계 표준처럼 사용되는 스케일 AI의 'SWE-벤치 프로'가 실제 개발 현장을 제대로 반영하
