달파, 오픈AI의 ‘MLE-벤치’서 글로벌 최고 수준 에이전트 성능 입증 | IT피드

AI 에이전트 전문 달파(대표 김도균)는 오픈AI의 AI 에이전트 성능 평가 지표인 'MLE-벤치(MLE-bench)'에서 글로벌 최고 수준인 종합 점수 79.11%를 기록했다고 7일 밝혔다.MLE-벤치는 오픈AI가 공개한 기술 지표로, 세계 최대 AI 경진 대회 플랫폼 '캐글(Kaggle)'의 실제 비즈니스 과제 75개를 AI 에이전트가 얼마나 자율적으로 해결하는지 측정한다. 데이터 전처리부터 모델 학습, 최적화까지 머신러닝 엔지니어링 전 과정을 스스로 완수해야 하는 고난도 벤치마크다. 달파의 ‘코브라 에이전트(Cobra Agen