2025.02.06 (목)

론칭

전체기사 보기

올거나이즈, LLM 에이전트 평가 '올인원 벤치마크' 출시

이미지 : 올인원 벤치마크 LLM 올인원 솔루션 기업 올거나이즈는 국내 최초로 LLM의 에이전트 역량을 평가하는 ‘All-in-One Benchmark(올인원 벤치마크)’를 공개한다고 3일 밝혔다. 문제 해결을 위해 자율적으로 행동하는 에이전트의 중요성이 커짐에 따라 지난해 공개한 ‘금융 전문 LLM 리더보드’에서 한 발 나아가 새로운 LLM 평가 플랫폼을 제시한 것이다. 올인원 벤치마크는 LLM의 에이전트 성능을 종합적으로 평가하는 플랫폼으로, 수요 기업은 이를 통해 에이전트 역할을 수행하기에 가장 적합한 LLM을 선택한다. LLM이 에이전트 역할을 수행하기 위해서는 도메인 별 지식뿐 아니라 문제 해결을 위한 tool(툴)을 선택 및 활용할 수 있는 능력, 대화의 맥락 이해, 수집된 정보 활용 등 다양한 능력이 요구된다. 공개된 벤치마크를 활용해 LLM을 다각도로 분석하며, 평가 결과를 한눈에 볼 수 있도록 대시보드 형태로 제공한다. 사용자는 플랫폼 내에서 올거나이즈의 자체 소형언어모델(sLLM)을 비롯한 ‘ChatGPT(챗지피티)’, ‘EXAONE(엑사원)’, ‘Qwen(큐원)’, ‘DeepSeek(딥시크)’ 등 12개의 LLM의 평가 결과를 확인할 수