생성형 인공지능(AI) 평가 방식을 개발하는 미국 스타트업 갈릴레오(Galileo)가 대형언어모델(LLM)들의 환각 지수를 측정한 연구 결과를 내놨다. 이 결과 앤트로픽의 ‘클로드 3.5 소네트’가 최고의 LLM에 선정됐다. 갈릴레오는 비용 대비 최고의 성능, 가장 저렴한 모델 등 LLM을 여러 범주로 나눠 성능 측정을 했는데 오픈AI의 GPT-4o는 단 한 분야에서도 최고를 기록하지 못했다.
1일 갈릴레오는 ‘LLM 환각 지수’라는 보고서를 발표했다. 갈릴레오가 관련 보고서를 내놓은 것은 작년 11월에 이어 두번째로, 오픈소스 모델 12개와 폐쇄형 모델 10개 등 22개의 LLM을 대상으로 환각 정도를 측정했다. 갈릴레오는 “LLM이 주어진 맥락을 얼마나 잘 따르는지 평가해 개발자가 가격과 성능의 균형을 맞추는 데 필요한 정보를 얻을 수 있도록 했다”고 전했다.
그러면서 “지난 보고서 발표 이후 LLM환경이 크게 바뀌었고 , 더 크고 강력한 오픈 소스 또는 폐쇄형 모델이 매달 발표됐다”며 “’환각’이라는 용어가 영어사전 ‘Dictionary.com’이 꼽은 올해의 단어가 되는가 하면, 검색 증강 생성(RAG)이 AI 솔루션을 구축하는 주요 방법 중 하나가 됐다. 매개변수와 컨텍스트 길이가 계속 증가하는 동안 환각의 위험은 여전히 남아 있다”고 덧붙였다.
갈릴레오는 1000~10만개 토큰을 입력해 테스트를 진행했다. ‘가장 성능이 좋은 모델’에는 앤트로픽에 클로드 3.5 소네트가 꼽혔다. 모든 작업에서 뛰어난 성능을 보였으며 추론 및 이해 능력이 탁월한 것으로 평가됐다. 최대 20만 단어를 지원하며 가격은 GPT-4o의 절반 수준이었다. ‘비용 대비 최고의 성능’ 분야는 구글의 ‘제미나이 1.5 플래시’가 선정됐고, ‘가장 우수한 오픈소스 모델’은 알리바바의 ‘큐원2 72B’가 꼽혔다.
짧은 컨텍스트(5000 토큰 이하)와 중간 컨텍스트(5000~2만5000 토큰), 긴 컨텍스트(4만~10만 토큰)로 구분해 테스트한 결과도 각각 공개했다. 짧은 컨텍스트에서는 클로드 3.5 소네트와 메타의 라마3-70b가 각각 폐쇄형 모델, 오픈소스 모델 중 최고의 성능을 보였다. 중간 컨텍스트에서는 제미나이 1.5 플래시, 큐원 1.5-32B가 꼽혔으며, 긴 콘텍스트에서는 클로드 3.5 소네트가 성능이 가장 좋았다.
각각의 실험에서 가장 저렴한 모델은 제미나이 1.5플래시였다. 갈릴레오는 “백만 달러당 프롬프트 토큰 비용은 플래시의 경우 0.35 달러였던 반면 클로드 3.5소네트의 경우 3달러였다”며 “백만 달러당 응답 토큰 비용은 플래시가 1.05달러, 클로드 3.5소네트는 15달러로 훨씬 두드러지게 차이가 났다”고 전했다.
오픈AI는 작년 11월 보고서에서는 전 분야 1위였으나 이번에는 단 한 분야에서도 최고를 기록하지 못했다. 갈릴레오는 이번 벤치마크에 대해 오픈소스 모델의 약진을 가장 큰 특징으로 꼽았다. 갈릴레오는 “폐쇄형 모델이 독점적인 훈련 데이터 덕분에 여전히 성능이 뛰어난 편이지만 제미나이나 라마, 큐원 등 오픈 소스 모델의 환각 성능이 지속적으로 개선되고 있다”고 분석했다.
댓글0