“가장 성능 좋은 LLM은 앤트로픽 ‘클로드 3.5 소네트’…구글·메타·알리바바도 성능↑”

조선비즈 2024.08.01 조회수

생성형 인공지능(AI) 평가 방식을 개발하는 미국 스타트업 갈릴레오(Galileo)가 대형언어모델(LLM)들의 환각 지수를 측정한 연구 결과를 내놨다. 이 결과 앤트로픽의 ‘클로드 3.5 소네트’가 최고의 LLM에 선정됐다. 갈릴레오는 비용 대비 최고의 성능, 가장 저렴한 모델 등 LLM을 여러 범주로 나눠 성능 측정을 했는데 오픈AI의 GPT-4o는 단 한 분야에서도 최고를 기록하지 못했다.

1일 갈릴레오는 ‘LLM 환각 지수’라는 보고서를 발표했다. 갈릴레오가 관련 보고서를 내놓은 것은 작년 11월에 이어 두번째로, 오픈소스 모델 12개와 폐쇄형 모델 10개 등 22개의 LLM을 대상으로 환각 정도를 측정했다. 갈릴레오는 “LLM이 주어진 맥락을 얼마나 잘 따르는지 평가해 개발자가 가격과 성능의 균형을 맞추는 데 필요한 정보를 얻을 수 있도록 했다”고 전했다.

그러면서 “지난 보고서 발표 이후 LLM환경이 크게 바뀌었고 , 더 크고 강력한 오픈 소스 또는 폐쇄형 모델이 매달 발표됐다”며 “’환각’이라는 용어가 영어사전 ‘Dictionary.com’이 꼽은 올해의 단어가 되는가 하면, 검색 증강 생성(RAG)이 AI 솔루션을 구축하는 주요 방법 중 하나가 됐다. 매개변수와 컨텍스트 길이가 계속 증가하는 동안 환각의 위험은 여전히 남아 있다”고 덧붙였다.

갈릴레오는 1000~10만개 토큰을 입력해 테스트를 진행했다. ‘가장 성능이 좋은 모델’에는 앤트로픽에 클로드 3.5 소네트가 꼽혔다. 모든 작업에서 뛰어난 성능을 보였으며 추론 및 이해 능력이 탁월한 것으로 평가됐다. 최대 20만 단어를 지원하며 가격은 GPT-4o의 절반 수준이었다. ‘비용 대비 최고의 성능’ 분야는 구글의 ‘제미나이 1.5 플래시’가 선정됐고, ‘가장 우수한 오픈소스 모델’은 알리바바의 ‘큐원2 72B’가 꼽혔다.

짧은 컨텍스트(5000 토큰 이하)와 중간 컨텍스트(5000~2만5000 토큰), 긴 컨텍스트(4만~10만 토큰)로 구분해 테스트한 결과도 각각 공개했다. 짧은 컨텍스트에서는 클로드 3.5 소네트와 메타의 라마3-70b가 각각 폐쇄형 모델, 오픈소스 모델 중 최고의 성능을 보였다. 중간 컨텍스트에서는 제미나이 1.5 플래시, 큐원 1.5-32B가 꼽혔으며, 긴 콘텍스트에서는 클로드 3.5 소네트가 성능이 가장 좋았다.

각각의 실험에서 가장 저렴한 모델은 제미나이 1.5플래시였다. 갈릴레오는 “백만 달러당 프롬프트 토큰 비용은 플래시의 경우 0.35 달러였던 반면 클로드 3.5소네트의 경우 3달러였다”며 “백만 달러당 응답 토큰 비용은 플래시가 1.05달러, 클로드 3.5소네트는 15달러로 훨씬 두드러지게 차이가 났다”고 전했다.

오픈AI는 작년 11월 보고서에서는 전 분야 1위였으나 이번에는 단 한 분야에서도 최고를 기록하지 못했다. 갈릴레오는 이번 벤치마크에 대해 오픈소스 모델의 약진을 가장 큰 특징으로 꼽았다. 갈릴레오는 “폐쇄형 모델이 독점적인 훈련 데이터 덕분에 여전히 성능이 뛰어난 편이지만 제미나이나 라마, 큐원 등 오픈 소스 모델의 환각 성능이 지속적으로 개선되고 있다”고 분석했다.

조선비즈

content@www.newsbell.co.kr

다른기사 보기

[차·테크] 랭킹 뉴스

"수능 끝" 어떤 게임 할까
디자인부터 모델까지 만들어주는 패션 AI ‘스타일에이아이’ [서울AI허브 2025]
뛰어난 설득력, 일상에 합리성을 더하다 - 쉐보레 트랙스 크로스오버[별별시승]
상용차 업계, 바이오 연료에도 집중… 新솔루션으로 탈탄소화 목표
[게임브리핑] 마비노기 영웅전, 신규 레이드 ‘시공간 왜곡’ 업데이트 외
소니 ‘PS5 프로’, 고가 정책 독됐나… 판매량 부진 신호

[차·테크] 공감 뉴스

심야까지 자리 지킨 유저들의 열정 엿보였던 '던전앤파이터 페스티벌 중천'
1달도 채 안 됐는데 “차주들 어떡해요”…포르쉐 넘본다는 세계 2위 기업 근황
“여기가 중국이냐” “검열 시도 받아들여” 나무위키에 이용자들 ‘대혼란’
킨텍스 폭탄 테러 예고로 인해 ‘2024 던파 페스티벌’ 행사 일시 중단
[AGF] 스마일게이트 AGF 현장 이벤트 사전 공개
현대차, 대형 전동화 SUV ‘아이오닉 9’ 세계 최초 공개

댓글 많은 뉴스

당신을 위한 인기글

‘감칠맛 최고봉’ 보글보글 끓이는 소리마저 맛있는 꽃게탕 맛집 BEST5
고소한 맛을 입안 가득 느낄 수 있는 파전 맛집 5곳
입소문으로 유명하던 맛집을 한 곳에서! 인천 맛집 BEST5
눈으로 한 번 먹고, 입으로 두 번 먹는 브런치 맛집 BEST5
[맥스무비레터 #78번째 편지] 극장 온도 급상승 ‘히든페이스’ 문제작의 탄생💔
[인터뷰] 봄의 햇살 닮은 채서은, 영화 ‘문을 여는 법’으로 증명한 가능성

“야한데 야하지 않은 영화”…’히든페이스’ 관객 후기 살펴보니
[위클리 이슈 모음zip] 민희진 아일릿 대표 고소·개그맨 성용 사망·’정년이’ 끝나도 화제 계속 외

[차·테크] 인기 뉴스

"수능 끝" 어떤 게임 할까
디자인부터 모델까지 만들어주는 패션 AI ‘스타일에이아이’ [서울AI허브 2025]
뛰어난 설득력, 일상에 합리성을 더하다 - 쉐보레 트랙스 크로스오버[별별시승]
상용차 업계, 바이오 연료에도 집중… 新솔루션으로 탈탄소화 목표
[게임브리핑] 마비노기 영웅전, 신규 레이드 ‘시공간 왜곡’ 업데이트 외
소니 ‘PS5 프로’, 고가 정책 독됐나… 판매량 부진 신호

지금 뜨는 뉴스

1
35세 모델 문가비가 전한 어안이 벙벙한 소식: 홀연히 연예계 자취 감춘 이유는 확실했다

연예
2024.11.22
2
NCCK 조성암 신임 회장 "사회 많은 문제 사랑 결핍 때문"

여행맛집
2024.11.22
3
'굴친자' 설레게 하는 서울 굴 맛집 4

연예
2024.11.22
4
똑같은 사안인데 뒤바뀐 결론…법원 “방통위 2인 체제 하에서 KBS 이사 7인 임명 합법"

뉴스
2024.11.22
5
'오전 9시부터 오후 9시까지' LG 지옥훈련 성과 있었다→염갈량 만족 "백업 주전 성장, 기대만큼 잘 됐다" [MD이천]

스포츠
2024.11.22

[차·테크] 추천 뉴스

심야까지 자리 지킨 유저들의 열정 엿보였던 '던전앤파이터 페스티벌 중천'
1달도 채 안 됐는데 “차주들 어떡해요”…포르쉐 넘본다는 세계 2위 기업 근황
“여기가 중국이냐” “검열 시도 받아들여” 나무위키에 이용자들 ‘대혼란’
킨텍스 폭탄 테러 예고로 인해 ‘2024 던파 페스티벌’ 행사 일시 중단
[AGF] 스마일게이트 AGF 현장 이벤트 사전 공개
현대차, 대형 전동화 SUV ‘아이오닉 9’ 세계 최초 공개

당신을 위한 인기글

‘감칠맛 최고봉’ 보글보글 끓이는 소리마저 맛있는 꽃게탕 맛집 BEST5
고소한 맛을 입안 가득 느낄 수 있는 파전 맛집 5곳
입소문으로 유명하던 맛집을 한 곳에서! 인천 맛집 BEST5
눈으로 한 번 먹고, 입으로 두 번 먹는 브런치 맛집 BEST5
[맥스무비레터 #78번째 편지] 극장 온도 급상승 ‘히든페이스’ 문제작의 탄생💔
[인터뷰] 봄의 햇살 닮은 채서은, 영화 ‘문을 여는 법’으로 증명한 가능성

“야한데 야하지 않은 영화”…’히든페이스’ 관객 후기 살펴보니
[위클리 이슈 모음zip] 민희진 아일릿 대표 고소·개그맨 성용 사망·’정년이’ 끝나도 화제 계속 외

댓글 많은 뉴스

지금 뜨는 뉴스

1
35세 모델 문가비가 전한 어안이 벙벙한 소식: 홀연히 연예계 자취 감춘 이유는 확실했다

연예
2024.11.22
2
NCCK 조성암 신임 회장 "사회 많은 문제 사랑 결핍 때문"

여행맛집
2024.11.22
3
'굴친자' 설레게 하는 서울 굴 맛집 4

연예
2024.11.22
4
똑같은 사안인데 뒤바뀐 결론…법원 “방통위 2인 체제 하에서 KBS 이사 7인 임명 합법"

뉴스
2024.11.22
5
'오전 9시부터 오후 9시까지' LG 지옥훈련 성과 있었다→염갈량 만족 "백업 주전 성장, 기대만큼 잘 됐다" [MD이천]

스포츠
2024.11.22

“가장 성능 좋은 LLM은 앤트로픽 ‘클로드 3.5 소네트’…구글·메타·알리바바도 성능↑”

이런 콘텐츠는 어때요?

이시각 인기 뉴스

[차·테크] 랭킹 뉴스

[차·테크] 공감 뉴스

댓글 많은 뉴스

당신을 위한 인기글

함께 보면 좋은 뉴스

[차·테크] 인기 뉴스

지금 뜨는 뉴스

[차·테크] 추천 뉴스

당신을 위한 인기글

추천 뉴스

댓글 많은 뉴스

지금 뜨는 뉴스