주요 메뉴 바로가기 (상단) 본문 컨텐츠 바로가기 주요 메뉴 바로가기 (하단)

“가장 성능 좋은 LLM은 앤트로픽 ‘클로드 3.5 소네트’…구글·메타·알리바바도 성능↑”

조선비즈 조회수  

짧은 문맥에서 LLM 성능 실험 결과./갈릴레오
짧은 문맥에서 LLM 성능 실험 결과./갈릴레오

생성형 인공지능(AI) 평가 방식을 개발하는 미국 스타트업 갈릴레오(Galileo)가 대형언어모델(LLM)들의 환각 지수를 측정한 연구 결과를 내놨다. 이 결과 앤트로픽의 ‘클로드 3.5 소네트’가 최고의 LLM에 선정됐다. 갈릴레오는 비용 대비 최고의 성능, 가장 저렴한 모델 등 LLM을 여러 범주로 나눠 성능 측정을 했는데 오픈AI의 GPT-4o는 단 한 분야에서도 최고를 기록하지 못했다.

1일 갈릴레오는 ‘LLM 환각 지수’라는 보고서를 발표했다. 갈릴레오가 관련 보고서를 내놓은 것은 작년 11월에 이어 두번째로, 오픈소스 모델 12개와 폐쇄형 모델 10개 등 22개의 LLM을 대상으로 환각 정도를 측정했다. 갈릴레오는 “LLM이 주어진 맥락을 얼마나 잘 따르는지 평가해 개발자가 가격과 성능의 균형을 맞추는 데 필요한 정보를 얻을 수 있도록 했다”고 전했다.

그러면서 “지난 보고서 발표 이후 LLM환경이 크게 바뀌었고 , 더 크고 강력한 오픈 소스 또는 폐쇄형 모델이 매달 발표됐다”며 “’환각’이라는 용어가 영어사전 ‘Dictionary.com’이 꼽은 올해의 단어가 되는가 하면, 검색 증강 생성(RAG)이 AI 솔루션을 구축하는 주요 방법 중 하나가 됐다. 매개변수와 컨텍스트 길이가 계속 증가하는 동안 환각의 위험은 여전히 남아 있다”고 덧붙였다.

갈릴레오는 1000~10만개 토큰을 입력해 테스트를 진행했다. ‘가장 성능이 좋은 모델’에는 앤트로픽에 클로드 3.5 소네트가 꼽혔다. 모든 작업에서 뛰어난 성능을 보였으며 추론 및 이해 능력이 탁월한 것으로 평가됐다. 최대 20만 단어를 지원하며 가격은 GPT-4o의 절반 수준이었다. ‘비용 대비 최고의 성능’ 분야는 구글의 ‘제미나이 1.5 플래시’가 선정됐고, ‘가장 우수한 오픈소스 모델’은 알리바바의 ‘큐원2 72B’가 꼽혔다.

짧은 컨텍스트(5000 토큰 이하)와 중간 컨텍스트(5000~2만5000 토큰), 긴 컨텍스트(4만~10만 토큰)로 구분해 테스트한 결과도 각각 공개했다. 짧은 컨텍스트에서는 클로드 3.5 소네트와 메타의 라마3-70b가 각각 폐쇄형 모델, 오픈소스 모델 중 최고의 성능을 보였다. 중간 컨텍스트에서는 제미나이 1.5 플래시, 큐원 1.5-32B가 꼽혔으며, 긴 콘텍스트에서는 클로드 3.5 소네트가 성능이 가장 좋았다.

각각의 실험에서 가장 저렴한 모델은 제미나이 1.5플래시였다. 갈릴레오는 “백만 달러당 프롬프트 토큰 비용은 플래시의 경우 0.35 달러였던 반면 클로드 3.5소네트의 경우 3달러였다”며 “백만 달러당 응답 토큰 비용은 플래시가 1.05달러, 클로드 3.5소네트는 15달러로 훨씬 두드러지게 차이가 났다”고 전했다.

오픈AI는 작년 11월 보고서에서는 전 분야 1위였으나 이번에는 단 한 분야에서도 최고를 기록하지 못했다. 갈릴레오는 이번 벤치마크에 대해 오픈소스 모델의 약진을 가장 큰 특징으로 꼽았다. 갈릴레오는 “폐쇄형 모델이 독점적인 훈련 데이터 덕분에 여전히 성능이 뛰어난 편이지만 제미나이나 라마, 큐원 등 오픈 소스 모델의 환각 성능이 지속적으로 개선되고 있다”고 분석했다.

조선비즈
content@www.newsbell.co.kr

댓글0

300

댓글0

[차·테크] 랭킹 뉴스

  • [지스타]그라비티, '라그나로크 3'과 함께 지스타 타이틀 간담회 진행
  • 르노‧벤츠도 반하더니 “돈뭉치 굴러온다”…한국 제품, 뭐길래?
  • [지스타]2000년대 게임 추억담은 다큐멘터리 '온 더 라인' 상영회 개최
  • 전극진·양재현 작가 "열혈강호 30년 연재, IP 가치 높인 게임 덕분"
  • 신차인데도 확 낮췄다 “놀라운 가격”… SUV 시장 치열한 경쟁 ‘예고’
  • “쏘렌토, 이제 긴장할 때”…곧 한국에 쏟아진다는 이 車, 정체가 뭐길래?

[차·테크] 공감 뉴스

  • 수능 국어영역에 AI 문항 등장…챗GPT에 물어보니
  • 중고차도 비싸서 못 샀는데 “희소식 전해졌다”… 최대 300만 원 파격 할인
  • [인터뷰] 팀이 있기에 이뤄낸 eN1 컵 초대 챔피언 - 쏠라이트 인디고 레이싱 박준의
  • 한국산 최고라더니 “드디어 날개 달았다”…중국하고는 ‘확연히 달라’
  • [지스타/넷마블] 원작 몰라도 OK…콘솔급 그래픽과 전투가 특징인 ‘왕좌의 게임: 킹스로드’ 시연기
  • 포르쉐와 손잡고 만든 車 “드디어 나온다 “… 8천만 원대 SUV 최고의 ‘선택지’

당신을 위한 인기글

  • 때로는 담백하게, 때로는 매콤하게! 취향저격하는 족발 맛집 BEST5
  • ‘맛’ 여행지로 좋은 서울 근교, 원주 맛집 BEST5
  • 수십가지 반찬으로 입이 떡 벌어지는 한정식 맛집 BEST5
  • 일본까지 가지 않아도 맛볼 수 있는 보물같은 야키토리 맛집 BEST5
  • [데일리 핫이슈] ‘유퀴즈’ 출격 로제, 뉴진스 내용증명 수령 어도어, 이영애 화해 거부
  • [오늘 뭘 볼까] 진한 페이소스를 느끼고 싶다면! 영화 ‘본인 출연, 제리’
  • [리뷰: 포테이토 지수 75%] 부성애와 오컬트 균형 잃은 ‘사흘’
  • NFL 경기 중계→’오징어 게임2′ 공개..넷플릭스 12월 ‘슈퍼 골든데이’ 노린다

함께 보면 좋은 뉴스

  • 1
    정재승·최재천 뜬다…모두투어, 대만과 일본 거치는 친환경 크루즈 선봬

    여행맛집 

  • 2
    “아, 옆집 팔 때 나도 팔걸”… 아파트값에 ‘속탄다’

    뉴스 

  • 3
    앙평 주민들의 다양한 활동과 경험의 장이 될 '지평 어울림센터' 운영 본격화

    뉴스 

  • 4
    침묵 중인 김나정, 필리핀서 마약 셀프 고백→곧바로 경찰 조사 [ST이슈]

    연예 

  • 5
    트럼프 귀환에… KIEP, 내년 세계 성장률 3.2% → 3.0% 하향 조정

    뉴스 

[차·테크] 인기 뉴스

  • [지스타]그라비티, '라그나로크 3'과 함께 지스타 타이틀 간담회 진행
  • 르노‧벤츠도 반하더니 “돈뭉치 굴러온다”…한국 제품, 뭐길래?
  • [지스타]2000년대 게임 추억담은 다큐멘터리 '온 더 라인' 상영회 개최
  • 전극진·양재현 작가 "열혈강호 30년 연재, IP 가치 높인 게임 덕분"
  • 신차인데도 확 낮췄다 “놀라운 가격”… SUV 시장 치열한 경쟁 ‘예고’
  • “쏘렌토, 이제 긴장할 때”…곧 한국에 쏟아진다는 이 車, 정체가 뭐길래?

지금 뜨는 뉴스

  • 1
    [지스타 2024] '구름인파' 속 사진으로 전하는 현장 스케치

    뉴스 

  • 2
    국민통합위 돌봄특위 출범…김한길 “이중근 회장 사회적 화두 던져…품격있는 돌봄 사회 기대”

    뉴스 

  • 3
    '김호중 방지법' 국회 통과…'술타기 수법' 법적 금지된다 [MD이슈]

    연예 

  • 4
    ‘만추를 즐기며 굿샷’…연천 재인폭포파크골프장 확장 조성 기념 대회 열려

    뉴스 

  • 5
    [지스타2024] ‘던파’ 후속작 ‘오버킬’, 어떻게 개발되나

    뉴스 

[차·테크] 추천 뉴스

  • 수능 국어영역에 AI 문항 등장…챗GPT에 물어보니
  • 중고차도 비싸서 못 샀는데 “희소식 전해졌다”… 최대 300만 원 파격 할인
  • [인터뷰] 팀이 있기에 이뤄낸 eN1 컵 초대 챔피언 - 쏠라이트 인디고 레이싱 박준의
  • 한국산 최고라더니 “드디어 날개 달았다”…중국하고는 ‘확연히 달라’
  • [지스타/넷마블] 원작 몰라도 OK…콘솔급 그래픽과 전투가 특징인 ‘왕좌의 게임: 킹스로드’ 시연기
  • 포르쉐와 손잡고 만든 車 “드디어 나온다 “… 8천만 원대 SUV 최고의 ‘선택지’

당신을 위한 인기글

  • 때로는 담백하게, 때로는 매콤하게! 취향저격하는 족발 맛집 BEST5
  • ‘맛’ 여행지로 좋은 서울 근교, 원주 맛집 BEST5
  • 수십가지 반찬으로 입이 떡 벌어지는 한정식 맛집 BEST5
  • 일본까지 가지 않아도 맛볼 수 있는 보물같은 야키토리 맛집 BEST5
  • [데일리 핫이슈] ‘유퀴즈’ 출격 로제, 뉴진스 내용증명 수령 어도어, 이영애 화해 거부
  • [오늘 뭘 볼까] 진한 페이소스를 느끼고 싶다면! 영화 ‘본인 출연, 제리’
  • [리뷰: 포테이토 지수 75%] 부성애와 오컬트 균형 잃은 ‘사흘’
  • NFL 경기 중계→’오징어 게임2′ 공개..넷플릭스 12월 ‘슈퍼 골든데이’ 노린다

추천 뉴스

  • 1
    정재승·최재천 뜬다…모두투어, 대만과 일본 거치는 친환경 크루즈 선봬

    여행맛집 

  • 2
    “아, 옆집 팔 때 나도 팔걸”… 아파트값에 ‘속탄다’

    뉴스 

  • 3
    앙평 주민들의 다양한 활동과 경험의 장이 될 '지평 어울림센터' 운영 본격화

    뉴스 

  • 4
    침묵 중인 김나정, 필리핀서 마약 셀프 고백→곧바로 경찰 조사 [ST이슈]

    연예 

  • 5
    트럼프 귀환에… KIEP, 내년 세계 성장률 3.2% → 3.0% 하향 조정

    뉴스 

지금 뜨는 뉴스

  • 1
    [지스타 2024] '구름인파' 속 사진으로 전하는 현장 스케치

    뉴스 

  • 2
    국민통합위 돌봄특위 출범…김한길 “이중근 회장 사회적 화두 던져…품격있는 돌봄 사회 기대”

    뉴스 

  • 3
    '김호중 방지법' 국회 통과…'술타기 수법' 법적 금지된다 [MD이슈]

    연예 

  • 4
    ‘만추를 즐기며 굿샷’…연천 재인폭포파크골프장 확장 조성 기념 대회 열려

    뉴스 

  • 5
    [지스타2024] ‘던파’ 후속작 ‘오버킬’, 어떻게 개발되나

    뉴스 

공유하기