카나나 플래그 통해 50% 이상 학습 비용 절감 입증…멀티모달 성능에도 주목

카카오가 올해 상반기 텍스트 외에도 이미지·음성을 인식할 수 있는 멀티모달 생성형 인공지능(AI) 모델을 공개한다. 또 연내 카나나 모델에 추론 성능도 업데이트 할 계획이다. 카카오는 최근 언어 모델 라인업을 완성하면서 타사 모델 대비 50% 적은 비용으로 비슷한 성능을 구현했다. 향후 공개할 멀티모달, 추론 AI 모델도 효율적인 성능을 발휘할 지 주목된다.
4일 업계에 따르면 카카오는 올해 상반기 안에 통합 멀티모달 언어 모델인 ‘카나나-o’의 성능 평가 결과를 공개할 계획이다. 카나나-o는 카카오가 공개한 멀티모달 모델 중 가장 성능이 뛰어난 모델이다. 내부적으로 개발은 거의 완성 단계에 있는 것으로 알려졌다. 이미지 이해 성능 평가에서 한국어·한국 문화에 특화된 성능을 갖추는 등 카카오의 기대작으로 꼽힌다.
카카오는 연내 추론 모델 성능도 공개할 계획이다. AI 추론은 모델을 새롭고 보이지 않는 데이터에 적용해 의미 있는 예측이나 결정을 도출하는 기술이다. 딥시크의 R1, 오픈AI 챗GPT의 o3 미니 모델이 추론 기능을 적용했다. 향후 생성형 AI 모델의 필수 기능으로 꼽힌다. 카카오는 독자 추론 모델이 아닌 카나나 모델에 추론 기능을 강화하는 방식으로 기능을 접목한다.

카카오는 지난달 27일 초거대 언어 모델 ‘카나나 플래그’의 성능을 공개하면서 중소형 언어 모델 ‘카나나 에센스’, 초경량 언어 모델 ‘카나나 나노’와 함께 언어 모델 라인업을 완성했다. 초경량에서 초거대 언어 모델까지 라인업을 갖추면서 적은 비용을 투입하면서 효율적으로 성능을 구현했다.
특히 카나나 플래그는 단계적인 학습 방식을 거쳐 타사 모델 대비 50% 이상 학습 비용을 절감했다. 정교한 기법을 동원해 개발한 만큼 효과적으로 성능을 구현할 수 있었다. 카카오가 글로벌 논문 사이트 아카이브에서 공개한 테크니컬 리포트에 따르면 카나나 플래그는 크게 ‘사전 학습(Pre-training)’과 ‘사후 학습(Post-training)’ 과정을 거쳐 개발됐다. 이 과정에서 학습 자원을 최적화하는 기법을 적용했다.
특히 ‘사후 학습’ 단계에서는 32.5B 크기를 기반으로 AI 비서로서 능력을 끌어올리기 위해 추가 학습을 진행했다. 그 결과 수학 능력, 안정성, 코드 생성능력, 대화 일관성, 명령에 대한 수행 등을 집중적으로 개선했다. 구체적으로 추가 학습에서는 3단계 학습 과정을 거쳤다. 사용자 명령을 잘 이해하고 수행하는 능력을 강화하기 위해 고품질의 명령·응답 데이터셋을 활용한 지도학습(SFT)을 수행했다. 다양한 명령에 대해 생성된 여러 응답 중 선호도에 기반해 더 좋은 응답의 확률을 높이는 ‘선호 최적화(Preference Optimization)’ 방식도 적용했다.
카카오는 ‘딥시크 쇼크’가 세계를 강타하기 전인 지난해부터 효율적인 생성형 AI 개발 전략을 강조했다. 이 같은 방향성 아래 개발을 이어오면서 성과가 나타나고 있는 것으로 풀이된다. 개발 향후 카카오가 향후 멀티모달, 추론 모델에서도 비용 효율적인 방식으로 개발할 수 있을지 주목된다.
카카오 관계자는 “향후 카나나 모델에 다양한 최신 기술을 접목하며 고도화를 이어가겠다”고 밝혔다.


변상근 기자 sgbyun@etnews.com
댓글0