[2024 대한민국 AI 혁신의 해]⑤ 트웰브랩스, 영상 AI 모델서 독보적 입지…”구글·오픈AI와 경쟁 자신 있어”

아주경제 2024.02.19 조회수

트웰브랩스가 지난해 11월 공개한 초거대 영상언어 생성 모델 페가수스-1의 모습 사진트웰브랩스 — 트웰브랩스가 지난해 11월 공개한 초거대 영상언어 생성 모델 ‘페가수스-1’의 모습. [사진=트웰브랩스]

국내 인공지능(AI) 스타트업인 트웰브랩스가 올해 본격적인 사업 확대에 나선다. 지난 2021년 창립한 트웰브랩스는 멀티모달 신경망 기술을 바탕으로 영상 요약·분석을 해 주는 AI 모델을 자체 개발하는 기업이다. 전 세계에서 몇 안 되는 영상 특화 AI 모델을 만든다는 점에서 창립 첫해부터 전 세계적인 주목을 받았고, 챗GPT로 생성 AI가 부각되면서 트웰브랩스 영상 기반 모델의 가치는 더욱 커졌다.

최근 생성 AI가 구현하는 멀티모달(텍스트는 물론 이미지·사운드·동영상 등 다양한 종류의 데이터를 동시에 처리할 수 있는 기능)이 더욱 주목받고 있다. 현재 생성 AI 시장을 이끌고 있는 오픈AI와 구글은 물론 전 세계 여러 AI 기업들이 멀티모달 역량을 빠른 속도로 끌어올리기 위해 노력하고 있다. 그러나 아직 영상 관련 멀티모달 기술 발전 속도는 이미지·음성 등에 비해서는 다소 더디다는 평가다. 트웰브랩스는 해당 분야에서 눈에 띄는 성과를 내며 글로벌 빅테크 기업들과도 차별화되는 기술력을 내세우고 있다.

독자적인 영상언어모델 기술력으로 엔비디아·인텔도 ‘매료’

트웰브랩스는 지난해 10월 엔비디아와 인텔, 삼성 넥스트 등으로부터 1000만 달러(약 140억원) 규모의 투자 유치에 성공했다. 특히 엔비디아가 한국 스타트업에 직접 투자한 첫 사례라는 점에서 국내는 물론 해외에서도 크게 주목받았다. 이전에도 트웰브랩스는 국내 기업으로는 유일하게 2022년과 2023년 2년 연속 ‘CB 인사이츠 AI 100’에 선정됐고, 미국 비즈니스 인사이더가 선정하는 ‘최고 유망 AI 스타트업 34’에도 선정되는 등 꾸준히 해외 업계의 주목을 받아 왔다.

트웰브랩스는 생성 AI가 본격적으로 화두로 떠오르기 전부터 이미 기술력을 인정받아 왔다. 회사가 개발한 언어모델은 영상 속 음성 언어, 시각 정보, 등장인물, 문자 등 다양한 정보를 총괄적으로 이해함으로써 영상 내 특정 구간까지 구체화한 검색 결과를 제시할 수 있도록 했다. 이를 통해 긴 영상 속에서도 필요한 정보만을 검색할 수 있도록 했다. 이재성 트웰브랩스 대표는 아주경제와의 서면인터뷰에서 “일찍이 텍스트·이미지 분야 대비 영상 분야의 한계점과 기회를 빠르게 파악했고, 이를 보완하기 위한 기술적 접근 방식을 착안해 본격적으로 사업을 전개했다”고 말했다.

사진트웰브랩스 — 트웰브랩스는 지난 2022년 CB 인사이츠가 선정한 ‘CB 인사이츠 AI 100’ 기업에 국내 기업으로는 유일하게 선정됐다. [사진=CB 인사이츠]

지난해 11월에는 영상언어 생성 모델인 ‘페가수스-1’을 얼리 액세스(앞서 해보기) 형태로 공개했다. 자체 개발한 800억파라미터(매개변수) 규모의 언어모델을 바탕으로 영상 요약, 영상 기반 질의응답 등 비디오와 텍스트(Video to text) 소통을 가능하게 한다. 이번 모델 개발을 위해 자체적으로 구축한 3억개 이상의 영상-텍스트 페어로 구성된 데이터셋 중 약 3500만개 분량을 활용했다. 회사 측에 따르면 현재까지 공개된 최고 성능 영상언어 모델 대비 최대 61%의 성능 우위를 보인다.

트웰브랩스 영상언어 생성 모델의 가장 큰 강점으로는 압도적으로 빠른 영상 분석 능력이 꼽힌다. 기존에는 특정 상황에 대한 영상별 언어모델을 만드는 데 4~6개월의 시간이 걸렸다. 데이터 수집과 라벨링에만 2~3개월이 소요되며 이를 토대로 모델에 대한 학습을 하고, 이를 배포하는 데 2~3개월이 추가로 필요하다. 각 상황별로 데이터셋을 별도로 구축해야 한다는 점을 감안하면 기간은 더욱 늘어난다. 트웰브랩스는 이 기간을 대폭 단축했다. 영상 내 각종 정보를 AI가 분석해 맥락을 이해하고, 이를 기반으로 한 AI 모델을 구축하면 모델이 배포되기까지의 시간을 하루~이틀 정도로 줄일 수 있다는 것이다.

이재성 대표는 “영상은 굉장히 복잡한 형태의 멀티모달 데이터로, 언어·이미지·등장인물 등 다양한 유형 정보의 집합체이고 이를 통합적으로 추론해야 고차원적 추론이 가능하다”며 “이를 상용 수준으로 구현한다는 것은 기술적으로 매우 어렵다”고 설명했다.

그는 “트웰브랩스는 ‘영상 표현(Video Representation Learning)’ 연구와 ‘영상언어 정렬(Video Language Alignment)’ 연구를 통해 마치 사람이 영상을 보고 언어적으로 풀어내는 것과 유사한 접근법을 택했다”며 “고도의 인공지능 모델과 엔지니어링 간의 최적화 작업을 통해 안정적으로 대화 내용, 시각 정보, 화면 내 텍스트 등 다양한 정보 유형들을 복합적으로 이해할 수 있도록 했다”고 강조했다. 즉 영상의 다양한 정보를 토대로, 마치 사람처럼 영상의 맥락을 이해하는 방식이라는 의미다.

트웰브랩스가 꼽는 경쟁사는 다름아닌 오픈AI와 구글이다. 멀티모달 구현의 중요성이 커지고 있는 상황에서 오픈AI의 ‘GPT’ 모델과 구글의 ‘제미나이’ 모델 역시 관련 역량 강화에 힘쓰고 있기 때문이다. 오픈AI는 지난해 10월 GPT-4V를 공개하고 텍스트 외 이미지·동영상 정보 처리에 특화된 초거대 멀티모달모델(LMM)의 시대를 열었다. 구글 역시 제미나이(Gemini) 1.0 울트라와 제미나이 1.5 프로를 잇따라 공개하며 맞불을 놓았다. 이 중 구글이 지난 15일(현지시간) 공개한 ‘제미나이 1.5 프로’는 1시간 분량의 동영상 정보를 한 번에 처리할 수 있다는 점을 내세운다.

다만 아직 GPT-4V는 본격적인 영상 분석에 어려움을 겪고 있다는 평이 많다. 영상 길이가 분 단위로만 가도 제대로 된 답변을 내놓지 못하는 경우가 잦기 때문이다. 멀티모달 역량을 강화한 제미나이에 대해서도 트웰브랩스는 “영상이해 작업 수행에 있어 성능 우위를 보이고 있다고 내부적으로 판단하고 있다”고 분석했다. 트웰브랩스의 이러한 성과는 경쟁사 대비 훨씬 적은 규모의 자금과 인원으로 내고 있는 성과라는 점에서 더욱 의미가 있다는 평가다.

“앞으로 영상 데이터 비중 더욱 늘어나…영상언어모델 가치도 커질 것”

글로벌 시장조사업체인 IDC에 따르면, 2025년 전 세계에서 생산되는 디지털 정보량은 175제타바이트(ZB·1ZB는 1조1000억 기가바이트)에 이를 것으로 보인다. 이 중 상당수는 영상 데이터가 차지할 전망이다. 실제 시장조사업체 마켓리서치퓨처에 따르면 글로벌 클라우드 비디오 스트리밍 시장 규모는 2022년 4730억 달러에서 2028년 1조6990억 달러까지 성장할 것으로 추산된다. 동영상 플랫폼·온라인동영상서비스(OTT) 등의 수요가 지속적으로 증가하는 데 따른 영향이다. 여기에 앞으로 자율주행과 로보틱스, 가상현실(VR) 등 미래 산업이 발전하면 영상 데이터의 활용도는 더욱 높아질 가능성이 크다.

그런 만큼 트웰브랩스는 영상 데이터를 손쉽고 빠르고 이해하는 모델의 가치가 더욱 올라갈 것이라고 보고 있다. 영상을 이해하는 하나의 초거대 모델을 토대로, 영상과 관련된 모든 작업들을 자동화하는 것이 트웰브랩스가 추구하는 영상 AI의 미래다. 이미 영상이 많이 활용되는 영역은 물론, 앞으로 영상이 많이 활용될 다양한 영역에서 영상 분석 AI의 쓰임새가 늘어날 것으로 트웰브랩스는 예상한다.

트웰브랩스가 현재 주로 집중하는 영역은 스포츠, 미디어·엔터테인먼트, 물리보안 영역이다. 대표적으로 물리보안 영역에서 트웰브랩스는 지난해 8월 과학기술정보통신부, 세종시, 한국인터넷진흥원(KISA)과 CCTV 영상관제 지능화 실증 사업을 함께 진행했다. CCTV 영상에 나타나는 이상행위 탐지·알람 기술을 세종시 CCTV 통합관제센터에 실증하는 데, 트웰브랩스의 영상이해 솔루션을 활용했다. 스포츠 분야에서는 미국 내셔널풋볼리그(NFL)가 보유한 100년치의 미식축구 경기 영상들을 토대로 새로운 콘텐츠를 빠르게 생산하고 경기 운영을 보조하는 등의 역할을 시도했다.

이재성 대표는 “향후 다양한 분야에서 영상 분석 AI가 활용될 것으로 보고 있다”며 어떤 산업이든 결국 어느 시점에는 저희 기술을 활용해 작업 시간을 단축시키거나, 새로운 가치들을 창출하는 데 활용될 수 있을 것”이라고 자신했다.

“트웰브랩스 영상이해 기술, 하반기부터 본격 확산 추진”

트웰브랩스는 지난해 ‘페가수스’의 알파 버전을 미국 내 얼리액세스 고객들을 대상으로 공개했다. 조만간 이를 보다 고도화한 베타 버전을 리서치 커뮤니티 등을 통해 선보이겠다는 계획이다. 개선된 모델에서는 현존하는 영상이해 기술 대비 성능적 우위를 보이는 모델을 상용 수준으로 제공해 다양한 산업 현장에서 트웰브랩스의 모델이 보다 활발하게 활용되도록 하는 것이 목표다. 특히 ‘모션 이해(Motion Understanding)’ 역량을 보강해, 세세한 행동이나 방향성 등을 인지하는 인지 기능을 강화했다는 점이 특징이다.

이재성 대표는 “올해는 모델의 상용화에 박차를 가하며, 실증 사업들을 기반으로 초거대 모델 기반 영상이해 기술을 핵심 산업들에 최적화·고도화하고 하반기부터 본격적으로 확산을 추진할 계획”이라며 “현존하는 영상언어 초거대 모델들이 수행하지 못하는 세세한 수준의 어려운 작업들을 해낼 수 있는 모델을 만드는 데 집중할 예정”이라고 말했다.

트웰브랩스는 앞으로 오픈AI·구글 등과의 기술 경쟁이 더욱 격화될 것으로 보고 이에 대한 만반의 준비를 해 나가겠다는 방침이다. 그간 쌓아온 모델, 데이터에 대한 노하우, 영상 처리를 위한 강력한 인프라 등 영상이해 문제를 풀기 위한 부분에 모든 것이 최적화돼 있어, 영상언어 모델 분야에서 만큼은 빅테크 기업들과 비교해도 충분한 경쟁력을 지속할 것이라는 자신감이다.

이재성 대표는 “저희의 원천 기술이 최종 사용자(엔드 유저)까지 흘러가는 데 있어 참여하는 다양한 이해관계자들과 긴밀하게 소통해 나가며 확장성 있는 사업 구조를 만들고자 한다”며 “사용자들과도 직접적으로 협력해 나가며 필요한 부분들을 지속적으로 파악하고 이를 제품과 모델에 잘 녹여내 빠르게 최적화·고도화 작업을 전개해 나가고자 한다”고 강조했다. 이를 토대로 그간 쌓아온 트웰브랩스의 기술력을 실제 산업 현장에서 빠르게 확산하겠다는 목표다.