IBM, 오는 7월 AI 및 데이터 플랫폼 ‘왓슨X’ 공개
구글, LLM 고도화…메타는 멀티모달 AI 모델 선봬
글로벌 빅테크의 생성형 AI 경쟁이 백가쟁명식으로 과열되고 있다. 구글이 수학 문제도 풀고 코딩도 하는 최신 LLM(거대언어모델) 공개를 예고한 가운데, 왕년의 AI 강자 IBM도 ‘왓슨’으로 생성형 AI 시장에 뛰어들었다. 메타도 이미지뿐 아니라 소리·심도·움직임 등 6가지 정보를 결합할 수 있는 멀티모달 AI 모델을 공개했다.
9일(현지시간) IBM은 연례 기술 컨퍼런스인 ‘씽크 2023’에서 AI 및 데이터 플랫폼 ‘왓슨X’를 발표했다. 현재 비공개 베타 테스트 중으로 오는 7월 정식 공개할 예정이다. 왓슨X는 2011년 미국 인기 퀴즈쇼 ‘제퍼디’에서 왓슨이 인간을 꺾고 우승한 지 10여 년 만에 새롭게 출시된 AI 플랫폼이다. 각 기업이 AI 모델을 구축·학습·확장할 수 있는 도구로 구성됐다.
과거 IBM은 왓슨을 선보이며 AI 시장의 문을 열었으나 수익성 개선에 실패하면서 관련 사업도 주춤해졌다. 왓슨이 ‘돈 먹는 하마’로 전락한 것이다. 2015년 출시후 약 40억달러를 쏟아부은 의료용 AI 사업부 ‘왓슨 헬스’도 지난해 초 매각했다. 그러나 챗GPT로 시작된 생성형 AI 열풍으로 AI를 도입하려는 기업이 늘자, 왓슨을 부활시킨 것이다.
아빈드 크리슈나 IBM 최고경영자(CEO)는 컨퍼런스에서 “각 기업이 만들고 싶은 AI 모델을 왓슨X에 주문할 수 있다”라며 “왓슨X는 전체 업무량의 30~50%를 쉽게 처리하고 사람 이상으로 능숙하게 수행하는 등 반복적인 백오피스 프로세스를 대체할 것”이라고 말했다. 이어 “올해 왓슨X 도입을 시작으로 3~5년 내 완전히 성과를 나타낼 것”이라고 강조했다.
소리, 동작까지…진짜같은 가상세계 온다
━
이날 메타도 새로운 오픈소스 AI 모델 ‘이미지바인드'(ImageBind) 연구논문을 공개했다. 이는 △시각적 데이터(이미지·비디오) △열화상(적외선 이미지) △텍스트 △오디오 △3D 심도 △관성측정장치(Inertial Measurement Units, IMUs) 등 6가지 유형의 데이터를 하나의 임베딩 공간에 결합하는 최초의 AI 모델이다.
예컨대 메타의 AI 이미지 생성 도구 ‘메이크어신’은 이미지바인드를 활용해 열대우림 소리나 혼잡한 시장 음성을 기반으로 이미지를 생성하는 등 오디오가 포함된 이미지를 만들 수 있다. 미 IT매체 더 버지는 “‘장거래 항해’를 에뮬레이트(모방)해달라고 요청하면 파도 소리뿐 아니라 발밑의 갑판 흔들림과 시원한 바닷바람까지 느낄 수 있게 해줄 것”이라고 평가했다.
향후 메타는 촉각, 화법, 후각, 뇌 fMRI(자기공명영상) 신호와 같은 많은 감각을 연결해 AI가 인간처럼 다양한 정보를 동시에 학습할 수 있게 한다는 방침이다. 메타는 “모든 유형의 데이터로부터 학습하는 멀티모달 AI 시스템을 만들기 위한 노력의 일환”이라며 “3D 및 IMU 센서를 결합해 몰입형 가상세계를 설계하는 등 새로운 시스템을 개발할 수 있다”라고 말했다.
MS에 뺐긴 AI 주도권, 구글 되찾아올까
━
구글도 10일~11일(현지시간) 열리는 개발자 대회(I/O)에서 오픈AI의 GPT-4에 대항할 차세대 LLM(거대언어모델) ‘팜2(PaLM2)’를 공개한다. 지난해 4월 출시된 팜(PaLM)’의 업그레이드 버전으로, 광범위한 코딩을 짜고 복잡한 수학 문제도 해결하는 것으로 전해졌다. 구글 AI 챗봇 ‘바드’ 모델을 람다(LaMDA)에서 팜2로 교체할 가능성도 제기된다.
구글은 바드의 멀티모달 버전인 ‘멀티바드’도 개발, 텍스트뿐 아니라 이미지·음성 등 다양한 형태의 콘텐츠를 입력·생산할 수 있는 멀티모달 모델도 기대된다. 마이크로소프트의 ‘MS 365 코파일럿’에 맞서 업무용 AI 도구 ‘구글 워크스페이스 AI 콜라보레이터(collaborator)’도 발표한다. 구글이 MS와 오픈AI 연합에 뺏긴 생성형 AI 주도권을 되찾을지 관심이 쏠린다.
댓글0