[비즈니스포스트] 오픈AI가 사람처럼 듣고 말할 수 있는 생성형 인공지능(AI) 모델을 선보였다.
회사는 14일 오전(현지시각으로 13일) ‘봄 업데이트’ 온라인 행사를 열고 멀터모달 기술을 적용한 새 플래그십 생성형 AI 모델 ‘GPT-4o(지피티 포오)’를 공개했다.
알파벳 o(omni)는 ‘전능하다’는 뜻의 ‘옴니’에서 따왔다.
GPT-4o는 주로 텍스트를 통해 대화할 수 있었던 기존 AI모델과 달리 청각과 시각으로도 추론하고 이를 음성으로 표현할 수 있다는 특성을 가진다. 말로 물어보면 사진이나 그래픽 등을 보여주면서 다양한 말투로 말로 대답한다.
이용자와 실시간 음성 대화를 하면서 이용자 표정을 분석해 질문하고 답변까지 받을 수 있다.
이 AI모델의 응답시간은 최소 232밀리초(1천분의 1초), 평균 320밀리초로 사람의 커뮤니케이션 속도와 비슷한 수준을 보여준다.
성능 뿐만 아니라 효율성 역시 향상됐다.
오픈AI는 GPT-4o 모델이 2023년 11월 출시된 ‘GPT-4 터보’보다 두 배 더 빠르고 비용은 2분의 1 수준이라고 설명했다.
한국어 토큰 효율도 기존보다 1.7배 높아졌다고 밝힌 만큼 한국어 서비스의 품질과 속도도 향상될 것으로 보인다.
오픈AI는 GPT-4o를 무료로 공개하며 GPT-4o의 텍스트 및 이미지 기능은 이날부터 챗GPT에 적용하기로 했다. 유료 사용자는 5배 많은 사용량을 할당받는 식으로 운영된다.
회사는 향후 몇 주 내 챗GPT 플러스에 GPT-4o가 포함된 새로운 버전의 음성 모드를 출시하기로 했다.
회사는 한국어 등 50개 언어에 대한 챗GPT 품질과 속도가 향상됐고, 이날부터 개발자들이 GPT-4o를 사용해 애플리케이션을 구축할 수 있도록 오픈AI의 API(응용 프로그램 인터페이스)를 이용할 수 있다고 밝혔다.
이날 발표를 진행한 미라 무라티 오픈AI 최고기술책임자는 “GPT4o는 GPT4 수준의 지능을 제공하지만 훨씬 빠르고 텍스트와 영상, 오디오에 걸쳐 능력이 향상됐다”며 “지난 몇 년간 우리는 AI모델들의 지능을 향상시키는 데 매우 집중했지만 사용의 편리함 면에서 큰 진전을 이루는 것은 이번이 처음이다”라고 말했다. 조충희 기자
댓글0