오픈AI와 구글이 연이어 발표한 ‘개인화 AI 비서’ GPT-4o와 프로젝트 아스트라(이하 아스트라)는 영화에서나 보던 자연스러운 대화와 시각 인식 능력을 선보여 충격을 줬다. 실제 사용해본 두 AI 모델은 아직 완벽한 모습은 아니었으나, 음성·시야 인식으로 파편화 돼 있던 기존 생성형AI보다는 한 차원 높은 AI임을 즉각적으로 느낄 수 있게 했다.
|
14일(현지 시간) 구글 I/O 2024 현장에서 체험한 아스트라는 뛰어난 시각 인식 능력과 기억력·창의성을 보여줬다. 카메라에 개 두 마리의 사진을 비치며 각각의 이름을 알려준 후, 다른 곳에서 찍은 개들의 사진을 보여주니 어떤 개인지 인식하고 이름을 답했다. 단순히 ‘개’임을 인식하는 것을 넘어, 생김새의 특징과 이름을 기억할 수 있다는 의미다.
이번엔 공룡 인형과 사과와 도넛 모형을 제시해봤다. 도넛 위에 공룡을 올리면 도넛은 인식하지 못했다. 평면적인 시각 인식의 한계다. 공룡이 무엇을 먹고 싶어할지 묻자 “장난감 공룡이라 먹을 수 없다”고 답했다. “최대한 추정해보라”고 지시하자 “사과를 고를 것 같다. 사과가 더 달고 맛있다”는 답변이 나왔다.
공룡 인형을 눕혀 S자로 보이게 만들자 해마로 인식하기 시작했다. 말을 듣고 보니 위에서 내려다본 모습이 해마를 연상케 했다. 인식 오류지만 구글이 미리 준비한 예제를 읊는 게 아닌, 시각을 통해 물체를 추정한다는 방증이기도 하다. 게 인형과 실로폰 모형, 조개 껍데기를 두고 동화를 만들어보라 시켰다. 바다 속에서 홀로 외롭던 게가 조개를 만나, 가진 것이 실로폰 뿐이라며 음악을 연주하고 서로 친구가 되는 이야기를 지어냈다.
|
오픈AI가 하루 앞서 공개한 GPT-4o는 현재 음성 대화를 우선 제공 중이다. GPT-4o는 전례 없을 정도로 정확한 한국어 음성 인식을 자랑한다. 평소 말하듯 얘기했음에도 오류가 없었다. 성우가 말하듯 인간 같은 목소리로 대답하고, 대답을 끊고 말해도 무리 없이 이해했다. 말이 오가는 진정한 ‘대화’를 나누고 있다는 느낌이다. 다만 음악을 들려주며 “어떤 노래인 줄 아느냐”고 묻자 “소리를 들을 수 없으니 가사를 알려달라”고 했다. 자세한 설명을 요구하니 “음성이 글로 전달될 뿐 실제 소리는 들을 수 없다”고 답한다. 완전한 멀티모달이 아닌 셈이다. 멀티모달 성능에 대한 의구심은 남았으나, 현재로서는 출시 시점이 빠른 오픈AI의 손을 들어줄 수밖에 없었다. 구글 아스트라는 연말 출시가 목표다. 아스트라 지원 언어가 영어 뿐이라는 한계도 있다. 출시 시점의 지원 언어 확대와 성능 개선을 기대해본다.
댓글0