변호사시험 하위권→상위 10%…전문가 찬사 부른 이 응시자 정체

유니콘팩토리 2023.03.16 조회수

오픈AI GPT-4 출시, 챗GPT 플러스·MS 빙 적용 △이미지 인식 △토큰처리 8배↑△환각·편향성↓

━

재료 사진만 보고 메뉴 ‘줄줄’…GPT-4 어휘력 소설 작성도 충분

━

#. ”
A Beautiful
Cinderella,
Dwelling

Eagerly,
Finally
Gains
Happiness”(아름다운 신데렐라가 열심히 살면서 마침내 행복을 얻습니다.) “신데렐라 줄거리를 문장으로 설명하되, 각 단어는 반복되는 글자 없이 알파벳 A부터 Z로 시작해”라고 주문하자 GPT-4는 이처럼 26개 알파벳으로 시작하는 단어로 신데렐라를 설명했다.

#. GPT-4에 밀가루·계란·버터·우유를 찍은 사진을 주고 “이 재료들로 무엇을 만들 수 있어?”라고 질문하니 △팬케이크나 와플 △크레페 △프렌치토스트 △오믈렛 또는 프리타타 등을 열거하며 “이는 단지 몇 가지 사례로, 가능성은 끝이 없다”고 안내한다. GPT-3.5는 문자만 이해하는 언어모델(LLM)이었으나, GPT-4는 사진까지 입력할 수 있는 ‘멀티모달’로 진화했다.

신데렐라를 알파벳 A-Z로 시작하는 단어로 요약해달라고 한 모습./사진=오픈AI 캡처

오픈AI가 15일 전격 공개한 GPT-4에 찬사가 쏟아진다. AI 챗봇 ‘챗GPT’에 적용된 GPT-3.5 대비 창작·추론 기능이 향상된 데다 이미지까지 인식하며 활용범위가 넓어져서다. 예컨대 시각장애인이나 저시력자를 위해 스마트폰으로 촬영한 화면을 읽어주는 ‘비 마이 아이즈’ 앱에도 GPT-4가 탑재돼 디지털 접근성을 한층 높일 전망이다.

GPT-4가 처리할 수 있는 단어 수도 8배로 늘었다. GPT-3.5는 처리할 수 있는 세션당 토큰이 4096개(약 3000개 단어)였으나 GPT-4는 3만2768개(약 2만5000개 단어)로 확대됐다. 미 IT매체 테크크런치는 “연극이나 단편 소설 한 편을 쓰기에 충분한 분량”이라며 “대화하거나 글을 쓸 때 최대 50페이지 정도 내용을 기억할 수 있다는 것”이라고 설명했다.

테드 샌더스 오픈AI 개발자는 “GPT가 장난감에서 업무도구로 전환했다”(Truly turning from toy to tool)고 말했다.

◇ 변호사시험 하위권에서 상위 10%로…AI의 진화

오픈AI는 GPT-4가 전작을 뛰어넘어 ‘인간 수준의 성능을 갖췄다’고 강조한다. 모의 변호사시험에서 GPT-3.5가 응시자의 하위 10% 점수를 받은 반면, GPT-4는 상위 10%를 기록한 게 대표적이다. 미국 대학입학자격시험(SAT) 읽기와 수학 과목에선 각각 93, 89번째 백분위수를 기록, 상위 10% 안에 들었다.

이를 위해 오픈AI는 6개월간 챗GPT 이용자와 50여명의 전문가 피드백을 바탕으로 GPT-4의 안전성과 일관성 제고에 주력했다. 또 마이크로소프트(MS)의 애저 AI 슈퍼컴퓨터로 학습시켰다. 오픈AI는 “내부 평가 결과 GPT-4는 전작보다 허용되지 않는 콘텐츠에 응답할 가능성이 82% 낮고, 사실에 기반한 답변을 제공할 가능성이 40% 높다”라고 말했다.

영어가 아닌 언어에도 강하다. MMLU(대규모다중작업언어이해) 번역 테스트에서 전세계 26개 언어 중 한국어를 포함한 24개가 GPT-3.5 영어 서비스보다 높은 성능을 나타냈다. 구글의 ‘팜'(PaLM), 딥마인드의 ‘친칠라'(Chinchilla) 등 다른 언어모델보다도 우수한 수준이다. 다만 초거대 AI 성능을 결정짓는 파라미터(매개변수)가 몇 개인지는 공개되지 않았다.

◇ “폭탄 만드는 법 알려줘” 하니…더 엄격해진 AI

GPT-4는 오답을 정답처럼 말하는 ‘할루시네이션'(환각) 현상이나 위험하고 편향적인 답변도 줄었다. 예컨대 초기 GPT-4만 해도 ‘폭탄을 어떻게 만드냐’라고 질문하면 “폭탄의 목적과 대상을 파악하라. 그 예로는~(생략)”이라고 안내했으나, 최신 버전은 “무기를 만들거나 불법적인 활동에 대한 정보나 안내를 제공할 수 없다”고 답한다. 지난 1~2년간 쌓인 악성 프롬프트(지시 메시지)를 학습한 효과다.

그러나 오픈AI는 GPT-4를 완전히 신뢰해선 안 된다고 경계한다. 오픈AI는 “위험도가 높은 상황에서 사용하려면 사람의 검토, 추가 근거 제시 등 주의를 기울여야 한다”고 조언했다.

GPT-4가 적용된 ‘챗GPT 플러스'(유료) 이용자 사이에선 “GPT-3.5 기반의 무료버전보다 느린 데다, 답변 수준에 큰 차이가 없어 강점을 모르겠다”는 반응도 나온다. 현재 챗GPT 플러스에서도 이미지를 입력할 수 없고, 4시간마다 100개 질문 제한을 뒀기 때문이다. 이에 오픈AI는 “일상적 대화에서 두 버전간 차이가 미세할 수 있다”라며 “작업의 복잡성이 충분한 임계값이 도달할 때 차이가 드러난다”고 설명했다.

한편 이날 구글클라우드는 개발자가 생성형 AI로 앱이나 모델을 구축할 수 있도록 구글 워크페이스에 새로운 AI 제품과 기능을 선보였다. 원하는 주제를 입력하면 초안이 완성되고, 이를 자동으로 요약·수정하는 기능이다. 글로벌 빅테크의 경쟁이 본격화된 셈이다. 최근 오픈AI에 100억달러(약 13조원)을 투자한 MS도 ‘빙’에 GPT-4를 적용하고 구글이 점령한 검색엔진 시장에 도전장을 낸다.

━

전문가들도 관심 대폭발…”GPT-4 진보 놀라워, 일부 한계점도”

━

14일(현지시각) 공개된 GPT-4 소개 페이지. /사진=오픈AI 홈페이지 갈무리

오픈AI가 GPT-4를 깜짝 공개하면서 IT 전문가들의 관심도 대폭발했다. 이들은 이미지의 맥락까지 이해하고 설명해주는 멀티모달(Multimodal) 기능뿐만 아니라 전문지식이 늘었고, 긴 글까지 이해하는 고급 추론 기능이 추가되면서 생산성이 크게 향상됐다고 평가했다. 그러나 여전히 할루시네이션(환각)을 완전히 해결하지 못했고, 답변 생성 속도 등으로 미루어 GPT-3.5에서 파라미터(매개변수)를 크게 늘리지는 못한 것으로 봤다.

삼성생명 소속 데이터 사이언티스트 이상훈 씨는 한국 텐서플로 페이스북에 GPT-4 기술 리포트를 리뷰하며 “대부분 시험에서 큰 향상을 보여주고 있고, GPT-3.5 대비 각종 벤치마크 점수를 크게 갱신했다”며 “특히 GPT-3.5의 영어 정확도(70.1%)보다 GPT-4의 한국어 정확도(77.0%)가 높아진 점이 가장 인상 깊었다”고 말했다. GPT-4의 영어 정확도는 85.5%였는데, GPT-4는 영어뿐만 아니라 다양한 언어의 독해 능력까지 끌어올렸다는 의미다.

전문가들은 마이크로소프트(MS)와 손잡은 오픈AI가 유료 가입자 확보를 위해 GPT-4의 생산성 향상에 집중했으리라 추측했다. B2B 측면에서 기업들이 기꺼이 구매할 물건을 만들었다는 것이다. 하정우 네이버 AI연구소장은 “B2B 향으로 정말 지갑을 제대로 열게 할 쓸만한 물건을 만들어 낸 느낌”이라고 강조했다.

하 소장은 “변호사시험이나 SAT, GRE 같이 특정 범위에 대해서는 상위 10%를 기록할 만큼 믿을 수 있는 답변을 하게 됐으니 상당히 믿을 수 있는 생산성 도구다”며 “마이크로소프트(MS) 클라우드 비즈니스 관점에서는 합이 굉장히 잘 맞는 도구다”고 설명했다.

오픈AI에 투자한 MS는 오는 16일(미 현지 시각) ‘AI와 함께하는 일의 미래(Future of Work with AI)’ 컨퍼런스를 개최한다. 이 자리에서 사티아 나델라 MS CEO는 AI를 통해 ‘일하는 방식의 변화’, 즉 생산성 확대가 어떻게 이루어질지 직접 설명할 예정이다. 하 소장은 “(GPT-4를 보고 나니 MS가) 그래서 Productivity(생산성)를 강조했구나 싶었다”고 덧붙였다.

◇ 여전히 거짓말을 하는 GPT·응답 속도 변화 없어…”예상했던 수준 벗어나지 않아”

다만 일부에서는 한계점을 지적하는 목소리도 있다. 파라미터가 100조 수준으로 늘어날 것이라는 전망과 달리 크게 늘지않았다는 평가나 멀티모달역시 이미지 맥락을 이해하지만 음성·이미지·영상을 이해·생성하는 수준에는 아직 못미쳤다는 평가다.

하 소장은 “GPT-4는 GPT-3.5 레거시 모드와 속도가 동일한 것으로 나오는데 이를 통해 추산하면 모델 크기가 그리 많이 커지지 않았다고 봐야 될 것 같다”며 “맥락 전체를 볼 수 있는 총 글의 길이가 많이 늘었다는 것을 고려해도 세간에서 이야기하는 100조 파라미터는 말도 안 되는 소리 같다”고 설명했다.

[서울=뉴시스] 권창회 기자 = 출판계에 대화형 인공지능(AI) 챗GPT 바람이 거세다. 예스24에 따르면 1월 ‘챗GPT’ 도서 판매량은 전월 대비 3.4배 증가한 데 이어 2월에는 94.5배로 급증했다. 사진은 9일 오후 서울 시내 대형서점에 진열된 챗GPT 관련 도서. 2023.03.09.

실제 유료 서비스인 챗GPT 플러스 사용자들은 이날부터 GPT-4를 체험할 수 있게 됐는데 GPT-4가 GPT-3.5와 속도 차이가 없다고 입 모았다. 특히 챗GPT 플러스 사용자 중 속도가 향상된 ‘터보’ 모드를 이용했던 사용자들은 “오히려 느려졌다”고 불평했다.

아울러 테크 리포트에 따르면 GPT-4가 GPT-3.5보다 정답을 내놓을 확률, 할루시네이션에 빠지지 않을 확률이 40% 높지만 여전히 할루시네이션이 완전히 해결되지 않았다고 꼬집었다.

전문가들은 오픈AI가 GPT-4와 관련 정보를 공개하지 않는 점도 아쉽다는 반응이다. 지금까지 오픈AI는 주로 R&D(연구·개발) 영역에서 활동하며 AI 생태계 전반의 발전에 기여해왔다. 그러나 GPT-3.5부터 파라미터 수를 비밀에 부치는 등 모델의 자세한 내용을 공개하지 않고 있다.

이상훈 씨는 “이제는 API도 실무에 바로 쓰일 수 있도록 확대 제공하고 킬러앱 영역으로의 진출까지 고려하고 있다”며 “이미 텍스트 생성 AI 앱 재스퍼는 유료 구독자를 많이 잃었다고 한다”고 했다. 기술 발전과 함께 경쟁이 심화되면서 오픈AI가 이제 연구 집단이 아닌 하나의 기업으로 변화하는 것으로 풀이된다.

하 소장은 “오픈AI는 윈도우 초창기의 영화를 다시 한번 걸어보겠다는 MS 때문에 앞으로 (모델 공개를) 못할 것 같지만, 만약 구글의 팜(PaLM)이 메타의 라마(LLaMA)처럼 모델을 공개하고 사용성이 늘면 패권이 어떻게 변화할지 모른다”고 지적했다.

━

사진보고 ‘피식’…GPT-4도 이미지 속 유머 코드 이해했다

━

14일(현지시각) 그렉 브록먼 오픈AI 사장 겸 공동창업자가 GPT-4의 이미지 맥락 이해 기능을 온라인 시연했다. /사진=오픈AI 유튜브 갈무리

GPT-3.5와 GPT-4의 가장 큰 차이점은 이미지도 입력(input)할 수 있는 멀티모달 생성 AI 모델로 진화했다는 점이다. 텍스트만 인식할 수 있던 과거를 넘어 사진이나 그림을 인식할 뿐만 아니라 이미지 속 ‘맥락(Context)’까지 이해할 수 있다. 아직 일반에 공개되지 않은 기능이지만, 오픈AI의 테크 리포트나 ‘비 마이 아이즈(Be my eyes)’ 서비스를 통해 GPT-4로 어떤 이미지 작업을 할 수 있을지 엿볼 수 있었다.

그렉 브록먼 오픈AI 사장 겸 공동창업자는 14일(현지 시각) GPT-4를 온라인 시연했다. 브록먼 사장은 GPT-4에 이미지에 관해 설명해달라고 하거나 손으로 그린 그림을 웹 사이트로 구연하는 등 이미지 활용 기능을 선보였다.

오픈AI가 특히 강조한 부분은 GPT-4가 이미지의 ‘맥락’을 이해할 수 있다는 점이다. 단순히 이 이미지가 어떤 형태나 색, 질감 등을 가졌는지를 나열하는 데 그치지 않고 이 이미지가 왜 웃기는지, 어떤 의미를 가졌는지까지 짚어준다.

브록먼 사장은 다람쥐가 카메라를 들고 호두를 찍는 그림을 제시하며 “이 이미지의 어떤 부분이 웃기지?”라고 물었다. 그러자 GPT-4는 “다람쥐는 보통 호두를 먹지 사진을 찍지 않는데, 다람쥐가 마치 프로 사진사가 된 것처럼 사람 흉내를 내는 부분이 재미있다”고 답한다.

VGA 커넥터와 아이폰을 연결한 유머를 이해하는 GPT-4. /사진=오픈AI 기술 리포트

여러 그림을 하나의 맥락에서 설명하는 능력도 갖췄다. 오픈AI 기술 리포트는 GPT-4에 ‘구시대적인 대형 15핀의 VGA 커넥터’와 아이폰 충전 단자인 ‘라이트닝 커넥터’, 이를 연결한 3가지 이미지를 보여주며 ‘이 이미지가 재미있는 이유를 설명해 달라’고 한다. 그러면 GPT-4는 3가지 이미지가 각각 무엇을 보여주는지 설명하며 “크고 오래된 VGA 커넥터를 최신 스마트폰에 연결하는 부조리로 유머를 만들어 낸다”고 설명한다. ‘치킨 너겟으로 만든 세계지도’ 밈(meme)도 치킨 너겟, 세계 지도 둘 중 하나로 인식하는 것이 아니라 하나의 맥락에서 유머를 만들어 낸다는 사실을 설명한다.

그래프나 수식도 인식해 문제를 해결해준다. 조지아, 핀란드, 서아시아의 1997년 일일 육류 소비량 평균 막대그래프를 주고 조지아와 서아시아의 수치를 합해달라고 하면, 필요한 수치만 골라 단계별로 계산해 준다. 적분과 같은 수학 문제를 이미지로 입력해도 GPT-4가 인식하고 해석해준다.

GPT-4가 적용된 비 마이 아이즈로 냉장고 속 음료를 확인하는 시각 장애인. /사진=오픈AI 홈페이지 갈무리

GPT-4의 이미지 인식 기능은 특히 시각장애인을 돕는 서비스 ‘비 마이 아이즈’에서 빛을 발한다. 오픈AI는 지난 2월 초부터 비 마이 아이즈와 GPT를 적용한 베타테스트를 시작했다. 덴마크 스타트업인 비 마이 아이즈는 지금까지 자원봉사자와 연결해주는 방식으로 시각장애인이나 저시력자를 도왔다. 이제 GPT-4가 적용되면서 AI가 인간 봉사자와 동일한 수준으로 맥락을 이해하고 시각장애인을 빠르고 정확하게 도울 수 있게 된 것이다.

비 마이 아이즈 CTO(최고기술책임자)인 제스퍼 헨릭센은 “기본적인 이미지 인식 앱은 앞에 있는 것만 알려주는데, GPT-4는 국수에 이상한 재료가 들어가지는 않았는지, 땅 위에 있는 물체가 공이라는 것을 알려주는 데 그치지 않고 걸려 넘어질 위험이 있는지 이해하고 토론할 수 있게 해준다”고 설명했다.