생성형 인공지능(AI)이 단기간 대세 기술로 자리매김했다. 챗GPT를 시작으로 초거대 언어모델(LLM)은 단순히 챗봇의 성능을 향상시키는 수준을 넘어 사람의 개입이 필요했던 업무에 도입돼 수많은 혁신을 일으키고 있다. 창의적인 결과물을 제공한다는 점과 사용자의 의도를 이해하며 실제로 존재할 법한 결과를 제시한다는 점에서 기존 기술과 큰 차별성을 가지고 있다. 우리가 집중해야 할 부분은 창의성보다 후자 쪽이다.
사용자의 의도를 파악하는 과정은 전달된 문장이나 정보를 추상화시켜 하나의 맥락 벡터(Context Vector)를 만들어내는 방식으로 발전했다. 다만 추상화되는 경우의 수는 우리가 상상하는 수준 이상으로 방대하다. 이 맥락을 이해하기 위해 시계열분석이나 Attention 같은 이론들이 도입됐고 딥러닝 기술을 통해 복잡한 맥락도 얼마든지 추출 가능하도록 발전했다.
아울러 존재할 것 같은 결과물을 만들어내고자 학습에 이용된 자료들을 통해 자료의 분포를 파악하는 기술이 발전했다. 이를 ‘매니폴드(Manifold)’라고 한다. 발생할 수 있는 모든 경우에서 실제 데이터가 존재할 수 있는 공간으로 축소한 공간이 매니폴드고, 이 공간 안에서는 대부분 존재할 것 같은 자료들이 분포해 있다. 제공된 정보와 통제 범위 안에서 현실에 존재할 것 같은 결과물로 만드는 과정을 AI가 대체할 수 있다는 의미다. 이를 통해 우리는 다양한 제약 조건을 주고 나머지 부분을 그럴듯하게 마무리시키는 데 AI를 활용한다.
데이터가 풍부한 빅밸류에서는 이같은 생성형 AI 기술들의 특징을 적극적으로 활용하고 있다. 먼저 사업팀 등을 대상으로 채팅 기반의 데이터 조회 인터페이스를 제공하고 있다. 원하는 분석 내용을 제시하면 LLM이 알아서 빅데이터 카탈로그를 검토하고 SQL문을 생성해 데이터를 불러온다. 이를 지도와 차트 등을 통해 표시해 주고 다운로드할 수 있게 된다. 결과적으로 전사의 데이터 접근성을 높일 수 있다.
데이터 정제 과정에서 수작업 업무 또한 혁신적으로 개선했다. 많은 인력이 정기적으로 발표되는 새로운 정보들을 정제하고 연결하는데 투입됐으나 최근에는 LLM을 활용해 데이터 정제 작업을 수행하고 있다. 데이터양에 따라 몇 주씩 소요된 작업이 5분 이내 마무리되고 작업 정확도도 97% 이상으로 수작업 정확도에 비해 월등히 높은 수준을 보이고 있다.
아울러 비정형 데이터와 정형데이터가 연결돼 폭발적인 데이터 가치 상승을 만들어내고 있다. LLM을 통해 비정형 문서를 해석하고 이를 다시 정형데이터와 결합해 새로운 데이터셋을 만들어 판매할 수 있게 된 것이다. 이처럼 LLM은 데이터 생산 체계에 변화를 가져다주고 있다.
끝으로 LLM은 프로그래밍 방식을 혁신적으로 변화시키고 있다. 과거에는 개발을 위해 발생 가능한 모든 시나리오를 바탕으로 기획하고 개발해 나갔지만, 현재는 전달된 정보를 토대로 LLM이 판단하고 결정하는 코드를 추가하고 있다. 고객 의도를 정성적으로 판단하고 결과물을 주는 방식이다. 이 과정을 통해 과거에 제공하지 못했던 새로운 서비스들이 생겨나고 있다.
기업 입장에선 신기술이 나오면 그저 넋 놓고 바라볼 수만은 없다. 기술의 핵심을 파악하고 기술 자체를 도입하거나 잘게 분해해 적재적소에 배치해야 한다. 최신 기술은 오픈소스로 원천 기술이 대부분 공개돼 있다는 장점이 있다. 따라서 기술 기업은 생성AI의 적극적인 활용이 서비스와 비용 절약에 도움이 되는지 파악하며 여러 가지 실험을 해 볼 필요가 있다.
생성AI 기술이 가지는 창의성을 놓고 거짓 결과물을 제시하는 환각(Hallucination) 문제에 대한 걱정도 많다. 그러나 앞서 말한 기술적 특징을 고려할 때 데이터를 활용해 생성 이전에 충분히 통제되면 환각의 범위가 축소돼 훨씬 안정적인 결과물을 제시할 수 있다. 데이터의 힘은 점점 강화될 것으로 보인다.
구름 빅밸류 대표 kloud80@gmail.com
댓글0