‘기업전용 챗GPT’ 필요한데 데이터 학습·보안 난제…대안은?

머니투데이 2023.07.20 조회수

/사진=툴루즈 AFP=뉴스1

초거대 AI 상용화로 ‘○○ 전용 챗GPT’를 꿈꾸는 기업이 늘고 있다. 우리만의 데이터를 학습해 맞춤형 답변을 내놓으면서도 기업 기밀은 유출되지 않는 AI 챗봇을 바라는 것이다. 그러나 구글과 마이크로소프트(MS)가 API(응용프로그램인터페이스)로 제공하는 초거대 AI 언어모델(LLM)은 두 가지 모두 만족시키지 못한다. 챗GPT 커스터마이징이 어려운 이유인데, 국내 IT 기업들의 이를 해결하는 서비스를 마련하고 있다.

19일 업계에 따르면 구글과 MS는 LLM을 클라우드 서비스로 제공한다. 이 경우 GPU(그래픽처리장치) 같은 고가의 인프라를 구축하지 않아도 글로벌 빅테크의 LLM과 컴퓨팅파워를 임대할 수 있어 비용면에서 합리적이다. 다만 클라우드로 제공된 LLM은 기업별 파인튜닝(미세조정)이 어려운 데다, 데이터가 국외로 반출된다는 단점이 있다.

이같은 문제를 해결하고자 LLM을 온프레미스(구축형)로 설치하는 사례도 있다. 그러나 인프라 문제로 70억~650억 파라미터(매개변수) 규모의 sLLM(소형언어모델)에 그친다. 메타의 ‘라마’ 같은 오픈소스 LLM을 주로 활용하는데, 모델 크기가 작다 보니 챗GPT 같은 폭발적인 성능을 체험하기 어렵다. 온프레미스 방식으로 서비스하는 검증된 선도기업이 없다는 점도 한계다.

이주열 LG CNS 수석연구위원(상무)은 “구글·MS가 LLM 수정을 막아놓아 국내 많은 기업이 온프레미스를 요구한다. 특히 데이터 외부 반출을 우려하는 금융권의 요청이 많다”면서도 “GPT-4처럼 큰 모델을 온프레미스로 제공할 수 있을지는 미지수”라고 말했다. 향후 LLM을 온프레미스로 제공하는 기업이 늘어날 순 있지만 현재로선 장점보다 단점이 크다는 설명이다.

━

LG CNS·네이버클라우드 “데이터 학습·보안 한 번에”

━

LG CNS의 오케스트레이터 서비스 방식. /사진=LG CNS

이에 LG CNS는 검색증강생성(RAG) 기반의 ‘오케스트레이터’로 챗GPT의 데이터 학습·보안 한계를 줄인다. RAG란 생성형 AI와 검색형 AI를 결합한 기술로, 질문과 관련된 참고자료를 검색해 LLM에 미리 제공한다. 고객사에서 챗GPT에 질의를 입력하면 오케스트레이터가 고객사 데이터에서 관련 정보를 뽑아 챗GPT에 제공, 이를 기반으로 맞춤형 답변을 생성할 수 있게 하는 것이다.

이 상무는 “GPT-4는 최대 입력 토큰이 3만2000개로 한글 기준으론 약 1만2800자, A4 기준 8페이지에 불과해 기업에서 쓰는 문서를 한 번에 입력하기 어렵다”라며 “오케스트레이터는 이를 극복하는 대안”이라고 강조했다. 또 챗GPT에 고객이름·생년월일·자산규모 등 개인정보를 실수로 입력하더라도 오케스트레이터가 이를 감지, 가명 처리해 데이터 유출을 막는다.

네이버는 차세대 LLM ‘하이퍼클로바X’를 하이브리드형 ‘뉴로 클라우드’로 제공할 예정이다. 뉴로 클라우드란 네이버클라우드로 하이퍼클로바X를 이용하되 민감한 데이터는 고객사 데이터센터에 저장하는 서비스다. 하이퍼클라우드X를 기업 맞춤형으로 파인튜닝할 수 있는 도구도 제공한다. 클라우드와 온프레미스의 장점을 섞어 구글·MS에 대항한다는 방침이다.

하정우 네이버클라우드 AI 이노베이션 센터장은 앞서 머니투데이와의 인터뷰에서 “고객의 데이터센터에 하이퍼클로바X와 기업 데이터를 학습할 수 있는 인프라까지 제공하는 형태를 고려하고 있다”라며 “이렇게 되면 기업의 전문 분야에 대한 이해도도 높으면서 데이터 보안 문제까지 해결한 초거대 AI 서비스를 구축할 수 있다”라고 말했다.