AI 학습 데이터 고갈 다가오는데… “합성 데이터 활용 대안 아냐”

조선비즈 2024.07.26 조회수

인공지능(AI)이 학습 가능한 공개 데이터가 수년 안에 고갈될 것이라는 전망이 나온다. 저작권 논란이 불거지면서 웹사이트 데이터를 수집하는 행위를 제한하는 움직임이 거세지고 있는 것이다. 데이터 고갈로 인해 AI 개발이 둔화될 가능성도 언급되고 있다.

26일 미국의 비영리 연구기관 에포크 AI에 따르면 2026년 이전에 고품질 언어 데이터가 고갈되고, 2030년에서 2050년 사이에는 저품질 언어 데이터, 2030년에서 2060년까지는 비전 데이터가 고갈될 것으로 예상된다. 특히 AI가 경량화·효율화를 위해 학습 데이터를 늘리는 등 과잉훈련(Over training)을 한다면 당장 내년부터 데이터 고갈에 직면할 전망이다. 학습 데이터 부족으로 인해 머신러닝 모델의 확장성이 2040년쯤에는 현재보다 20%가량 늦어질 것으로 예상된다고 에포크 AI는 전했다.

AI 모델은 더 많은 데이터를 학습할수록 더 유능해진다. AI 언어 모델은 연구, 뉴스 기사, 위키피디아 항목 등을 포함해 인터넷에서 추출한 텍스트를 사용해 구축된다. 이 자료들은 토큰으로 나뉘는데, 토큰은 쉽게 말해 AI 모델이 인간의 표현을 배우는 데 사용하는 단어 구성 요소다. 오픈AI는 자신들이 활용하는 자료의 세부 정보를 공개하지 않고 있으나, 에포크 AI에 따르면 오픈AI의 GPT-4는 최대 12조개의 토큰으로 훈련된 것으로 추정된다. 현재의 성장 속도를 계속 따른다면 GPT-5의 경우 60조에서 100조개 토큰의 데이터가 필요할 전망이다.

에포크AI의 파블로 빌라로보스 연구원은 “GPT-5의 경우 10조에서 20조 이상의 토큰이 부족할 수 있으며 그 격차를 메우는 방법은 명확하지 않다”며 “인간이 생성한 공개 텍스트가 총 300조개 토큰 규모라면 2026년에서 2032년 사이에 언어모델은 이를 완전히 활용할 것으로 전망된다”고 밝혔다.

AI 훈련에 데이터를 사용하지 못하도록 하는 제한 조치들도 여러 곳에서 취해지고 있다. MIT가 주도하는 연구 그룹인 데이터 프로방스 이니셔티브(Data Provenance Initiative)는 널리 쓰이는 3가지 AI 학습 데이터셋인 C4, 리파인드웹(RefinedWeb), 돌마(Dolma)가 포함된 1만4000개 웹 도메인들을 지난 1년간 조사했다. C4, 리파인드웹, 돌마의 경우 전체 데이터 중 5%가 고품질 데이터인데, 그 중 25%의 사용을 제한한 것으로 추정된다. C4의 경우 많게는 45%까지 제한한 것으로 보인다.

때문에 AI 개발사들은 비용을 내고 미디어 기업과 손잡고 있다. 저작권 문제를 해소하면서 언론사가 보유한 양질의 데이터를 AI 학습에 이용하기 위해서다. 구글과 오픈AI는 미국 월스트리트저널(WSJ) 등을 보유한 세계 최대 미디어그룹 뉴스코퍼레이션과 콘텐츠 라이선스 협약을 맺었다. 반면 뉴욕타임스(NYT)는 작년 12월 자사가 보도한 기사들이 챗GPT 학습에 무단으로 사용됐다며 오픈AI를 상대로 손해배상청구 소송을 제기하기도 했다.

데이터에 대한 접근이 제한되면 고품질 데이터에 대한 안정적인 접근을 필요로 하는 AI 기업들에게 위협이 될 수 있다. 이에 실제 데이터의 특성을 모방해 인위적으로 만든 ‘합성 데이터’가 대안으로 언급되고 있으나 사람이 생성한 데이터를 쫓아가지는 못할 것으로 보인다. 이를 뒷받침하는 연구 결과도 나왔다. 사람이 아닌 AI가 생성한 데이터로 학습한 AI는 성능이 급격하게 떨어지고 결국에는 붕괴한다는 것이다.

영국 옥스포드대 컴퓨터과학과 연구팀이 지난 24일 국제학술지 네이처에 게재한 논문에 따르면 AI 모델에 14세기 영국 교회 탑 건축물을 텍스트로 입력한 후 ‘자기 학습’과 ‘생성’을 반복하자 5세대 AI는 뜬금없이 프랑스어와 스페인어 번역을 제공했다. 9세대 AI는 토끼 이야기를 했다. 이미지도 마찬가지였다. AI 모델에 개 사진을 입력한 뒤 학습과 생성을 지시하자 여러 품종의 개 이미지는 서서히 사라지고 골든 리트리버 등 일반적인 이미지만 남았다. 인간 데이터가 고갈되면 AI 성능 개선도 멈추는 것이다.

파이낸셜타임스(FT)는 “AI 기업들이 왜 인간이 생성한 각종 데이터들을 구입하기 위해 고군분투하고 있는지 이유가 설명됐다”고 전했다. 에밀리 벵거 미국 듀크대 교수는 “합성 데이터 학습으로 인한 AI 모델 붕괴는 업계에 먼저 진입한 선도 기업들이 시장에서 우위를 차지할 수 있다는 점을 보여준다”며 “AI 등장 이전에 데이터를 확보한 기업들의 AI 모델이 우리가 사는 실제 세계를 더욱 잘 표현할 수 있다”고 말했다.