주요 메뉴 바로가기 (상단) 본문 컨텐츠 바로가기 주요 메뉴 바로가기 (하단)

AI 학습 데이터 고갈 다가오는데… “합성 데이터 활용 대안 아냐”

조선비즈 조회수  

챗GPT 달리3
챗GPT 달리3

인공지능(AI)이 학습 가능한 공개 데이터가 수년 안에 고갈될 것이라는 전망이 나온다. 저작권 논란이 불거지면서 웹사이트 데이터를 수집하는 행위를 제한하는 움직임이 거세지고 있는 것이다. 데이터 고갈로 인해 AI 개발이 둔화될 가능성도 언급되고 있다.

26일 미국의 비영리 연구기관 에포크 AI에 따르면 2026년 이전에 고품질 언어 데이터가 고갈되고, 2030년에서 2050년 사이에는 저품질 언어 데이터, 2030년에서 2060년까지는 비전 데이터가 고갈될 것으로 예상된다. 특히 AI가 경량화·효율화를 위해 학습 데이터를 늘리는 등 과잉훈련(Over training)을 한다면 당장 내년부터 데이터 고갈에 직면할 전망이다. 학습 데이터 부족으로 인해 머신러닝 모델의 확장성이 2040년쯤에는 현재보다 20%가량 늦어질 것으로 예상된다고 에포크 AI는 전했다.

AI 모델은 더 많은 데이터를 학습할수록 더 유능해진다. AI 언어 모델은 연구, 뉴스 기사, 위키피디아 항목 등을 포함해 인터넷에서 추출한 텍스트를 사용해 구축된다. 이 자료들은 토큰으로 나뉘는데, 토큰은 쉽게 말해 AI 모델이 인간의 표현을 배우는 데 사용하는 단어 구성 요소다. 오픈AI는 자신들이 활용하는 자료의 세부 정보를 공개하지 않고 있으나, 에포크 AI에 따르면 오픈AI의 GPT-4는 최대 12조개의 토큰으로 훈련된 것으로 추정된다. 현재의 성장 속도를 계속 따른다면 GPT-5의 경우 60조에서 100조개 토큰의 데이터가 필요할 전망이다.

에포크AI의 파블로 빌라로보스 연구원은 “GPT-5의 경우 10조에서 20조 이상의 토큰이 부족할 수 있으며 그 격차를 메우는 방법은 명확하지 않다”며 “인간이 생성한 공개 텍스트가 총 300조개 토큰 규모라면 2026년에서 2032년 사이에 언어모델은 이를 완전히 활용할 것으로 전망된다”고 밝혔다.

AI 훈련에 데이터를 사용하지 못하도록 하는 제한 조치들도 여러 곳에서 취해지고 있다. MIT가 주도하는 연구 그룹인 데이터 프로방스 이니셔티브(Data Provenance Initiative)는 널리 쓰이는 3가지 AI 학습 데이터셋인 C4, 리파인드웹(RefinedWeb), 돌마(Dolma)가 포함된 1만4000개 웹 도메인들을 지난 1년간 조사했다. C4, 리파인드웹, 돌마의 경우 전체 데이터 중 5%가 고품질 데이터인데, 그 중 25%의 사용을 제한한 것으로 추정된다. C4의 경우 많게는 45%까지 제한한 것으로 보인다.

때문에 AI 개발사들은 비용을 내고 미디어 기업과 손잡고 있다. 저작권 문제를 해소하면서 언론사가 보유한 양질의 데이터를 AI 학습에 이용하기 위해서다. 구글과 오픈AI는 미국 월스트리트저널(WSJ) 등을 보유한 세계 최대 미디어그룹 뉴스코퍼레이션과 콘텐츠 라이선스 협약을 맺었다. 반면 뉴욕타임스(NYT)는 작년 12월 자사가 보도한 기사들이 챗GPT 학습에 무단으로 사용됐다며 오픈AI를 상대로 손해배상청구 소송을 제기하기도 했다.

데이터에 대한 접근이 제한되면 고품질 데이터에 대한 안정적인 접근을 필요로 하는 AI 기업들에게 위협이 될 수 있다. 이에 실제 데이터의 특성을 모방해 인위적으로 만든 ‘합성 데이터’가 대안으로 언급되고 있으나 사람이 생성한 데이터를 쫓아가지는 못할 것으로 보인다. 이를 뒷받침하는 연구 결과도 나왔다. 사람이 아닌 AI가 생성한 데이터로 학습한 AI는 성능이 급격하게 떨어지고 결국에는 붕괴한다는 것이다.

영국 옥스포드대 컴퓨터과학과 연구팀이 지난 24일 국제학술지 네이처에 게재한 논문에 따르면 AI 모델에 14세기 영국 교회 탑 건축물을 텍스트로 입력한 후 ‘자기 학습’과 ‘생성’을 반복하자 5세대 AI는 뜬금없이 프랑스어와 스페인어 번역을 제공했다. 9세대 AI는 토끼 이야기를 했다. 이미지도 마찬가지였다. AI 모델에 개 사진을 입력한 뒤 학습과 생성을 지시하자 여러 품종의 개 이미지는 서서히 사라지고 골든 리트리버 등 일반적인 이미지만 남았다. 인간 데이터가 고갈되면 AI 성능 개선도 멈추는 것이다.

파이낸셜타임스(FT)는 “AI 기업들이 왜 인간이 생성한 각종 데이터들을 구입하기 위해 고군분투하고 있는지 이유가 설명됐다”고 전했다. 에밀리 벵거 미국 듀크대 교수는 “합성 데이터 학습으로 인한 AI 모델 붕괴는 업계에 먼저 진입한 선도 기업들이 시장에서 우위를 차지할 수 있다는 점을 보여준다”며 “AI 등장 이전에 데이터를 확보한 기업들의 AI 모델이 우리가 사는 실제 세계를 더욱 잘 표현할 수 있다”고 말했다.

조선비즈
content@www.newsbell.co.kr

댓글0

300

댓글0

[차·테크] 랭킹 뉴스

  • 현대차 사상 첫 외국인 CEO 무뇨스-대외협력 수장 성 김… ‘트럼프 스톰’에 정의선 파격 인사
  • “벤츠 뺨 치는 디자인”…더 강렬해진 신차, 마침내 국내 상륙
  • 돈 벌면 아빠들 ‘이 車’ 사는데 “3년 뒤 새롭게 탄생”…정말 이게 현실로?
  • "분명 '아우디'인데 좀 다르네" 아우디 전기차 'AUDI E 컨셉트'
  • [지스타]대기만 150분...시연작 4종 내세운 넥슨 부스 인기
  • 지스타2024 신작 모음집

[차·테크] 공감 뉴스

  • e스포츠 종주국의 위상은 어디로... 이도경 보좌관 "심각한 상황...이미 목 끝까지 차올랐다"
  • 붉은사막의 강렬한 1시간! 7년의 기다림 잊었다
  • [지스타]"아크 레이더스, 종말과 희망 공존하는 세계관에 소속감 더했다"
  • [지스타] "MOBA 신작 '슈퍼바이브' 소속감과 경쟁심 충족시켜 장수할 것"
  • '나 혼자만 레벨업: 어라이즈', '퍼디,'스블' 제치고 게임대상 왕좌 등극
  • “게임사·게이머 갈등 근본 원인은?” [지스타 2024]

당신을 위한 인기글

  • 육즙이 꽉 차, 탱글 쫄깃한 식감이 일품인 돼지구이 맛집 BEST5
  • 진한 육향이 국물에 스며들어 있는 돼지찌개 맛집 BEST5
  • 사계절 내내 관광객이 붐비는 여행지, 강릉 맛집 BEST5
  • ‘여기’에 먹으면 더 맛있는, 뚝배기 맛집 BEST5
  • [오늘 뭘 볼까] 임윤찬의 공연을 스크린에서..영화 ‘크레센도 반 클라이번 콩쿠르 실황’
  • [맥스무비레터 #77번째 편지] 투둠! ‘오징어 게임’ 시즌2 시청 길라잡이🦑
  • [위클리 포토] 송승헌은 왜 조여정에게 사과했을까?
  • [리뷰: 포테이토 지수 83%] ‘아침바다 갈매기는’, 떠나간 자와 남겨진 자
//php echo do_shortcode('[yarpp]'); ?>

함께 보면 좋은 뉴스

  • 1
    '김민재는 이제 논쟁의 여지가 없는 선수'…독일 매체 극찬 '비판에 정답을 제시했다'

    스포츠 

  • 2
    "다저스행 가능성 높지 않다" 日 21세 퍼펙트 괴물, 오타니 동료 아닌 라이벌 되나

    스포츠 

  • 3
    티베트밀교 육가행 법회 툽덴 왕갤 "모든 고통 무지서 시작"

    여행맛집 

  • 4
    안성재 극찬 끌어낸 '흑백요리사' 급식대가의 최종 목표: 듣자마자 가슴 마구 뛴다

    연예 

  • 5
    안영미가 공항에서 남편과 손절 때릴 뻔했고, 이유 들어 보니 괜히 내가 다 반성하게 된다

    연예 

[차·테크] 인기 뉴스

  • 현대차 사상 첫 외국인 CEO 무뇨스-대외협력 수장 성 김… ‘트럼프 스톰’에 정의선 파격 인사
  • “벤츠 뺨 치는 디자인”…더 강렬해진 신차, 마침내 국내 상륙
  • 돈 벌면 아빠들 ‘이 車’ 사는데 “3년 뒤 새롭게 탄생”…정말 이게 현실로?
  • "분명 '아우디'인데 좀 다르네" 아우디 전기차 'AUDI E 컨셉트'
  • [지스타]대기만 150분...시연작 4종 내세운 넥슨 부스 인기
  • 지스타2024 신작 모음집

지금 뜨는 뉴스

  • 1
    “지금 일본과 붙으면…” 이천수, 홍명보 감독에 대놓고 '일침'

    스포츠&nbsp

  • 2
    메시가 기가 막혀! 벌써 3패째…'월드컵 챔피언' 아르헨티나와 '축신'에게도 남미예선은 어렵다

    스포츠&nbsp

  • 3
    [맥스무비레터 #77번째 편지] 투둠! '오징어 게임' 시즌2 시청 길라잡이🦑

    연예&nbsp

  • 4
    윤석열 대통령, 2년 만에 시진핑과 회담… ‘한중관계’ 개선 시그널?

    뉴스&nbsp

  • 5
    [지스타2024] ‘대작’ 가득 찬 벡스코, 인파로 ‘북적북적’

    뉴스&nbsp

[차·테크] 추천 뉴스

  • e스포츠 종주국의 위상은 어디로... 이도경 보좌관 "심각한 상황...이미 목 끝까지 차올랐다"
  • 붉은사막의 강렬한 1시간! 7년의 기다림 잊었다
  • [지스타]"아크 레이더스, 종말과 희망 공존하는 세계관에 소속감 더했다"
  • [지스타] "MOBA 신작 '슈퍼바이브' 소속감과 경쟁심 충족시켜 장수할 것"
  • '나 혼자만 레벨업: 어라이즈', '퍼디,'스블' 제치고 게임대상 왕좌 등극
  • “게임사·게이머 갈등 근본 원인은?” [지스타 2024]

당신을 위한 인기글

  • 육즙이 꽉 차, 탱글 쫄깃한 식감이 일품인 돼지구이 맛집 BEST5
  • 진한 육향이 국물에 스며들어 있는 돼지찌개 맛집 BEST5
  • 사계절 내내 관광객이 붐비는 여행지, 강릉 맛집 BEST5
  • ‘여기’에 먹으면 더 맛있는, 뚝배기 맛집 BEST5
  • [오늘 뭘 볼까] 임윤찬의 공연을 스크린에서..영화 ‘크레센도 반 클라이번 콩쿠르 실황’
  • [맥스무비레터 #77번째 편지] 투둠! ‘오징어 게임’ 시즌2 시청 길라잡이🦑
  • [위클리 포토] 송승헌은 왜 조여정에게 사과했을까?
  • [리뷰: 포테이토 지수 83%] ‘아침바다 갈매기는’, 떠나간 자와 남겨진 자

추천 뉴스

  • 1
    '김민재는 이제 논쟁의 여지가 없는 선수'…독일 매체 극찬 '비판에 정답을 제시했다'

    스포츠 

  • 2
    "다저스행 가능성 높지 않다" 日 21세 퍼펙트 괴물, 오타니 동료 아닌 라이벌 되나

    스포츠 

  • 3
    티베트밀교 육가행 법회 툽덴 왕갤 "모든 고통 무지서 시작"

    여행맛집 

  • 4
    안성재 극찬 끌어낸 '흑백요리사' 급식대가의 최종 목표: 듣자마자 가슴 마구 뛴다

    연예 

  • 5
    안영미가 공항에서 남편과 손절 때릴 뻔했고, 이유 들어 보니 괜히 내가 다 반성하게 된다

    연예 

지금 뜨는 뉴스

  • 1
    “지금 일본과 붙으면…” 이천수, 홍명보 감독에 대놓고 '일침'

    스포츠 

  • 2
    메시가 기가 막혀! 벌써 3패째…'월드컵 챔피언' 아르헨티나와 '축신'에게도 남미예선은 어렵다

    스포츠 

  • 3
    [맥스무비레터 #77번째 편지] 투둠! '오징어 게임' 시즌2 시청 길라잡이🦑

    연예 

  • 4
    윤석열 대통령, 2년 만에 시진핑과 회담… ‘한중관계’ 개선 시그널?

    뉴스 

  • 5
    [지스타2024] ‘대작’ 가득 찬 벡스코, 인파로 ‘북적북적’

    뉴스