주요 메뉴 바로가기 (상단) 본문 컨텐츠 바로가기 주요 메뉴 바로가기 (하단)

AI 학습 데이터 고갈 다가오는데… “합성 데이터 활용 대안 아냐”

조선비즈 조회수  

챗GPT 달리3
챗GPT 달리3

인공지능(AI)이 학습 가능한 공개 데이터가 수년 안에 고갈될 것이라는 전망이 나온다. 저작권 논란이 불거지면서 웹사이트 데이터를 수집하는 행위를 제한하는 움직임이 거세지고 있는 것이다. 데이터 고갈로 인해 AI 개발이 둔화될 가능성도 언급되고 있다.

26일 미국의 비영리 연구기관 에포크 AI에 따르면 2026년 이전에 고품질 언어 데이터가 고갈되고, 2030년에서 2050년 사이에는 저품질 언어 데이터, 2030년에서 2060년까지는 비전 데이터가 고갈될 것으로 예상된다. 특히 AI가 경량화·효율화를 위해 학습 데이터를 늘리는 등 과잉훈련(Over training)을 한다면 당장 내년부터 데이터 고갈에 직면할 전망이다. 학습 데이터 부족으로 인해 머신러닝 모델의 확장성이 2040년쯤에는 현재보다 20%가량 늦어질 것으로 예상된다고 에포크 AI는 전했다.

AI 모델은 더 많은 데이터를 학습할수록 더 유능해진다. AI 언어 모델은 연구, 뉴스 기사, 위키피디아 항목 등을 포함해 인터넷에서 추출한 텍스트를 사용해 구축된다. 이 자료들은 토큰으로 나뉘는데, 토큰은 쉽게 말해 AI 모델이 인간의 표현을 배우는 데 사용하는 단어 구성 요소다. 오픈AI는 자신들이 활용하는 자료의 세부 정보를 공개하지 않고 있으나, 에포크 AI에 따르면 오픈AI의 GPT-4는 최대 12조개의 토큰으로 훈련된 것으로 추정된다. 현재의 성장 속도를 계속 따른다면 GPT-5의 경우 60조에서 100조개 토큰의 데이터가 필요할 전망이다.

에포크AI의 파블로 빌라로보스 연구원은 “GPT-5의 경우 10조에서 20조 이상의 토큰이 부족할 수 있으며 그 격차를 메우는 방법은 명확하지 않다”며 “인간이 생성한 공개 텍스트가 총 300조개 토큰 규모라면 2026년에서 2032년 사이에 언어모델은 이를 완전히 활용할 것으로 전망된다”고 밝혔다.

AI 훈련에 데이터를 사용하지 못하도록 하는 제한 조치들도 여러 곳에서 취해지고 있다. MIT가 주도하는 연구 그룹인 데이터 프로방스 이니셔티브(Data Provenance Initiative)는 널리 쓰이는 3가지 AI 학습 데이터셋인 C4, 리파인드웹(RefinedWeb), 돌마(Dolma)가 포함된 1만4000개 웹 도메인들을 지난 1년간 조사했다. C4, 리파인드웹, 돌마의 경우 전체 데이터 중 5%가 고품질 데이터인데, 그 중 25%의 사용을 제한한 것으로 추정된다. C4의 경우 많게는 45%까지 제한한 것으로 보인다.

때문에 AI 개발사들은 비용을 내고 미디어 기업과 손잡고 있다. 저작권 문제를 해소하면서 언론사가 보유한 양질의 데이터를 AI 학습에 이용하기 위해서다. 구글과 오픈AI는 미국 월스트리트저널(WSJ) 등을 보유한 세계 최대 미디어그룹 뉴스코퍼레이션과 콘텐츠 라이선스 협약을 맺었다. 반면 뉴욕타임스(NYT)는 작년 12월 자사가 보도한 기사들이 챗GPT 학습에 무단으로 사용됐다며 오픈AI를 상대로 손해배상청구 소송을 제기하기도 했다.

데이터에 대한 접근이 제한되면 고품질 데이터에 대한 안정적인 접근을 필요로 하는 AI 기업들에게 위협이 될 수 있다. 이에 실제 데이터의 특성을 모방해 인위적으로 만든 ‘합성 데이터’가 대안으로 언급되고 있으나 사람이 생성한 데이터를 쫓아가지는 못할 것으로 보인다. 이를 뒷받침하는 연구 결과도 나왔다. 사람이 아닌 AI가 생성한 데이터로 학습한 AI는 성능이 급격하게 떨어지고 결국에는 붕괴한다는 것이다.

영국 옥스포드대 컴퓨터과학과 연구팀이 지난 24일 국제학술지 네이처에 게재한 논문에 따르면 AI 모델에 14세기 영국 교회 탑 건축물을 텍스트로 입력한 후 ‘자기 학습’과 ‘생성’을 반복하자 5세대 AI는 뜬금없이 프랑스어와 스페인어 번역을 제공했다. 9세대 AI는 토끼 이야기를 했다. 이미지도 마찬가지였다. AI 모델에 개 사진을 입력한 뒤 학습과 생성을 지시하자 여러 품종의 개 이미지는 서서히 사라지고 골든 리트리버 등 일반적인 이미지만 남았다. 인간 데이터가 고갈되면 AI 성능 개선도 멈추는 것이다.

파이낸셜타임스(FT)는 “AI 기업들이 왜 인간이 생성한 각종 데이터들을 구입하기 위해 고군분투하고 있는지 이유가 설명됐다”고 전했다. 에밀리 벵거 미국 듀크대 교수는 “합성 데이터 학습으로 인한 AI 모델 붕괴는 업계에 먼저 진입한 선도 기업들이 시장에서 우위를 차지할 수 있다는 점을 보여준다”며 “AI 등장 이전에 데이터를 확보한 기업들의 AI 모델이 우리가 사는 실제 세계를 더욱 잘 표현할 수 있다”고 말했다.

조선비즈
content@newsbell.co.kr

댓글0

300

댓글0

[차·테크] 랭킹 뉴스

  • 모터스포츠 전설, 다카르 랠리서 제네시스 GV80 몰아
  • 에잇퍼센트, 새 기업 로고와 서비스명 통합으로 새 도약 나선다
  • 최상목 “2026년 국가연구개발(R&D) 30조원 넘긴다”…AI·양자·바이오 집중 투자
  • “버거업계 협업 경쟁 치열”…맘스터치, 에드워드 리와 신메뉴 선봬
  • “3천만 원 준중형 SUV” … 현대차만 바라보던 소비자들도 ‘관심’
  • 다이소몰, '뷰티 신상 집중' 행사 진행…앱 사용자 335만명으로 증가

[차·테크] 공감 뉴스

  • 레벨 3 자율주행, 한국에선 있어도 쓰기 힘든 이유는 사고 피할 수 없어서?
  • 설 연휴 27일부터 30일까지 고속도로 통행료 면제…'특별교통대책' 시행
  • 게임사, 확률 표시 의무 위반 시 3배 배상한다…정부, ‘개임법 개정안’ 공포
  • 노연홍 회장 “혁신 생태계 구축해 ‘국민 편익’ 우선 제약바이오 산업 될 것”
  • 트럼프, 전기차 보조금 폐지 검토 지시… 우려 현실 되나
  • 로터스 'V6, 수동' 에미라 20대 한정 판매… 1억5390만원

당신을 위한 인기글

  • “싹 다 압수해서 팔아버려라” 음주운전, 이젠 진짜 차 뺏는다!
  • “국내 출시하면 바로 살텐데” 스바루의 신형 하이브리드 소형 SUV
  • “어두운 도로에서 보행자 숨졌는데…” 운전자들은 안도했다
  • “훔친 외제차로 역주행, 12명 부상” 범인은 ADHD 주장하는 중국인
  • “BYD가 이 정도였어?” 독일차 뺨치는 1085마력 고급 전기차 듀오 공개
  • “무파업 운영? 그런 건 없다” 광주 자동차 일자리, 결국 일 났다!
  • “이러니 현토부 소리 듣지” 국산차에 유리한 새로운 전기차 규정
  • “다들 중국 따라하기” 이젠 테슬라도 중국한테 한 수 접었다!

함께 보면 좋은 뉴스

  • 1
    비즈니스 상담만 1779건...CES 서울통합관 '최고·최대' 괄목 성과

    여행맛집 

  • 2
    ‘아이 넷’인데 이걸 어쩌나 … 아름, 안타까운 소식

    연예 

  • 3
    38분 21초 동안 코트 누빈 최이샘, 13득점→팀 내 최다 득점 활약에도 반성 먼저…"수비 실수가 많았던 것 같아요" [MD인천]

    스포츠 

  • 4
    이탈리아 공격수 5G 만에 방출, 대체자는 10점도 버겁다…MVP를 왜 포기했을까, 7년 만에 패패패패패패패 위기 왔다

    스포츠 

  • 5
    “메이저리그 도전할 생각 있다, 올 시즌 얼마나 잘 치르느냐에 따라…” 강백호 진심고백, FA 100억원이냐 ML 드림이냐

    스포츠 

[차·테크] 인기 뉴스

  • 모터스포츠 전설, 다카르 랠리서 제네시스 GV80 몰아
  • 에잇퍼센트, 새 기업 로고와 서비스명 통합으로 새 도약 나선다
  • 최상목 “2026년 국가연구개발(R&D) 30조원 넘긴다”…AI·양자·바이오 집중 투자
  • “버거업계 협업 경쟁 치열”…맘스터치, 에드워드 리와 신메뉴 선봬
  • “3천만 원 준중형 SUV” … 현대차만 바라보던 소비자들도 ‘관심’
  • 다이소몰, '뷰티 신상 집중' 행사 진행…앱 사용자 335만명으로 증가

지금 뜨는 뉴스

  • 1
    대학생 주목하는 통신사… 인재 찾기·마케팅 ‘두 마리 토끼’ 잡기

    뉴스 

  • 2
    '40세 맞아?' 윤은혜, 완벽 콜라병 몸매+미친 등 근육 '입이 쩍'

    연예 

  • 3
    국조특위, 軍기밀요원 신원 노출…與 “안보 우려” vs 野 “내란 주범”[이현호 기자의 밀리터리!톡]

    뉴스 

  • 4
    “김하성 FA 시장, 놀라울 정도로 조용해…” 이번엔 2년 4500만달러에 밀워키행 예상, 보라스 뭐하나

    스포츠 

  • 5
    '개헌 카드' 꺼내드는 국민의힘…속내는

    뉴스 

[차·테크] 추천 뉴스

  • 레벨 3 자율주행, 한국에선 있어도 쓰기 힘든 이유는 사고 피할 수 없어서?
  • 설 연휴 27일부터 30일까지 고속도로 통행료 면제…'특별교통대책' 시행
  • 게임사, 확률 표시 의무 위반 시 3배 배상한다…정부, ‘개임법 개정안’ 공포
  • 노연홍 회장 “혁신 생태계 구축해 ‘국민 편익’ 우선 제약바이오 산업 될 것”
  • 트럼프, 전기차 보조금 폐지 검토 지시… 우려 현실 되나
  • 로터스 'V6, 수동' 에미라 20대 한정 판매… 1억5390만원

당신을 위한 인기글

  • “싹 다 압수해서 팔아버려라” 음주운전, 이젠 진짜 차 뺏는다!
  • “국내 출시하면 바로 살텐데” 스바루의 신형 하이브리드 소형 SUV
  • “어두운 도로에서 보행자 숨졌는데…” 운전자들은 안도했다
  • “훔친 외제차로 역주행, 12명 부상” 범인은 ADHD 주장하는 중국인
  • “BYD가 이 정도였어?” 독일차 뺨치는 1085마력 고급 전기차 듀오 공개
  • “무파업 운영? 그런 건 없다” 광주 자동차 일자리, 결국 일 났다!
  • “이러니 현토부 소리 듣지” 국산차에 유리한 새로운 전기차 규정
  • “다들 중국 따라하기” 이젠 테슬라도 중국한테 한 수 접었다!

추천 뉴스

  • 1
    비즈니스 상담만 1779건...CES 서울통합관 '최고·최대' 괄목 성과

    여행맛집 

  • 2
    ‘아이 넷’인데 이걸 어쩌나 … 아름, 안타까운 소식

    연예 

  • 3
    38분 21초 동안 코트 누빈 최이샘, 13득점→팀 내 최다 득점 활약에도 반성 먼저…"수비 실수가 많았던 것 같아요" [MD인천]

    스포츠 

  • 4
    이탈리아 공격수 5G 만에 방출, 대체자는 10점도 버겁다…MVP를 왜 포기했을까, 7년 만에 패패패패패패패 위기 왔다

    스포츠 

  • 5
    “메이저리그 도전할 생각 있다, 올 시즌 얼마나 잘 치르느냐에 따라…” 강백호 진심고백, FA 100억원이냐 ML 드림이냐

    스포츠 

지금 뜨는 뉴스

  • 1
    대학생 주목하는 통신사… 인재 찾기·마케팅 ‘두 마리 토끼’ 잡기

    뉴스 

  • 2
    '40세 맞아?' 윤은혜, 완벽 콜라병 몸매+미친 등 근육 '입이 쩍'

    연예 

  • 3
    국조특위, 軍기밀요원 신원 노출…與 “안보 우려” vs 野 “내란 주범”[이현호 기자의 밀리터리!톡]

    뉴스 

  • 4
    “김하성 FA 시장, 놀라울 정도로 조용해…” 이번엔 2년 4500만달러에 밀워키행 예상, 보라스 뭐하나

    스포츠 

  • 5
    '개헌 카드' 꺼내드는 국민의힘…속내는

    뉴스 

공유하기