주요 메뉴 바로가기 (상단) 본문 컨텐츠 바로가기 주요 메뉴 바로가기 (하단)

AI 학습 데이터 고갈 다가오는데… “합성 데이터 활용 대안 아냐”

조선비즈 조회수  

챗GPT 달리3
챗GPT 달리3

인공지능(AI)이 학습 가능한 공개 데이터가 수년 안에 고갈될 것이라는 전망이 나온다. 저작권 논란이 불거지면서 웹사이트 데이터를 수집하는 행위를 제한하는 움직임이 거세지고 있는 것이다. 데이터 고갈로 인해 AI 개발이 둔화될 가능성도 언급되고 있다.

26일 미국의 비영리 연구기관 에포크 AI에 따르면 2026년 이전에 고품질 언어 데이터가 고갈되고, 2030년에서 2050년 사이에는 저품질 언어 데이터, 2030년에서 2060년까지는 비전 데이터가 고갈될 것으로 예상된다. 특히 AI가 경량화·효율화를 위해 학습 데이터를 늘리는 등 과잉훈련(Over training)을 한다면 당장 내년부터 데이터 고갈에 직면할 전망이다. 학습 데이터 부족으로 인해 머신러닝 모델의 확장성이 2040년쯤에는 현재보다 20%가량 늦어질 것으로 예상된다고 에포크 AI는 전했다.

AI 모델은 더 많은 데이터를 학습할수록 더 유능해진다. AI 언어 모델은 연구, 뉴스 기사, 위키피디아 항목 등을 포함해 인터넷에서 추출한 텍스트를 사용해 구축된다. 이 자료들은 토큰으로 나뉘는데, 토큰은 쉽게 말해 AI 모델이 인간의 표현을 배우는 데 사용하는 단어 구성 요소다. 오픈AI는 자신들이 활용하는 자료의 세부 정보를 공개하지 않고 있으나, 에포크 AI에 따르면 오픈AI의 GPT-4는 최대 12조개의 토큰으로 훈련된 것으로 추정된다. 현재의 성장 속도를 계속 따른다면 GPT-5의 경우 60조에서 100조개 토큰의 데이터가 필요할 전망이다.

에포크AI의 파블로 빌라로보스 연구원은 “GPT-5의 경우 10조에서 20조 이상의 토큰이 부족할 수 있으며 그 격차를 메우는 방법은 명확하지 않다”며 “인간이 생성한 공개 텍스트가 총 300조개 토큰 규모라면 2026년에서 2032년 사이에 언어모델은 이를 완전히 활용할 것으로 전망된다”고 밝혔다.

AI 훈련에 데이터를 사용하지 못하도록 하는 제한 조치들도 여러 곳에서 취해지고 있다. MIT가 주도하는 연구 그룹인 데이터 프로방스 이니셔티브(Data Provenance Initiative)는 널리 쓰이는 3가지 AI 학습 데이터셋인 C4, 리파인드웹(RefinedWeb), 돌마(Dolma)가 포함된 1만4000개 웹 도메인들을 지난 1년간 조사했다. C4, 리파인드웹, 돌마의 경우 전체 데이터 중 5%가 고품질 데이터인데, 그 중 25%의 사용을 제한한 것으로 추정된다. C4의 경우 많게는 45%까지 제한한 것으로 보인다.

때문에 AI 개발사들은 비용을 내고 미디어 기업과 손잡고 있다. 저작권 문제를 해소하면서 언론사가 보유한 양질의 데이터를 AI 학습에 이용하기 위해서다. 구글과 오픈AI는 미국 월스트리트저널(WSJ) 등을 보유한 세계 최대 미디어그룹 뉴스코퍼레이션과 콘텐츠 라이선스 협약을 맺었다. 반면 뉴욕타임스(NYT)는 작년 12월 자사가 보도한 기사들이 챗GPT 학습에 무단으로 사용됐다며 오픈AI를 상대로 손해배상청구 소송을 제기하기도 했다.

데이터에 대한 접근이 제한되면 고품질 데이터에 대한 안정적인 접근을 필요로 하는 AI 기업들에게 위협이 될 수 있다. 이에 실제 데이터의 특성을 모방해 인위적으로 만든 ‘합성 데이터’가 대안으로 언급되고 있으나 사람이 생성한 데이터를 쫓아가지는 못할 것으로 보인다. 이를 뒷받침하는 연구 결과도 나왔다. 사람이 아닌 AI가 생성한 데이터로 학습한 AI는 성능이 급격하게 떨어지고 결국에는 붕괴한다는 것이다.

영국 옥스포드대 컴퓨터과학과 연구팀이 지난 24일 국제학술지 네이처에 게재한 논문에 따르면 AI 모델에 14세기 영국 교회 탑 건축물을 텍스트로 입력한 후 ‘자기 학습’과 ‘생성’을 반복하자 5세대 AI는 뜬금없이 프랑스어와 스페인어 번역을 제공했다. 9세대 AI는 토끼 이야기를 했다. 이미지도 마찬가지였다. AI 모델에 개 사진을 입력한 뒤 학습과 생성을 지시하자 여러 품종의 개 이미지는 서서히 사라지고 골든 리트리버 등 일반적인 이미지만 남았다. 인간 데이터가 고갈되면 AI 성능 개선도 멈추는 것이다.

파이낸셜타임스(FT)는 “AI 기업들이 왜 인간이 생성한 각종 데이터들을 구입하기 위해 고군분투하고 있는지 이유가 설명됐다”고 전했다. 에밀리 벵거 미국 듀크대 교수는 “합성 데이터 학습으로 인한 AI 모델 붕괴는 업계에 먼저 진입한 선도 기업들이 시장에서 우위를 차지할 수 있다는 점을 보여준다”며 “AI 등장 이전에 데이터를 확보한 기업들의 AI 모델이 우리가 사는 실제 세계를 더욱 잘 표현할 수 있다”고 말했다.

조선비즈
content@newsbell.co.kr

댓글0

300

댓글0

[차·테크] 랭킹 뉴스

  • 국내 최초라더니 “가격까지 역대급” … 3천만 원대 신차 소식에 아빠들 ‘들썩’
  • “수천만 원대 車에 짝퉁 스피커?”.. 중국에서 역대급 논란 터진 볼보
  • “팰리세이드가 작아 보이네”… 기아 대형 SUV, 스펙 공개에 ‘깜짝’
  • “포르쉐, 보고 있나” … 20년 만에 부활한 슈퍼카, 가격을 보니 ‘무려’
  • 패션업계, 반응 생산 늘리고 시즌 세분화...기후위기 생존책 고심
  • “단 200대 한정”.. 다시 부활한 고성능 모델에 전 세계 팬들 ‘들썩’

[차·테크] 공감 뉴스

  • “디지털 시대 ‘컬러의 일관성’ 핵심 과제로” [테크리포트]
  • [알림]전자신문, 제3회 MWC25 바르셀로나 포럼…AI에이전트가 이끄는 AI융합(AX) 방향 제시
  • 옛날 거대 '애니악' 연상케 한 양자컴…"50큐비트급 내달 시연"
  • “벤츠보다 BMW 인가”… 독일 신형 SUV, 팰리세이드보다 ‘더’ 길어진 모습에 ‘깜짝’
  • “오토파일럿 뛰어넘나?”.. 스텔란티스가 공개한 자체 개발 자율주행 시스템에 전 세계 ‘깜짝’
  • 테드손 모터스, 가야르도 기반의 에트나 공개…600마력 자랑해

당신을 위한 인기글

  • “3천만 원으로 스포티지 잡는다” 토레스 하이브리드, 예비 오너들 사로잡는 사양 공개
  • “한남동 건물 60억 세금 추징” 이하늬의 1억 원대 벤츠 AMG, 탈세 의혹에 눈길
  • “이건 진짜 선 넘었지” 4기통에 1억 5천 받는 벤츠 오픈카
  • “월 50만원에 5시리즈 오너된다!” 국산차만큼 저렴해진 수입차 근황
  • “코란도가 이렇게 나와야지” 아빠들 지갑 싹 털릴 터프한 SUV 공개
  • “전기 밴은 나야 둘이 될 수 없어” 폭스바겐에 도전장 내민 기아 PV5, 승자는?
  • “일본산 지바겐 나온다!” 강력한 오프로드 성능에 하이브리드 연비까지 갖춘 렉서스 GX
  • “가정 교육을 어떻게 받은 거니” 17세 소년, 흡연하다 무면허 적발

함께 보면 좋은 뉴스

  • 1
    해구의 난 - 흔들리는 백제의 왕권 [정명섭의 실패한 쿠데타 역사③]

    뉴스 

  • 2
    버거킹 콰트로치즈 풀드비프 와퍼 리얼 후기(+가격, 칼로리)

    여행맛집 

  • 3
    여야, '5월 조기대선' 촉각, 여야의 치열한 기 싸움 예고

    뉴스 

  • 4
    “극찬이 끊이질 않네”… 한국관광 100선 5회 연속 선정된 봄 여행지

    여행맛집 

  • 5
    500억 제작비 들였는데…시청률 1% 참패, 마지막 회 앞둔 한국 드라마

    연예 

[차·테크] 인기 뉴스

  • 국내 최초라더니 “가격까지 역대급” … 3천만 원대 신차 소식에 아빠들 ‘들썩’
  • “수천만 원대 車에 짝퉁 스피커?”.. 중국에서 역대급 논란 터진 볼보
  • “팰리세이드가 작아 보이네”… 기아 대형 SUV, 스펙 공개에 ‘깜짝’
  • “포르쉐, 보고 있나” … 20년 만에 부활한 슈퍼카, 가격을 보니 ‘무려’
  • 패션업계, 반응 생산 늘리고 시즌 세분화...기후위기 생존책 고심
  • “단 200대 한정”.. 다시 부활한 고성능 모델에 전 세계 팬들 ‘들썩’

지금 뜨는 뉴스

  • 1
    '미키 17' 봉준호 감독 "이상한 영화 만드는 감독으로 기억되고 싶어요" [인터뷰]

    연예 

  • 2
    순간 최고 20% 돌파하더니… 7회 연속 시청률 15% 뚫으며 종합 1위 차지한 '한국 드라마'

    연예 

  • 3
    (사)한국근로장애인진흥회 ‘총회 및 가족의 밤’ 행사개최...어려운 이웃에 써달라고 쌀 100포 서구에 전달

    뉴스 

  • 4
    LG엔솔·삼성SDI·SK온, 내달 '인터배터리'서 차세대 기술 공개

    뉴스 

  • 5
    임영웅, 2월 트로트가수 브랜드평판 1위… 긍정비율 91.86%

    연예 

[차·테크] 추천 뉴스

  • “디지털 시대 ‘컬러의 일관성’ 핵심 과제로” [테크리포트]
  • [알림]전자신문, 제3회 MWC25 바르셀로나 포럼…AI에이전트가 이끄는 AI융합(AX) 방향 제시
  • 옛날 거대 '애니악' 연상케 한 양자컴…"50큐비트급 내달 시연"
  • “벤츠보다 BMW 인가”… 독일 신형 SUV, 팰리세이드보다 ‘더’ 길어진 모습에 ‘깜짝’
  • “오토파일럿 뛰어넘나?”.. 스텔란티스가 공개한 자체 개발 자율주행 시스템에 전 세계 ‘깜짝’
  • 테드손 모터스, 가야르도 기반의 에트나 공개…600마력 자랑해

당신을 위한 인기글

  • “3천만 원으로 스포티지 잡는다” 토레스 하이브리드, 예비 오너들 사로잡는 사양 공개
  • “한남동 건물 60억 세금 추징” 이하늬의 1억 원대 벤츠 AMG, 탈세 의혹에 눈길
  • “이건 진짜 선 넘었지” 4기통에 1억 5천 받는 벤츠 오픈카
  • “월 50만원에 5시리즈 오너된다!” 국산차만큼 저렴해진 수입차 근황
  • “코란도가 이렇게 나와야지” 아빠들 지갑 싹 털릴 터프한 SUV 공개
  • “전기 밴은 나야 둘이 될 수 없어” 폭스바겐에 도전장 내민 기아 PV5, 승자는?
  • “일본산 지바겐 나온다!” 강력한 오프로드 성능에 하이브리드 연비까지 갖춘 렉서스 GX
  • “가정 교육을 어떻게 받은 거니” 17세 소년, 흡연하다 무면허 적발

추천 뉴스

  • 1
    해구의 난 - 흔들리는 백제의 왕권 [정명섭의 실패한 쿠데타 역사③]

    뉴스 

  • 2
    버거킹 콰트로치즈 풀드비프 와퍼 리얼 후기(+가격, 칼로리)

    여행맛집 

  • 3
    여야, '5월 조기대선' 촉각, 여야의 치열한 기 싸움 예고

    뉴스 

  • 4
    “극찬이 끊이질 않네”… 한국관광 100선 5회 연속 선정된 봄 여행지

    여행맛집 

  • 5
    500억 제작비 들였는데…시청률 1% 참패, 마지막 회 앞둔 한국 드라마

    연예 

지금 뜨는 뉴스

  • 1
    '미키 17' 봉준호 감독 "이상한 영화 만드는 감독으로 기억되고 싶어요" [인터뷰]

    연예 

  • 2
    순간 최고 20% 돌파하더니… 7회 연속 시청률 15% 뚫으며 종합 1위 차지한 '한국 드라마'

    연예 

  • 3
    (사)한국근로장애인진흥회 ‘총회 및 가족의 밤’ 행사개최...어려운 이웃에 써달라고 쌀 100포 서구에 전달

    뉴스 

  • 4
    LG엔솔·삼성SDI·SK온, 내달 '인터배터리'서 차세대 기술 공개

    뉴스 

  • 5
    임영웅, 2월 트로트가수 브랜드평판 1위… 긍정비율 91.86%

    연예 

공유하기