KAIST
고가의 GPU(그래픽 처리 장치)나 고속 네트워크 없이도 AI(인공지능) 모델을 학습시킬 수 있는 기술이 국내에서 나왔다.
KAIST(카이스트)는 한동수 전기및전자공학부 교수가 이끄는 연구팀이 미국 UC어바인대 연구팀과 함께 제한된 네트워크 환경에서도 AI 모델 학습 능력을 100배 이상 가속할 수 있는 기술을 개발했다고 19일 밝혔다.
AI 모델 학습을 위해선 엔비디아 H100 등 값비싼 고성능 서버용 GPU와 이들을 연결하기 위한 400Gbps(초당 기가비트)급 고속 네트워크를 갖춘 고가 인프라가 필요하다. 비용 문제는 IT 분야 중소기업 및 대학연구팀이 연구 인프라를 구축하는 데 가장 큰 걸림돌이라고 알려졌다.
한 교수 연구팀은 분산 학습 프레임워크 ‘스텔라트레인(StellaTrain)’을 개발했다. 엔비디아 H100의 20분의 1 가격 수준인 소비자용 GPU로 일반 인터넷 환경에서도 효율적으로 AI 학습이 가능하다.
저가 GPU를 사용할 때 AI 학습 속도가 느려지는 이유는 GPU의 메모리가 작고 네트워크 속도에 제한이 있기 때문이다. 연구팀은 CPU(중앙처리장치)와 GPU를 병렬로 활용해 학습 속도를 높였다. CPU와 GPU가 학습 내용을 작업 단계별로 나눠 병렬적으로 처리할 수 있도록 한 것. 또 GPU 간 데이터 전송량을 주변 네트워크 환경에 맞춰 유동적으로 줄이거나 늘릴 수 있도록 했다. 그 결과 고속 네트워크 없이도 여러 대 저가 GPU를 통한 빠른 학습이 가능해졌다.
연구팀이 스텔라트레인 기술을 적용한 결과, 기존 학습 방법에 비해 최대 104배까지 빠른 성능을 낼 수 있는 것으로 나타났다.
연구를 이끈 한 교수는 “이번 연구는 대규모 AI 모델 학습에 누구나 쉽게 접근할 수 있도록 하는 데 크게 기여할 것”이라며 “앞으로도 저비용 환경에서도 대규모 AI 모델을 학습할 수 있는 기술을 계속 개발하겠다”고 밝혔다.
이번 연구는 지난 8월 호주 시드니에서 열린 ‘ACM SIGCOMM 2024’에서 발표됐다. 과학기술정보통신부 중견연구사업과 정보통신기획평가원(IITP) 정보통신·방송기술개발사업 및 표준개발지원사업, 차세대통신클라우드리더십구축사업,
삼성전자의 지원을 받았다.
댓글0