전 세계적인 생성형 인공지능(AI)과 거대언어모델(LLM) 열풍과 함께 생성형 AI 구현의 기반이 된 엔비디아의 그래픽처리장치(GPU)에 대한 관심이 폭발적으로 높아졌다. 특히 H100 GPU는 개당 수천 만원의 높은 가격에도 ‘돈이 있어도 구하기 어려운’ 제품으로 꼽혔고 글로벌 빅테크들은 더 많은 GPU를 확보하기 위해 대규모 투자를 발표하기도 했다.
엔비디아의 H100 GPU는 본격적으로 선보인 지 2년 이상 지났음에도 여전히 AI 업계에서 현존 최고의 성능을 제공하는 상징적인 존재다. 높은 가격에도 여전히 마땅한 대체재를 찾기 힘든 성능을 갖췄다. 소프트웨어 지원도 뛰어나다. 최근 엔비디아의 매출 중 데이터센터 영역의 비중은 88% 가량에 이를 정도로 커졌고 많은 사람들이 ‘AI 시대에 엔비디아의 대안은 없다’고 언급할 정도다.
하지만 이런 상황도 조금씩 바뀌고 있다. 주목할 만한 부분은 AI가 이제 실험실과 개념검증을 넘어 실제 환경에서 적용되고 있다는 점이다. 엔비디아와 같은 방향으로 경쟁하는 업체 뿐만 아니라 엔비디아와는 다른 방향에서 접근했던 ‘대안’들도 현실로 다가오고 있다. 물론 엔비디아도 이제 ‘호퍼’를 넘어 차세대 아키텍처와 제품으로의 전환을 준비하고 있는 시점이다. 이제 더 이상 ‘H100’과 ‘엔비디아’만 고집할 필요 없는 다변화의 지각변동이 시작되고 있다.
엔비디아의 ‘H100’은 ‘호퍼(Hopper)’ 아키텍처를 기반으로 2022년 3월 처음 공개됐다. 같은 해 10월부터 파트너들의 제품에 본격적으로 탑재되며 공급됐다. 이전 세대의 ‘A100’과 비교하면 탑재된 메모리 용량부터 두 배 가량 커지면서 다룰 수 있는 모델의 크기가 커졌다. 다수의 GPU를 하나의 GPU처럼 연결하는 NV링크(NVLink) 기능과 함께 거대언어모델 시대의 모델 크기와 성능 경쟁에서 강력한 도구로 자리매김했다.
업계에서는 향후 상당 기간 동안 AI 인프라 시장에서 엔비디아의 높은 영향력이 지속될 것으로 보고 있다. 이러한 전망의 가장 큰 이유는 GPU 기술에서의 경쟁력이지만, 이 GPU를 시스템 내·외부에서 연결하는 기술도 경쟁사들 대비 몇 년은 앞서있는 것으로 평가받는다.
이에 대해 조셉 양(Joseph Yang) HPE APAC & 인도 HPC & AI 부문 총괄은 지난 9월 IT조선과의 인터뷰에서 “AI 인프라 영역에서 엔비디아의 경쟁력은 GPU 뿐만이 아니다. 인터커넥트 측면에서도 NV링크와 인피니밴드 기술의 조합은 현실적으로 경쟁사 대비 수 년 앞서 있는 상태로 본다”고 밝혔다.
현실적으로 엔비디아의 H100을 시장에서 밀어낼 가장 강력한 후보는 엔비디아의 차기 GPU다. 이미 엔비디아는 블랙웰을 호퍼를 이을 차기 아키텍처로 지난 3월 엔비디아의 GTC(Graphics Technology Conference) 행사에서 공식 발표했다. 이 블랙웰 기반 GPU 제품은 현재 일부 고객에 제한적으로 전달되고 있다. 2025년 1분기부터 본격적으로 고객에 전달될 예정으로 알려졌다. 이미 2025년 생산될 블랙웰 제품 전량이 ‘매진’ 상태라고도 알려진 바 있다.
새로운 GPU 아키텍처와 함께 새로운 시스템 디자인도 주목받고 있다. 지금까지 엔비디아의 GPU를 탑재한 시스템의 구성은 DGX나 HGX처럼 인텔이나 AMD의 x86 CPU와 엔비디아의 GPU를 함께 탑재한 구성이 대부분이었다. 하지만 엔비디아는 블랙웰 세대에서 자체 프로세서 그레이스와 블랙웰 GPU를 묶은 ‘그레이스 블랙웰 슈퍼칩’을 강조하는 모습이다. 이 구성은 CPU와 GPU가 같은 메모리 구조를 공유할 수 있어 성능과 효율 모두에서 장점이 있다.
엔비디아가 주도하는 시장의 움직임에 ‘비슷한’ 방식으로 대응하는 기업은 전통적인 경쟁사로 꼽히는 AMD가 있다. AMD는 엔비디아와 비슷하게 GPU 기반 아키텍처로 시장에 접근하면서 가격적인 장점과 생태계의 유연성 등을 강조하는 모양새다.
AMD의 최신 세대의 제품은 MI300 시리즈로 전통적인 ‘가속기’ 구성의 MI300X와 프로세서를 통합한 MI300A 제품군이 있다. 지난 10월에는 GPU 메모리를 256GB까지 늘린 MI325X도 발표한 바 있다. 현재 세계 1위 성능의 슈퍼컴퓨터 ‘엘 캐피탄(El Capitan)’은 MI300A를 사용한다.
AMD의 데이터센터용 GPU는 잠재력 자체는 높은 평가를 받는다. 하지만 실제 사용자의 선호도 측면에서는 여전히 다소 떨어지는 모습이다. 업계에서는 AI를 위한 GPU 인프라에서 엔비디아 GPU 기반 시스템의 비중이 크게는 90%에 이른다고 평가할 정도다. 최근 마이크로소프트의 경우 애저 인프라에서 AMD의 GPU 기반 인프라에 대해 “예상보다 수요가 크지 않다”고 평하기도 했다. 이는 최근 빠르게 좋아지고 있기는 하지만 여전히 상대적으로 열악한 소프트웨어 생태계 지원 등이 원인으로 꼽힌다.
인텔은 ‘데이터센터 GPU 맥스’ GPU와 ‘가우디 3’ 가속기를 통해 GPU와 가속기의 양 쪽 방향으로 모두 접근을 시도했지만 현재는 ‘가우디 3’가 주력 제품이다. 가우디 3의 경우 AI 업계의 주요 LLM 모델들에서 뛰어난 비용 효율을 무기로 시장에 접근하고 있는데 실적 발표 등에서 나타난 성과는 기대에 미치지 못하는 모습이다. 하지만 IBM 클라우드에서 가우디 3 기반 서비스를 준비하는 등 저변 확대를 위한 움직임은 지속적으로 나타나고 있다.
인텔은 국내에서 네이버클라우드와 ‘가우디’ 기반 생태계 확장을 위해 협력에 나서고 있다는 점이 주목할 만 하다. 지난 4월 인텔은 네이버클라우드와 공동연구센터를 설립하고 가우디 기반 상용 환경 구축 검토 등 ‘가우디’ 기반 생태계 확장을 위해 협력한다는 내용의 협약을 발표한 바 있다. 하정우 네이버클라우드 AI이노베이션 센터장은 지난 11월 “가우디가 엔비디아의 A100 대비 경쟁력 있는 성능 수치를 거의 완성한 상태다”고 언급한 것으로 알려졌는데 여기에 언급된 ‘가우디’는 ‘가우디 2’ 모델로 추정된다.
AI 워크로드의 처리에 있어 ‘트랜스포머’ 모델과 ‘텐서 코어’에 집중해 만든 ‘전용 가속기’로의 접근도 중요한 방향성이다. GPU 기반이 아닌 ‘가속기’로의 접근에서 대표적인 사례는 AWS나 구글, 메타 등이 선보인 전용 가속기들이다. 국내외 독립 하드웨어 개발사들이 만든 가속기들도 주로 이 범주에 해당된다. 국내에서는 리벨리온과 퓨리오사AI 등이, 해외에서는 텐스토렌트 등이 주목받고 있다.
AWS는 최근 열린 ‘AWS 리인벤트 2024’서 앤트로픽과 함께 ‘트레이니움 2’ 가속기 기반 인프라를 구축해 앤트로픽의 차세대 모델 개발을 지원할 것이라 밝힌 바 있다. AWS ‘리인벤트 2023’에서 처음 발표한 ‘트레이니움 2’는 1세대 대비 학습 성능은 4배, 메모리 용량은 3배, 에너지 효율은 2배 향상됐다. GPU 기반 인스턴스 대비 40% 더 나은 비용 효율을 제시했다. 앤트로픽은 ‘리인벤트 2024’에서 ‘클로드’ LLM을 트레이니움 2에 최적화하는 작업을 시작했다고도 발표했다.
머신러닝을 위한 전용 가속기 개발에 가장 먼저 나섰던 구글은 6세대 ‘트릴리움(Trillium)’ 텐서처리장치(TPU)를 지난 5월 발표한 바 있다. ‘트릴리움’은 기존 v5e 대비로도 칩당 최대 컴퓨팅 성능이 4.7배 높아졌고 HBM 용량과 대역폭은 두 배로 늘었다. 에너지 효율성은 67% 더 높다. 구글은 차세대 제미나이 모델의 구축과 제공에도 ‘트릴리움’을 적극 활용한다는 계획이다.
마이크로소프트는 지난해 ‘마이아 100(Myria)’ AI 가속기를 소개한 바 있다. 애저 클라우드 인프라를 위해 설계된 이 가속기는 오픈AI와 설계 단계부터 협력해 대규모 언어 모델 학습과 추론에 적합한 성격을 가진 것으로 알려졌다. 이 외에도 메타(Meta)는 자체적으로 사용하는 추론용 가속기 ‘MTIA(Meta Training and Inference Accelerator)’를 갖춘 것으로 알려졌다.
최근 ‘브로드컴’이 주목받고 있는 이유도 이러한 ‘전용 가속기’의 가능성 때문이다. 브로드컴은 AI 전용 가속기를 ‘주문형 반도체(ASIC)’형태로 접근하고 최근 실적 발표에서는 구글, 메타, 바이트댄스 등과 AI 반도체를 개발하고 있다고 언급한 바 있다. 오픈AI도 브로드컴과 함께 자체 AI칩의 개발에 나설 것으로 알려졌다. 브로드컴의 고객들이 수백만 개 단위로 AI 가속기를 활용하게 되면 엔비디아 GPU에 대한 종속성도 자연스레 줄어들 것으로 전망된다.
국내에서도 AI 가속기에 대한 관심이 높다. 국내 시장에서 올해 주목할 만한 움직임으로는 국내 업체 중 ‘사피온’과 ‘리벨리온’이 합병한 점이 눈에 띈다. 이를 통해 리벨리온은 기업가치 1조원 이상의 AI 반도체 ‘유니콘’ 기업으로 자리매김하고 국내 업계의 중심으로 자리잡을 수 있게 됐다. 국내 업체 중 ‘딥엑스’는 비교적 소규모 ‘온디바이스 AI’에 특화된 가속기로 이미지 인식 등 현실적인 추론 시장에 집중하는 모습도 눈에 띈다.
권용만 기자
yongman.kwon@chosunbiz.com
댓글0