IBM이 1981년 첫 ‘IBM PC’를 선보이고 시장을 석권한 이후 40년 넘는 시간동안 우리는 알게 모르게 여러 가지 ‘선입견’을 가지고 살아 왔다. 이 중 가장 큰 선입견이라면 PC의 ‘정의’가 될 텐데, 대부분의 사용자는 PC라 하면 ‘x86 프로세서와 윈도 운영체제를 탑재한’ 컴퓨터를 생각해 왔을 것이다.
또 다른 선입견은 모바일에서부터 점차 영역을 확장해 나가고 있는 ‘Arm’ 아키텍처에 대한 것이다. 임베디드와 모바일 등 비교적 작고 간단한 디바이스를 위해 만들어진 Arm 기반 프로세서는 매우 전력 효율이 높지만, 당대의 PC에 사용되는 x86 프로세서와 비교하면 절대적인 기능과 성능 모두 열세라는 것이 대표적인 인식이었다. 하지만 최신 Arm 아키텍처 기반의 고성능 프로세서가 등장하면서, Arm 기반 프로세서들은 최신 x86 기반 프로세서들과 충분히 경쟁이 가능한 수준에 왔다.
퀄컴의 ‘스냅드래곤 X 엘리트(Snapdragon X Elite)’ SoC(System-on-chip)는 전통적인 PC의 개념이 완전히 바뀔 수도 있을 대전환기에 등장한 주목할 만한 ‘게임 체인저’다.
모바일용이라는 인식이 강한 Arm 아키텍처 기반이지만 최신 세대의 x86에 못지 않은 역량을 갖췄고 효율 또한 높다. 이와 함께, 마이크로소프트와는 ‘윈도11’ 생태계와 ‘코파일럿+ PC’라는 강력한 지원을 받고 있다. 앞으로의 ‘인공지능’ 시대에 더 무게를 싣는다면, ‘스냅드래곤 X 엘리트’ 기반 PC는 충분히 시대의 ‘대전환’을 이끌어낼 가능성을 갖춘 존재다.
지금까지 Arm 아키텍처 기반 프로세서는 주로 모바일 디바이스에 사용됐고, 전력 효율이 뛰어나지만 절대적인 성능 측면에서는 메인스트림 급 PC에 어울리지는 않는다는 인식이 있었는데, 현재 시점에서 이는 조건에 따라 다르다. 일단 Arm 아키텍처 기반 프로세서 코어도 이제 마냥 저전력만을 추구하지 않는다. ‘코어텍스-X(Cortex-X)’ 시리즈 급의 ‘빅 코어’의 최대 성능은 충분히 메인스트림급 x86 프로세서에 비견될 수 있다. 물론 이 경우 전력 효율도 메인스트림급 x86 프로세서에 비슷해지는 상황도 나와서, 적당한 수준의 타협이 필요하다.
퀄컴과 마이크로소프트는 지난 2019년부터 ‘Arm 기반’ 프로세서와 ‘Arm 기반 윈도’를 탑재한 디바이스의 개발을 위해 협력해 온 바 있지만, 몇 가지 현실적인 문제에 직면한 바 있다. 일단 가장 큰 문제는 성능이 매력적이지 않다는 것이었다. 모바일에서는 당대 최고 성능이라는 프로세서들을 투입했음에도, 모바일보다 더 방대한 PC 환경의 멀티태스킹 환경에서 필요 성능을 만족시키는 것은 쉽지 않았다. 또한 애플리케이션 호환 문제로 Arm 네이티브가 아닌 호환성 모드로 앱을 사용하면 성능 문제가 더 커지는 것도 문제였다.
하지만 이번 ‘스냅드래곤 X 엘리트’는 지금까지의 시도와는 출발점이 다른 모습이다. 일단 스냅드래곤 X 엘리트에 사용된 ‘오라이온(Oryon)’코어는 2021년 누비아(NUVIA)를 인수하면서 확보한 것으로, 애초에는 ‘서버’ 시장을 목표로 설계된 것이 변형돼 적용된 것이다. 이 ‘오라이온’ 코어는 퀄컴 제품 중에서 ‘스냅드래곤 X 엘리트’ 시리즈에 처음으로 탑재됐고, 추후 모바일용 제품들에도 탑재가 예정돼 있다.
‘스냅드래곤 X 엘리트’에는 12개의 ‘오라이온’ 코어가 탑재된다. 이 12개의 코어는 4개의 코어가 하나의 클러스터로 구성돼, 총 3개의 클러스터 형태로 탑재된다. 이는 일반적으로 서로 다른 성격을 가지는 두 개 이상의 코어 아키텍처를 탑재하는 ‘하이브리드’ 구조에서 사용되는 형태지만, 스냅드래곤 X 엘리트의 경우 모든 코어의 아키텍처가 동일한 점도 특징이며, 퀄컴은 이 ‘오라이온’ 코어로 성능과 효율 모두를 만족시킬 수 있다는 입장이다.
스냅드래곤 X 엘리트의 중앙처리장치(CPU) 클러스터에는 4개의 ‘오라이온’ 코어와 코어간 공유하는 12메가바이트(MB)의 L2 캐시가 있고, 서로 다른 클러스터간 L2 캐시는 공유되지 않는다. 또한 별도의 L3 캐시도 보이지 않는다. 이는 여타 다른 x86 프로세서들이 코어 수준에서 L2 캐시를 갖추고 L3 캐시를 코어간 공유하는 형태로 구성하는 것과는 다소 다른 모습이다. 이와 함께, 오라이온 코어는 여타 프로세서들과 비교해 코어 자체에 갖춘 L1 캐시 크기도 192KB로 크다는 점도 특징이다.
마이크로아키텍처 측면에서 눈에 띄는 부분은 명령어의 디코더 폭이 클럭당 8개 명령어를 처리할 수 있을 정도로 넓다는 것이다. 이런 설계는 주로 효율보다 성능을 중시하는 경우 나타나는 특징 중 하나로, 인텔과 AMD의 최신 프로세서들과 비교해도 꽤 넓은 것이다. 한편, 애플의 M3에 사용되는 성능 코어 ‘에버레스트’는 클럭당 9개 명령어를 처리할 수 있는 구조를 갖춘 것으로 알려져 있다.
벡터 연산 지원 측면에서는 전통적인 128비트 폭의 NEON 명령어 체계만을 지원해, 최신 x86 프로세서들의 256비트 AVX나 512비트 AVX-512 지원과 비교하면 다소 아쉬운 면이 있다. 하지만 총 4개의 벡터 파이프라인 전체에서 NEON을 동시에 사용할 수 있어, 순수 처리량 면에서는 충분히 경쟁력 있는 성능을 제공한다. 한편, 최대 벡터 폭 지원 문제는 x86용 애플리케이션들과의 호환성 측면에서 문제가 되는 부분으로, 애플리케이션이 AVX계열 명령어를 요구하는 경우에는 Arm 기반 윈도에서 호환성 모드로 실행할 수 없다.
‘스냅드래곤 X 엘리트’의 메모리 시스템 구성도 흥미롭다. 각 중앙처리장치(CPU) 클러스터는 패브릭을 통해 메모리 서브시스템으로 연결되는데, 이 과정에서 6MB 용량의 ‘시스템 레벨 캐시(SLC)’를 통해 성능을 최적화한다. 이러한 구성 덕분에 스냅드래곤 X 엘리트가 갖춘 공식 캐시 메모리 용량은 L2 캐시 36MB와 SLC 6MB로 총 42MB가 된다. 메모리 구성은 8533MT/s 동작 속도의 LPDDR5x를 지원하며, 128비트 메모리 버스를 사용해 총 대역폭은 136GB/s가 된다. 구성 가능한 최대 용량은 공식적으로 64GB다.
스냅드래곤 X 엘리트에서 큰 주목을 받는 또 다른 부분은 ‘신경망처리장치(NPU)’다. 스냅드래곤 X 엘리트에 탑재된 ‘헥사곤(Hexagon)’ NPU는 45TOPS(초당 45조회 연산)의 성능을 제공한다. 이는 기존 인텔 ‘코어 울트라’의 10TOPS나 AMD의 ‘라이젠 8040 시리즈’의 16TOPS 대비 크게는 4.5배까지 높은 성능을 제공하는 것이다. 또한 이 ‘45TOPS’는 마이크로소프트가 제시한 ‘코파일럿+ PC’의 조건을 충족시키며, 현재 ‘코파일럿+ PC’가 공식 지원되는 하드웨어는 퀄컴의 ‘스냅드래곤 X 시리즈’ 기반 제품 뿐이다.
스냅드래곤 X 엘리트의 ‘헥사곤 NPU’가 제시하는 45TOPS 연산 성능은 ‘INT4’ 기준이며, 이전 대비 텐서 가속기 성능은 2.5배 높아졌고, 공유 메모리 또한 두 배 커진 것이 성능 향상에 영향을 미쳤다. 퀄컴은 스냅드래곤 X 엘리트의 헥사곤 NPU가 ‘스테이블 디퓨전 1.5’에서 인텔 시스템 대비 2.7배 빠르며, 최적화된 모델에서는 20배 이상의 성능도 가능하다고 소개한 바 있다. 이와 함께, 시스템 차원에서는 CPU와 GPU, NPU에 ‘센싱 허브(Sensing Hub)’의 디지털 신호 프로세서(DSP), 마이크로 NPU까지 통합적으로 활용해 AI 기능 활용의 전체 단계를 가속화할 수 있다.
한편, 퀄컴의 스냅드래곤 X 시리즈 제품 구성에서 흥미로운 점은 ‘스냅드래곤 X 엘리트’ 뿐만 아니라 ‘스냅드래곤 X 플러스’ 제품에서도 45TOPS로 동일한 NPU 성능을 제공한다는 점이다. 이에 ‘40TOPS 이상 NPU 성능’이 핵심인 마이크로소프트의 ‘코파일럿+ PC’ 요건은 모든 ‘스냅드래곤 X 엘리트’ 제품군 뿐만 아니라 ‘스냅드래곤 X 플러스’ 제품도 충분히 만족시킬 수 있다.
스냅드래곤 X 엘리트에 사용된 GPU는 ‘아드레노 X1(Adreno X1)’다. 이 GPU는 이름과 달리 완전히 새롭게 등장한 아키텍처가 아니라 ‘스냅드래곤 8 Gen2’에 사용된 바 있지만, 동작 속도를 제법 높인 것으로 알려졌다. 아드레노 X1 시리즈 GPU는 윈도 환경에서의 ‘다이렉트X 12.1’과 ‘다이렉트ML’, ‘오픈CL 3.0’ 등을 지원한다. 한편, 이 ‘아드레노 X1’은 레이 트레이싱 기술을 지원하지만 ‘다이렉트X 얼티밋’ 조건을 충족하지 못하는 점도 특이점이다.
내부적으로 아드레노 X1 GPU는 총 6개의 쉐이더 프로세서 블록을 가지고 있고, 각 블록에는 256개의 FP32 연산기를 갖추고 있는 구조다. 렌더링 성능 최적화를 위한 ‘플렉스렌더(FlexRender)’ 기술이나 메모리 성능을 최적화하는 3MB SRAM 블록인 ‘GMEM’도 눈에 띄는 부분이다. 이러한 기술들을 통해 성능 측면에서는 FP32 기준 최대 4.6테라플롭스(TFlops) 연산 성능과 최대 초당 72기가픽셀(GPixels)을 처리할 수 있는 성능을 제공한다.
한편, 비디오 입출력을 위한 ‘아드레노 VPU(Video Processing Unit)’는 4K 해상도와 10비트 색상, 초당 120프레임 규격의 H.264/265, VP9, AV1 영상을 하드웨어로 디코딩 처리할 수 있고, 4K 해상도와 10비트 색상, 초당 60프레임 규격의 H.264/265, AV1 영상을 하드웨어로 인코딩할 수 있으며, 일부 조건에서는 인코딩과 디코딩을 동시에 처리할 수도 있다. 디스플레이 출력 지원에서도 ‘아드레노 DPU(Display Processing Unit)’를 통해 디바이스 내부에서는 4K 120Hz HDR10 디스플레이를, 외부 연결로는 4K 60Hz HDR 디스플레이 3대 혹은 5K 60Hz 디스플레이 두 대 연결 구성을 지원한다.
‘스냅드래곤 X 엘리트’ 플랫폼에는 와이파이와 블루투스 지원을 위해 ‘퀄컴 패스트커넥트 7800’ 시스템이, 5G 연결을 위해서는 ‘스냅드래곤 X65’ 모뎀이 탑재된다. 이 중 ‘패스트커넥트 7800’은 최신 ‘와이파이 7’, ‘블루투스 5.4’를 지원하는 것이 특징으로, 이전 세대 대비 60% 빨라진 최대 5.8Gbps 연결을 제공할 수 있다. 또한 모바일 디바이스에도 채택된 바 있는 X65 모뎀은 최대 10Gbps의 다운로드, 3.5Gbps의 업로드 성능을 제공한다.
스냅드래곤 X 엘리트 프로세서 제품군은 CPU의 부스트 기능 지원과 GPU 성능 등에 따라 총 네 가지 모델이 있다. 이 중 최상위 모델인 X1E-00-0DE는 최대 3.8GHz 멀티코어 동작 속도와 4.3GHz 듀얼코어 부스트 성능, 4.6TFlops GPU 성능을 제공하며, 개발자 키트에 탑재된 바 있다. 차상위 모델인 X1E-84-100은 00-0DE 대비 부스트 동작 속도만 0.1GHz 낮다. 하위 모델인 80-100은 3.4GHz 멀티코어 동작 속도에 4GHz 부스트 동작 속도에, 상위 모델 대비 낮은 GPU 동작 속도를 갖췄으며, 78-100은 80-100 대비 부스트 기능이 빠졌다.
하지만 모든 제품군에서 코어 수에 대한 차등 없이 ‘12코어’와 ‘45TOPS’ NPU를 제공한다는 점은 인상적인 부분이다. 퀄컴은 스냅드래곤 X 엘리트 뿐만 아니라 스냅드래곤 X 플러스 제품군에서도 45TOPS 성능의 NPU는 그대로 제공해 ‘코파일럿+ PC’ 기준을 충족시킬 수 있게 했다. 한편, 제조 공정은 TSMC의 N4 공정을 사용하는 것으로 알려져 있다.
이와 함께, 퀄컴은 이 ‘스냅드래곤 X 엘리트’ SoC 제품과 플랫폼에 제품 열설계전력(TDP) 기준에 따른 분류를 하지 않았다. 이는 말 그대로 제조사의 재량에 따라 10W대의 이동성을 강조한 설계에서부터 80W 급의 고성능 구성까지 대응 가능하도록 한 것이다. 특히 퀄컴은 이 스냅드래곤 X 엘리트 프로세서의 CPU 성능이 인텔의 13세대 H 시리즈 프로세서 대비 대응 가능한 전체 TDP 영역에 걸쳐 최대 두 배까지 높은 성능을 낼 수 있으며, 애플의 M2 SoC보다도 멀티코어 성능에서 최대 두 배 성능이 가능하다고 제시했다.
권용만 기자 yongman.kwon@chosunbiz.com
- 영유아 아토피 급여 얻은 ‘듀피젠트’…경쟁약물 견제 임상 돌입
- 보다비-퍼스텝앤컴퍼니, 컨설팅 비즈니스 강화 위한 MOU 체결
- 아파트·사무실 보호에 무인화까지…보안 3사의 건물관리 강화책
- 부진 시달리는 삼성전자 ‘가전’…LG 따라 구독 사업 시동
- 의료 데이터 보호 위한 오브젝트 스토리지 활용 방안 [기고]
댓글0