엔비디아 Vera CPU 완전 해부 — Olympus 코어가 x86을 위협하는 이유

- 6월 05, 2026

엔비디아 Vera CPU 완전 해부 — Olympus 코어 아키텍처·스펙·성능·시장 포지션

엔비디아가 GPU에 이어 데이터센터 CPU 시장의 판을 흔든다. 상용 ARM 코어를 버리고 자체 설계한 Olympus 코어를 88개 탑재한 Vera CPU는 메모리 대역폭 1.2 TB/s, CPU-GPU 코히런트 결합, FP8 네이티브 연산으로 인텔·AMD의 x86 패권에 정면으로 도전한다. 이 글은 Vera의 공개 스펙, Olympus 코어 내부 설계, 초기 벤치마크, 그리고 누가 이것을 사들이는지를 한 번에 정리한다.

🧭 이 글이 답하는 네 가지 질문

이 리서치는 NVIDIA가 발표한 데이터센터 CPU Vera를 네 축으로 분해한다. (1) 공개된 스펙과 성능 수치, (2) 어떤 프로세서·ISA 기반인지, (3) 아키텍처·메모리·캐시 구조의 내부 설계, (4) 기존 x86 레거시 CPU와의 차별점 및 타깃 고객. 질문 뒤에 숨은 의도는 단순하다 — "엔비디아는 왜 ARM 상용 코어를 버리고 자체 코어를 만들었으며, 그것이 인텔·AMD의 서버 CPU 패권에 실제로 위협이 되는가?"

🟡 먼저 짚을 전제 — 현재 공개된 자료는 대부분 프리프로덕션(pre-production) 실리콘 기준의 엔비디아 발표치와 제한된 초기 벤치마크다. 정식 양산은 2026년 하반기로 예정돼 있어, 본문의 모든 성능 수치는 그 한계 위에서 읽어야 한다.

🏭 엔비디아는 왜 CPU를 만드는가

CPU 진출의 역사적 맥락

엔비디아는 2022년 Grace CPU로 데이터센터 CPU 시장에 처음 진입했다. Grace는 ARM의 상용 IP인 Neoverse V2 코어 72개를 탑재한 설계였다. 당시 목적은 CPU 단독 판매가 아니라, GPU(Hopper)와 NVLink-C2C로 밀결합한 Grace Hopper Superchip을 통해 데이터센터 컴퓨트 스택 전체를 장악하는 것이었다. CPU는 GPU를 더 잘 팔기 위한 '제어 두뇌'였던 셈이다.

Vera는 그 전략의 2세대다. 결정적 변화는 상용 ARM 코어를 버리고 엔비디아 최초의 완전 자체 설계 코어 "Olympus"를 탑재했다는 점이다. 단순 세대 교체가 아니라, AI 에이전트 시대의 제어·추론·오케스트레이션 워크로드를 명시적 설계 목표로 삼은 전환이다. 라이선스로 받은 남의 코어를 쓰는 것과, 워크로드를 정조준해 코어를 직접 빚는 것은 차원이 다른 결정이다.

Vera가 놓인 생태계

Vera는 독립 CPU가 아니다. Vera Rubin 플랫폼의 구성 요소로, Rubin GPU와 NVLink-C2C로 결합해 Vera Rubin Superchip을 형성한다. 이것이 다시 NVL72 랙(GPU 72개 + CPU 36개)의 핵심 컴퓨트 블록이 된다. 즉 Vera의 성능은 GPU와의 결합 효율로 완성되는 구조다.


graph LR
  A[Olympus 코어
88코어 176스레드] --> B[Vera CPU]
  B -->|NVLink-C2C
1.8 TB/s| C[Rubin GPU]
  B --> D[Vera Rubin
Superchip]
  C --> D
  D --> E[NVL72 랙
GPU 72·CPU 36]
  style A fill:#e8f8f5,stroke:#16a085
  style B fill:#eaf2f8,stroke:#2980b9
  style C fill:#fef9e7,stroke:#f39c12
  style D fill:#eafaf1,stroke:#27ae60
  style E fill:#f4ecf7,stroke:#8e44ad

🔗 다이어그램 요약: Olympus 코어 88개가 Vera CPU를 이루고, 이 CPU는 NVLink-C2C(1.8 TB/s)로 Rubin GPU와 묶여 Superchip이 되며, 그것이 다시 GPU 72·CPU 36 구성의 NVL72 랙으로 확장된다. Vera는 단독 칩이 아니라 GPU와의 결합으로 가치가 완성되는 부품이다.

⚙️ 프로세서 기반과 아키텍처 — Olympus 코어

ISA: ARM v9.2-A 기반, 그러나 코어는 100% 자체 설계

Vera는 x86이 아닌 Arm v9.2-A 명령어 집합을 따른다. 다만 Grace처럼 ARM의 기성 코어를 가져다 쓴 것이 아니라, ISA(명령어 집합)만 ARM 라이선스를 따르고 마이크로아키텍처는 엔비디아가 직접 설계한 커스텀 코어 "Olympus"다. ISA는 '언어'이고 마이크로아키텍처는 그 언어를 실행하는 '엔진'이라고 보면, 엔비디아는 ARM의 언어를 빌리되 엔진은 처음부터 자기 손으로 만든 것이다.

Olympus 코어 핵심 스펙

항목	상세
ISA	Arm v9.2-A
코어 수	88개
스레드 수	176개 (NVIDIA Spatial Multithreading)
프론트엔드	10-wide 명령어 fetch·decode
분기 예측기	신경망(Neural Branch Predictor), 1사이클에 taken branch 2개 처리
벡터 엔진	6×128-bit SVE2
FP8	코어 내 네이티브 지원
전세대 비교	Grace의 ARM Neoverse V2 → Olympus로 완전 교체

설계 포인트 세 가지

(1) 10-wide 프론트엔드 — 한 사이클에 10개 명령어를 fetch·decode한다. 경쟁 설계와 비교하면 폭이 압도적으로 넓다. 넓은 프론트엔드는 단일 스레드 IPC(클럭당 명령어 수)를 끌어올리는 데 결정적이며, 엔비디아는 이를 근거로 Grace 대비 IPC +50%를 주장한다. 아래는 디코드 폭 비교다.

NVIDIA Olympus

10-wide

Intel Sapphire R.

6-wide

AMD Zen 4

4-wide

(2) 신경망 분기 예측기 — 전통적 TAGE·Perceptron 예측기 대신 neural 구조를 채택했다. AI 추론·에이전트 루프처럼 비정형 제어 흐름이 많은 워크로드에서 미스 예측 페널티를 줄이려는 목적으로 보인다. 분기 예측이 빗나가면 파이프라인을 통째로 비우는 비용이 크기 때문에, 이 예측 정확도는 실효 성능에 직결된다.

(3) Spatial Multithreading — 하이퍼스레딩과 유사하나, 물리 코어 자원을 파티셔닝(분할 고정)하는 방식이다. 스레드 간 자원 경쟁을 줄여 예측 가능한 스루풋을 보장한다. 수백 개 동시 세션을 처리하는 AI 에이전트 서버에서, '평균은 빠른데 가끔 느린' 변동성보다 '항상 일정한' 응답이 더 중요하다는 통찰이 깔려 있다.

🧠 메모리·캐시·인터커넥트 구조

메모리 — LPDDR5x + SOCAMM

항목	Vera	Grace (전세대)
메모리 타입	LPDDR5x	LPDDR5
최대 용량	1.5 TB	~480 GB
최대 대역폭	1.2 TB/s	546 GB/s
코어당 대역폭	13.6 GB/s	7.6 GB/s
패키지 방식	SOCAMM (탈착식)	온보드 솔더드

핵심은 SOCAMM(Small Outline Compression-Attached Memory Module)이라는 신형 모듈 규격이다. Grace에서는 메모리가 보드에 고정 납땜돼 용량 확장·교체가 불가능했다. SOCAMM은 이를 해결해 서버 수명 주기 동안 메모리 업그레이드를 가능하게 하고, 결과적으로 데이터센터 TCO(총소유비용)를 낮춘다. 저전력(LPDDR) 특성과 서버급 서비스성을 동시에 달성하는 것이 설계 철학이다.

메모리 대역폭 — x86과의 격차

AI 추론에서 가장 흔한 병목은 연산력이 아니라 메모리 대역폭이다. Vera의 1.2 TB/s는 최신 x86 서버를 2.6~4배 상회한다.

NVIDIA Vera

1.2 TB/s

Grace (전세대)

546 GB/s

AMD EPYC 9755

~460 GB/s

Intel Xeon 6980P

~307 GB/s

캐시 계층

계층	크기	비고
L2	2 MB/코어	Grace 대비 2배
L3	164 MB (통합)	88코어 공유

통합 L3 164MB는 서버 CPU 기준으로도 대용량이다. AMD EPYC Turin의 3D V-Cache 구성(최대 768MB)에는 미치지 못하지만, 일반 구성의 EPYC(128~256MB L3)와 비슷하거나 많은 수준이다.

SCF — 2세대 Scalable Coherency Fabric

SCF는 88개 코어, L3 캐시, SOCAMM 메모리, I/O, NVLink-C2C를 단일 컴퓨트 다이 위에서 잇는 엔비디아 독자 온칩 인터커넥트다.

▶ 양방향 대역폭 3.4 TB/s ▶ 완전 부하 상태에서도 일관된 레이턴시 보장(캐시 일관성 프로토콜 통합). 전통적 링·메시 토폴로지 대신, GPU의 NVLink처럼 코어 간 고대역 일관성 유지를 최우선으로 설계한 패브릭이다.

NVLink-C2C — CPU-GPU 결합의 핵심

항목	Vera	Grace
NVLink-C2C 대역폭	1.8 TB/s	900 GB/s
PCIe 비교	PCIe Gen 6의 7배	—
특성	코히런트 (캐시 일관성)	—

핵심은 단순 고속 연결이 아니라 코히런트 인터커넥트라는 점이다. CPU와 GPU가 동일 메모리 주소 공간을 공유하고 캐시 일관성을 하드웨어가 보장하므로, 소프트웨어가 명시적 DMA 복사 없이 GPU 메모리에 직접 접근한다. 이는 AI 에이전트 루프(CPU=오케스트레이션, GPU=추론)에서 빈번한 CPU-GPU 데이터 핸드오프 비용을 대폭 줄인다.

여기에 PCIe Gen 6(Gen 5 대비 대역폭 2배)와 CXL 3.1 지원이 더해진다. CXL 3.1은 CPU-가속기-메모리 간 코히런트 인터커넥트 표준으로, 향후 다중 노드 메모리 풀링과 이기종 가속기 통합의 기반이 된다.

📊 성능 데이터

Grace 대비 세대 도약

전세대 Grace 대비 개선 폭을 백분율로 정렬하면 메모리 용량(+200%)과 대역폭(+120%)이 가장 크게 뛰었다.

메모리 용량 (3×)

+200%

메모리 대역폭

+120%

NVLink 대역폭 (2×)

+100%

Phoronix 기하평균

~+60%

IPC

+50%

x86 경쟁사 대비 (Phoronix 초기 벤치마크)

Phoronix가 프리프로덕션 실리콘으로 제한된 테스트셋을 공개했다. 대상은 Intel Xeon Granite Rapids 6980P(싱글/듀얼 소켓)와 AMD EPYC Turin 9755/9575F/9475F다.

지표	결과
기하평균(전체)	AMD EPYC 최고 구성 대비 +11%, Intel Xeon 싱글 소켓 대비 +55.3%
128코어 최신 x86 대비	약 1.5× 우위
STREAM TRIAD	정격 피크의 90% 실현, x86 대비 코어당 대역폭 4×
Linux 커널 컴파일	20초 (Phoronix 역대 최속)

🔴 반드시 짚을 한계: 엔비디아가 테스트 항목을 직접 선별했고, 전력 소비와 동작 주파수 데이터 공개를 불허했다. 따라서 현 시점에서 성능/와트(전력 효율) 비교는 불가능하다. 양산 실리콘 기준 완전한 독립 벤치마크는 2026년 하반기 출시 이후에야 나온다. 위 수치는 "엔비디아가 유리한 워크로드를 골랐다"는 전제 위에서 읽어야 한다.

⚔️ 레거시 x86 CPU와의 차별점

항목	x86 (Xeon / EPYC)	NVIDIA Vera
ISA	x86-64	Arm v9.2-A
코어 설계 목적	범용(서버+클라우드+HPC)	AI 에이전트·추론 특화
메모리	DDR5 / 일부 HBM	LPDDR5x (저전력·고대역)
메모리 패키지	DIMM	SOCAMM (통합 탈착식)
CPU-GPU 결합	PCIe (비코히런트)	NVLink-C2C 1.8 TB/s (코히런트)
멀티스레딩	하이퍼스레딩 (자원 경합)	Spatial MT (파티셔닝)
FP8	코어 외부 가속기 필요	코어 내 네이티브

가장 큰 차이는 CPU-GPU 결합 아키텍처다. x86 서버는 CPU가 PCIe로 GPU에 붙어 데이터 이동 시 복사 오버헤드·레이턴시가 발생한다. Vera는 NVLink-C2C로 CPU·GPU가 단일 코히런트 메모리 공간을 공유해 이 병목을 제거한다. 두 번째는 메모리 대역폭 전략이다. Vera의 1.2 TB/s는 x86 서버를 2.6~4배 상회하며, 메모리 대역폭이 병목인 AI 추론에서 결정적 우위를 만든다.

🎯 누가 Vera를 사들이는가

🟢 1차: AI 팩토리·하이퍼스케일러

▶ 배포 확정 — Oracle Cloud Infrastructure(OCI), 2026년부터 수십만 개 Vera CPU 배포
▶ 협력 거론 — Alibaba, Meta, ByteDance, CoreWeave, Lambda, Nebius, Nscale
공통점은 코딩 어시스턴트·엔터프라이즈 에이전트·소비자 챗봇 등 수천 개 동시 세션을 돌리는 대규모 에이전트 AI 인프라라는 점이다. 여기서 Vera의 스레드 밀도와 메모리 대역폭이 강점이 된다.

🟡 2차: 최전선 AI 연구소

▶ 탐색 단계로 거론 — OpenAI, Anthropic 등. 추론 인프라의 병목을 CPU 오케스트레이션·메모리 관리에서 겪는 곳이 Vera 설계가 직접 겨냥하는 대상이다.

💼 3차: OEM 서버 벤더

▶ 공식 파트너 — Dell, HPE, Lenovo, Supermicro. Vera 기반 서버를 엔터프라이즈에 공급한다.

🔴 비(非)타깃: 일반 엔터프라이즈·PC

Vera는 범용 서버나 Windows 서버, 레거시 x86 바이너리 의존도가 높은 환경을 겨냥하지 않는다. Arm 바이너리·컨테이너 생태계가 성숙한 클라우드 네이티브 환경이 전제 조건이다.

🧩 결론 — CPU 설계 철학의 전환

엔비디아 Vera는 단순 성능 업그레이드가 아니라 CPU 설계 철학의 전환이다. 범용성을 포기하고 AI 에이전트 시대의 특정 병목 — 메모리 대역폭, CPU-GPU 코히런시, 멀티스레드 예측성 — 에 집중 최적화했다. 초기 벤치마크상 Intel Xeon 최신 세대 대비 +55%, AMD EPYC 최고 구성 대비 +11% 우위는 주목할 만하나, 선별된 워크로드 + 전력 효율 미공개라는 단서가 붙는다.

🧠 한 줄 요약 — Vera는 "더 빠른 범용 CPU"가 아니라 "GPU를 위한 최적의 동반 두뇌"다. 그 가치는 단독 칩 성능표가 아니라 Rubin GPU와 한 몸이 됐을 때의 결합 효율로 측정해야 한다.

향후 전망 — 시나리오 연대기

현재

프리프로덕션
벤치마크 공개

2026 하반기

양산 실리콘
독립 검증

2027~

OCI 수십만대
배포 본격화

시나리오 A (긍정) — OCI의 수십만 대 배포가 성공하고 에이전트 AI 인프라 표준이 Vera Rubin 생태계로 굳어진다. 엔비디아가 GPU에 이어 CPU에서도 AI 데이터센터 핵심 공급자가 된다.

시나리오 B (불확실) — x86 소프트웨어 생태계 의존도, 전력 효율 미공개, 가격 경쟁력이 실제 배포에서 변수로 작동한다. AMD EPYC+MI350, AWS Graviton, Google Axion 등 자체 Arm CPU와의 경쟁도 변수다.

실질적 시사점

✓ 구매·투자 의사결정자는 2026년 하반기 양산 실리콘의 독립 검증 데이터를 보고 판단하는 것이 안전하다. 현 수치는 프리프로덕션 제한 조건 기반이다.
✓ Arm 생태계 호환이 전제이므로, 레거시 x86 의존 워크로드는 컨테이너화·재컴파일 비용을 반드시 셈해야 한다.
✓ CXL 3.1 지원은 향후 이기종 메모리·가속기 풀링으로의 확장 경로를 열어둔다.

※ 추가 확인 필요 영역: 양산 기준 실측 전력 효율, 가격, 경쟁 Arm 서버 CPU 대비 직접 벤치마크는 현재 미공개이며 출시 후 검증이 필요하다.

📚 참고 자료: NVIDIA Vera CPU 공식 페이지 · NVIDIA Technical Blog(Agentic Workloads / Performance) · Phoronix Vera Benchmarks · Tom's Hardware(Vera vs EPYC/Xeon) · ServeTheHome(Vera in Detail) · VideoCardz(Vera Rubin NVL72)

본 콘텐츠는 공개된 기술 자료와 초기 벤치마크를 바탕으로 작성된 정보 제공용 분석이며, 특정 제품의 구매나 종목 투자를 권유하지 않습니다. 서술된 성능 수치는 대부분 프리프로덕션 실리콘 기준 발표치로, 양산 제품의 실제 성능·전력 효율·가격과 차이가 있을 수 있습니다. 투자 및 도입 의사결정의 책임은 본인에게 있습니다.

📄 Raw Data

# 엔비디아 Vera CPU 완전 해부 — Olympus 코어 아키텍처·스펙·성능·시장 포지션

## 1. 질문 파악

이 리서치는 NVIDIA가 발표한 데이터센터 CPU **Vera**를 네 가지 축으로 분해한다. (1) 공개된 스펙과 성능 수치, (2) 어떤 프로세서·ISA 기반인지, (3) 아키텍처·메모리·캐시 구조의 내부 설계, (4) 기존 x86 레거시 CPU와의 차별점 및 타깃 고객층. 핵심 질문 뒤에 숨은 의도는 "엔비디아가 왜 ARM 상용 코어를 버리고 자체 코어를 만들었으며, 그것이 인텔·AMD의 서버 CPU 패권에 실제로 위협이 되는가"이다.

먼저 짚어야 할 전제 — 현재 공개된 자료는 대부분 **프리프로덕션(pre-production) 실리콘 기준의 NVIDIA 발표치와 제한된 초기 벤치마크**다. 정식 양산은 2026년 하반기로 예정되어 있어, 본 보고서의 성능 수치는 그 한계 위에서 읽어야 한다.

---

## 2. 기초 정보 — 엔비디아는 왜 CPU를 만드는가

### CPU 진출의 역사적 맥락

엔비디아는 2022년 **Grace CPU**로 데이터센터 CPU 시장에 처음 진입했다. Grace는 ARM의 상용 IP인 **Neoverse V2** 코어 72개를 탑재한 설계였다. 당시 목적은 CPU 단독 판매가 아니라, GPU(Hopper)와 NVLink-C2C로 밀결합한 **Grace Hopper Superchip**을 통해 데이터센터 컴퓨트 스택 전체를 장악하는 것이었다 (NVIDIA 공식 자료).

Vera는 그 전략의 2세대다. 결정적 변화는 **상용 ARM 코어를 버리고 엔비디아 최초의 완전 자체 설계 코어 "Olympus"를 탑재**했다는 점이다. 단순 세대 교체가 아니라, AI 에이전트 시대의 제어·추론·오케스트레이션 워크로드를 명시적 설계 목표로 삼은 전환이다 (NVIDIA Technical Blog).

### Vera가 놓인 생태계

Vera는 독립 CPU가 아니다. **Vera Rubin 플랫폼**의 구성 요소로, Rubin GPU와 NVLink-C2C로 결합해 **Vera Rubin Superchip**을 형성한다. 이것이 다시 **NVL72 랙(GPU 72개 + CPU 36개)**의 핵심 컴퓨트 블록이 된다 (VideoCardz, NVL72 자료). 즉 Vera의 성능은 GPU와의 결합 효율로 완성되는 구조다.

---

## 3. 프로세서 기반과 아키텍처 — Olympus 코어

### ISA: ARM v9.2-A 기반

Vera는 **x86이 아닌 Arm v9.2-A 명령어 집합**을 따른다. 다만 Grace처럼 ARM의 기성 코어를 가져다 쓴 것이 아니라, ISA만 ARM 라이선스를 따르고 마이크로아키텍처는 엔비디아가 직접 설계한 **커스텀 코어 "Olympus"**다 (ServeTheHome).

### Olympus 코어 핵심 스펙

| 항목 | 상세 |
|------|------|
| ISA | Arm v9.2-A |
| 코어 수 | 88개 |
| 스레드 수 | 176개 (NVIDIA Spatial Multithreading) |
| 프론트엔드 | 10-wide 명령어 fetch·decode |
| 분기 예측기 | 신경망(Neural Branch Predictor), 1사이클에 taken branch 2개 처리 |
| 벡터 엔진 | 6×128-bit SVE2 |
| FP8 | 코어 내 네이티브 지원 |
| 전세대 비교 | Grace의 ARM Neoverse V2 → Olympus로 완전 교체 |

(출처: NVIDIA Technical Blog, ServeTheHome)

### 설계 포인트 세 가지

**(1) 10-wide 프론트엔드** — 한 사이클에 10개 명령어를 fetch·decode한다. 경쟁 설계와 비교하면 폭이 넓다 (Intel Sapphire Rapids 6-wide, AMD Zen 4 4-wide decode 기준). 넓은 프론트엔드는 단일 스레드 IPC를 끌어올리는 데 결정적이며, 엔비디아는 이를 근거로 **Grace 대비 IPC +50%**를 주장한다.

**(2) 신경망 분기 예측기** — 전통적 TAGE·Perceptron 예측기 대신 neural 구조를 채택했다. AI 추론·에이전트 루프처럼 비정형 제어 흐름이 많은 워크로드에서 미스 예측 페널티를 줄이려는 목적으로 보인다.

**(3) Spatial Multithreading** — 하이퍼스레딩과 유사하나, 물리 코어 자원을 **파티셔닝(분할 고정)**하는 방식이다. 스레드 간 자원 경쟁을 줄여 예측 가능한 스루풋을 보장한다. 수백 개 동시 세션을 처리하는 AI 에이전트 서버에 적합한 설계다.

---

## 4. 메모리·캐시·인터커넥트 구조

### 메모리 — LPDDR5x + SOCAMM

| 항목 | Vera | Grace (전세대) |
|------|------|--------------|
| 메모리 타입 | LPDDR5x | LPDDR5 |
| 최대 용량 | 1.5 TB | ~480 GB |
| 최대 대역폭 | 1.2 TB/s | 546 GB/s |
| 코어당 대역폭 | 13.6 GB/s | 7.6 GB/s |
| 패키지 방식 | SOCAMM (탈착식) | 온보드 솔더드 |

(출처: NVIDIA 공식 페이지, NVIDIA Technical Blog)

핵심은 **SOCAMM(Small Outline Compression-Attached Memory Module)**이라는 신형 모듈 규격이다. Grace에서는 메모리가 보드에 고정 납땜되어 용량 확장·교체가 불가능했다. SOCAMM은 이를 해결해 서버 수명 주기 동안 메모리 업그레이드를 가능하게 하고, 결과적으로 데이터센터 TCO(총소유비용)를 낮춘다. **저전력(LPDDR) 특성과 서버급 서비스성을 동시에 달성**하는 것이 설계 철학이다.

### 캐시 계층

| 계층 | 크기 | 비고 |
|------|------|------|
| L2 | 2 MB/코어 | Grace 대비 2배 |
| L3 | 164 MB (통합) | 88코어 공유 |

통합 L3 164MB는 서버 CPU 기준으로도 대용량이다. AMD EPYC Turin의 3D V-Cache 구성(최대 768MB)에는 미치지 못하지만, 일반 구성의 EPYC(128~256MB L3)와 비슷하거나 많은 수준이다 (ServeTheHome).

### SCF — 2세대 Scalable Coherency Fabric

SCF는 88개 코어, L3 캐시, SOCAMM 메모리, I/O, NVLink-C2C를 단일 컴퓨트 다이 위에서 잇는 엔비디아 독자 온칩 인터커넥트다.

- **양방향 대역폭**: 3.4 TB/s
- 완전 부하 상태에서도 일관된 레이턴시 보장 (캐시 일관성 프로토콜 통합)

전통적 링·메시 토폴로지 대신, GPU의 NVLink처럼 코어 간 고대역 일관성 유지를 최우선으로 설계한 패브릭이다.

### NVLink-C2C — CPU-GPU 결합의 핵심

| 항목 | Vera | Grace |
|------|------|-------|
| NVLink-C2C 대역폭 | 1.8 TB/s | 900 GB/s |
| PCIe 비교 | PCIe Gen 6의 7배 | — |
| 특성 | 코히런트 (캐시 일관성) | — |

핵심은 단순 고속 연결이 아니라 **코히런트 인터커넥트**라는 점이다. CPU와 GPU가 동일 메모리 주소 공간을 공유하고 캐시 일관성을 하드웨어가 보장하므로, 소프트웨어가 명시적 DMA 복사 없이 GPU 메모리에 직접 접근한다. 이는 AI 에이전트 루프(CPU=오케스트레이션, GPU=추론)에서 빈번한 CPU-GPU 데이터 핸드오프 비용을 대폭 줄인다.

### PCIe Gen 6 + CXL 3.1

Vera는 **PCIe Gen 6**(Gen 5 대비 대역폭 2배)와 **CXL 3.1**을 지원한다. CXL 3.1은 CPU-가속기-메모리 간 코히런트 인터커넥트 표준으로, 향후 다중 노드 메모리 풀링과 이기종 가속기 통합의 기반이 된다.

---

## 5. 성능 데이터

### Grace 대비 세대 도약

| 지표 | 도약 |
|------|------|
| IPC | +50% |
| 메모리 대역폭 | +120% (546 GB/s → 1.2 TB/s) |
| 메모리 용량 | +3× |
| NVLink 대역폭 | +2× |
| Phoronix 기하평균 | 1.6~1.63× |

### x86 경쟁사 대비 (Phoronix 초기 벤치마크)

Phoronix가 프리프로덕션 실리콘으로 제한된 테스트셋을 공개했다. 대상은 Intel Xeon Granite Rapids 6980P(싱글/듀얼 소켓)와 AMD EPYC Turin 9755/9575F/9475F다.

| 지표 | 결과 |
|------|------|
| 기하평균(전체) | AMD EPYC 최고 구성 대비 +11%, Intel Xeon 싱글 소켓 대비 +55.3% |
| 128코어 최신 x86 대비 | 약 1.5× 우위 |
| STREAM TRIAD | 정격 피크의 90% 실현(테스트 중 최고 비율), x86 대비 코어당 대역폭 4× |
| Linux 커널 컴파일 | 20초 (Phoronix 역대 최속) |

(출처: Phoronix, Tom's Hardware)

> **반드시 짚을 한계**: 엔비디아가 테스트 항목을 직접 선별했고, **전력 소비와 동작 주파수 데이터 공개를 불허**했다. 따라서 현 시점에서 **성능/와트(전력 효율) 비교는 불가능**하다. 양산 실리콘 기준 완전한 독립 벤치마크는 2026년 하반기 출시 이후에야 나온다. 위 수치는 "엔비디아가 유리한 워크로드를 골랐다"는 전제 위에서 읽어야 한다.

---

## 6. 레거시 x86 CPU와의 차별점

| 항목 | x86 (Xeon / EPYC) | NVIDIA Vera |
|------|-------------------|-------------|
| ISA | x86-64 | Arm v9.2-A |
| 코어 설계 목적 | 범용(서버+클라우드+HPC) | AI 에이전트·추론 특화 |
| 메모리 | DDR5 / 일부 HBM | LPDDR5x (저전력·고대역) |
| 메모리 패키지 | DIMM | SOCAMM (통합 탈착식) |
| CPU-GPU 결합 | PCIe (비코히런트) | NVLink-C2C 1.8 TB/s (코히런트) |
| 멀티스레딩 | 하이퍼스레딩 (자원 경합) | Spatial MT (파티셔닝) |
| FP8 | 코어 외부 가속기 필요 | 코어 내 네이티브 |

**가장 큰 차이는 CPU-GPU 결합 아키텍처**다. x86 서버는 CPU가 PCIe로 GPU에 붙어 데이터 이동 시 복사 오버헤드·레이턴시가 발생한다. Vera는 NVLink-C2C로 CPU·GPU가 단일 코히런트 메모리 공간을 공유해 이 병목을 제거한다.

**두 번째는 메모리 대역폭 전략**이다. Intel Xeon 6980P는 8채널 DDR5로 약 307 GB/s, AMD EPYC 9755는 12채널 DDR5로 약 460 GB/s 수준이다. Vera의 1.2 TB/s는 이를 2.6~4배 상회하며, 메모리 대역폭이 병목인 AI 추론에서 결정적 우위를 만든다 (Tom's Hardware).

---

## 7. 타깃 고객층

### 1차: AI 팩토리·하이퍼스케일러
- **배포 확정**: Oracle Cloud Infrastructure(OCI) — 2026년부터 수십만 개 Vera CPU 배포
- **협력 거론**: Alibaba, Meta, ByteDance, CoreWeave, Lambda, Nebius, Nscale

공통점은 코딩 어시스턴트·엔터프라이즈 에이전트·소비자 챗봇 등 **수천 개 동시 세션을 돌리는 대규모 에이전트 AI 인프라**라는 점이다. 여기서 Vera의 스레드 밀도와 메모리 대역폭이 강점이 된다.

### 2차: 최전선 AI 연구소
- **탐색 단계로 거론**: OpenAI, Anthropic 등. 추론 인프라의 병목을 CPU 오케스트레이션·메모리 관리에서 겪는 곳이 Vera 설계가 직접 겨냥하는 대상이다.

### 3차: OEM 서버 벤더
- **공식 파트너**: Dell, HPE, Lenovo, Supermicro — Vera 기반 서버를 엔터프라이즈에 공급.

### 비(非)타깃: 일반 엔터프라이즈·PC
Vera는 범용 서버나 Windows 서버, 레거시 x86 바이너리 의존도가 높은 환경을 겨냥하지 않는다. **Arm 바이너리·컨테이너 생태계가 성숙한 클라우드 네이티브 환경이 전제 조건**이다.

---

## 8. 결론 및 시사점

### 핵심 분석

엔비디아 Vera는 단순 성능 업그레이드가 아니라 **CPU 설계 철학의 전환**이다. 범용성을 포기하고 AI 에이전트 시대의 특정 병목 — 메모리 대역폭, CPU-GPU 코히런시, 멀티스레드 예측성 — 에 집중 최적화했다. 초기 벤치마크상 Intel Xeon 최신 세대 대비 +55%, AMD EPYC 최고 구성 대비 +11% 우위는 주목할 만하나, **선별된 워크로드 + 전력 효율 미공개**라는 단서가 붙는다.

### 향후 전망 (시나리오별)

- **시나리오 A (긍정)**: OCI의 수십만 대 배포가 성공하고 에이전트 AI 인프라 표준이 Vera Rubin 생태계로 굳어진다. 엔비디아가 GPU에 이어 CPU에서도 AI 데이터센터 핵심 공급자가 된다.
- **시나리오 B (불확실)**: x86 소프트웨어 생태계 의존도, 전력 효율 미공개, 가격 경쟁력이 실제 배포에서 변수로 작동한다. AMD EPYC+MI350, AWS Graviton, Google Axion 등 자체 Arm CPU와의 경쟁도 변수다.

### 실질적 시사점

- 구매·투자 의사결정자는 **2026년 하반기 양산 실리콘의 독립 검증 데이터**를 보고 판단하는 것이 안전하다. 현 수치는 프리프로덕션 제한 조건 기반이다.
- Arm 생태계 호환이 전제이므로, **레거시 x86 의존 워크로드는 컨테이너화·재컴파일 비용**을 반드시 셈해야 한다.
- CXL 3.1 지원은 향후 이기종 메모리·가속기 풀링으로의 확장 경로를 열어둔다.

(추가 조사 필요 영역: 양산 기준 실측 전력 효율, 가격, 그리고 경쟁 Arm 서버 CPU 대비 직접 벤치마크는 현재 미공개이며 출시 후 확인이 필요하다.)
---

## References

- [NVIDIA Vera CPU 공식 페이지](https://www.nvidia.com/en-us/data-center/vera-cpu/)
- [NVIDIA Technical Blog — Agentic Workloads](https://developer.nvidia.com/blog/nvidia-vera-cpu-sets-a-new-standard-for-agentic-workloads-in-ai-factories/)
- [NVIDIA Technical Blog — Performance](https://developer.nvidia.com/blog/nvidia-vera-cpu-delivers-high-performance-bandwidth-and-efficiency-for-ai-factories/)
- [Phoronix Vera Benchmarks](https://www.phoronix.com/review/nvidia-vera-benchmarks)
- [Tom's Hardware — Vera vs EPYC/Xeon](https://www.tomshardware.com/desktops/servers/nvidias-vera-cpu-tested-in-common-linux-benchmarks-88-core-monster-competes-or-beats-amd-epyc-intel-xeon-in-carefully-curated-test)
- [ServeTheHome — Vera in Detail](https://www.servethehome.com/nvidias-vera-cpu-in-detail-high-perf-chip-takes-aim-at-broader-ai-server-market/)
- [VideoCardz — Vera Rubin NVL72](https://videocardz.com/newz/nvidia-vera-rubin-nvl72-detailed-72-gpus-36-cpus-260-tb-s-scale-up-bandwidth)

이 블로그 검색

Brave Ogu

구글 안티그래비티 완전 분석 — 모델·요금제·CLI 총정리