자세히 보기

Senior Reporter

엔비디아, 새로운 이더넷 알고리즘 공개··· “분산된 GPU 최적화 지원”

엔비디아 스펙트럼-X(Spectrum-X) 시스템에 적용되는 새로운 알고리즘은 여러 서버와 데이터센터 간 GPU 연결 성능을 정밀하게 조율하도록 설계됐다.

Nvidia Spectrum-X
Credit: Nvidia

엔비디아(Nvidia)가 장거리 GPU 간 이더넷(Ethernet) 통신의 속도와 안정성을 높이기 위한 새로운 이더넷 알고리즘을 지난 29일 공개했다.

이날 발표된 스펙트럼-XGS(Spectrum-XGS) 알고리즘은 엔비디아의 최신 이더넷 장비에 내장된 소프트웨어 프로토콜로, 데이터센터 간 장거리 네트워크 성능을 자동으로 최적화한다. 엔비디아는 이를 통해 여러 서버에 분산된 GPU가 하나의 통합된 AI 슈퍼컴퓨터처럼 작동할 수 있도록 지원한다고 설명했다.

엔비디아 네트워킹 담당 수석부사장 길라드 샤이너는 “새로운 하드웨어 요소가 아니라 기존 스펙트럼-X 인프라를 활용하는 것”이라며 “이번 알고리즘을 통해 사이트 간 장거리 구간에서도 더 많은 데이터를 효율적으로 전송할 수 있다”라고 말했다.

샤이너는 오는 26일 미국 캘리포니아 팔로알토에서 열리는 핫 칩스(Hot Chips) 컨퍼런스에서 세부 내용을 공개할 예정이다.

샤이너에 따르면 현재 기업들은 규모와 전력 한계로 인해 데이터센터를 분산 설치하고 있으며, GPU 역시 더 먼 거리에 걸쳐 배치되는 추세다. XGS 알고리즘은 데이터센터 간 거리, 트래픽 패턴, 혼잡 수준, 성능 지표 등 실시간 텔레메트리를 분석해 장거리 네트워크 성능을 조정한다. 이를 바탕으로 혼잡 제어, 라우팅, 로드 밸런싱을 최적화해 효율적인 데이터 전송을 가능하게 한다.

샤이너는 “기존 이더넷은 모든 연결을 동일하게 취급하지만, XGS는 필요한 거리 조건에 맞춰 알고리즘을 자동으로 조정한다”라고 설명했다. 현재 스펙트럼-XGS는 수백 킬로미터 이상 떨어진 데이터센터를 대상으로 구현이 진행되고 있으며, 스펙트럼-X 스위치, 커넥트X-8 슈퍼NIC, 그리고 블랙웰(Blackwell) GPU 기반 시스템에 적용되고 있다.

샤이너는 “이 알고리즘은 데이터센터 내부에서 사용하는 것과는 다르다”라고 덧붙였다.

표준의 최적화

이더넷은 업계 표준이지만, 벤더들은 자사 이더넷 장비에 맞게 자체적으로 조정하는 경우가 일반적이다.

티리어스리서치(Tirias Research) 수석 애널리스트 짐 맥그리거는 “스펙트럼-XGS는 엔비디아가 장거리 GPU 및 AI 통신을 위해 이더넷을 맞춤화한 첫 사례일 가능성이 있다”라고 말했다.

맥그리거는 “거리 측정이 가능하면 전체 성능을 향상시킬 수 있다. 하지만 데이터센터 내부에서의 성능 측정과 데이터센터 간 성능을 추정하는 것은 전혀 다른 문제”라고 설명했다.

다만 맥그리거는 전력과 비용 제약으로 인해 GPU가 결국 더 먼 거리에 분산될 것이라고 진단하면서, “이는 컨테이너형 모듈식 데이터센터와 같이 고객이 배치한 뒤 스케일아웃 네트워크로 연결하는 환경에서 효과를 발휘할 수 있다”라고 말했다.

넥스트커브(Next Curve) 수석 애널리스트 레너드 리는 여러 캠퍼스에 걸쳐 학습 클러스터를 운영하거나 배치 지역의 가용 전력이 제한된 기업에 이 기술이 도움이 될 수 있다고 봤다. 그러면서 “현재는 주로 학습에 초점이 맞춰져 있는 것으로 보이지만, XGS가 추론에서도 기회를 찾을 것이라는 데 의심의 여지가 없다”라고 말했다.

샤이너는 벤더가 장비에 적용하는 이더넷 최적화가 구현 방식에 따라 달라진다고 말했다. 그는 가상화 데이터센터는 작은 패킷 처리에 초점을 맞추고, 대규모 클라우드 사업자는 처리량에 집중하며, 서비스 제공업체는 장거리 전송을 위해 더 깊은 버퍼를 활용한다고 설명했다.

엔비디아는 이를 위해 XGS 조정 기능인 ‘패킷 단위의 세밀한 적응형 라우팅(fine-grain adaptive routing)’을 제공한다. 샤이너는 패킷 손실을 막기 위해 패킷을 대기열에 쌓아두는 딥 버퍼 문제나 전송 중 발생하는 패킷 손실 문제를 제거할 수 있다고 설명했다.

또한 그는 일반적으로 AI 작업이 여러 조각으로 나뉘어 GPU에 분산되고, 이후 이를 조율해 일관된 결과를 도출한다면서, 적응형 라우팅이 장거리 네트워크 환경에서도 GPU들이 AI 워크로드를 실행할 때 동기화 상태를 유지하도록 보장한다고 설명했다.

지터 문제

샤이너는 “패킷을 재전송하면 지터(jitter)가 발생하는데, 이는 여러 GPU 중 하나가 지연돼 다른 모든 GPU가 해당 GPU의 처리가 끝날 때까지 기다려야 한다는 의미”라고 말했다.

그에 따르면 스펙트럼-XGS 알고리즘은 혼잡 제어 개선을 통해 스위치 간 전송을 균형 있게 분산시켜 병목 현상을 해소한다. 엔비디아 임원들은 기술 브리핑에서, 자사 서버 하드웨어에 XGS 알고리즘을 적용해 시험한 결과 범용 네트워킹 기술 대비 GPU 간 통신 성능이 1.9배 향상됐다고 밝혔다.

다만 현재 주요 클라우드 기업들은 이미 장거리 고속 네트워크를 보유하고 있다. 예를 들어 구글의 대규모 주피터(Jupiter) 네트워크는 광 스위칭(optical switching) 기술을 활용해 자사 AI 칩 TPU 간 고속 통신을 구현하고 있다.

그러나 샤이너는 물리적 인프라와 XGS와 같은 소프트웨어 알고리즘을 구분하는 것이 중요하다고 말했다. 대륙 전역을 잇는 광 네트워크가 이미 시스템 간 연결을 제공하고 있지만, 그 위에서 동작하는 첨단 소프트웨어 프로토콜이 실제 성능을 좌우한다는 설명이다.

인피니밴드에서의 전환

이더넷은 50년의 역사를 가진 기술이지만, 엔비디아는 장거리 GPU 통신에서 주로 인피니밴드(InfiniBand)를 강조해 온 만큼 이를 주요 시장으로 고려하지 않았다.

하지만 맥그리거는 비용 등 여러 이유로 인해 업계 전반이 개방형 표준인 이더넷으로 점차 전환하고 있다고 분석했다.

넥스트커브의 리는 XGS 기술을 도입하면 고객이 다른 엔비디아 제품에도 의존할 수밖에 없게 될 것이라고 진단했다. 그는 “엔비디아는 자사 하드웨어를 위한 풀스택 솔루션을 제공하려 하면서도, NV링크 퓨전(NVLink Fusion) 같은 제품과 조합할 수 있는 선택지도 함께 마련하려 한다”라고 설명했다.

네트워킹은 엔비디아에게 점점 더 중요한 시장으로 떠오르고 있다. 회사는 지난 4월 27일 종료된 최근 분기에서 50억 달러의 네트워킹 매출을 기록했으며, 이는 지난해 동기 대비 56% 증가한 수치다.

하지만 경쟁도 만만치 않다. 리는 아리스타(Arista), 시스코(Cisco), 시에나(Ciena), 브로드컴(Broadcom) 등 이더넷 업체들이 캠퍼스와 지역 네트워크 장비를 광 네트워킹 중심으로 재편하며 시장을 공략하고 있다고 말했다.
dl-ciokorea@foundryco.com