안녕하세요 동국시스템즈 박용원입니다.
오늘은 새롭게 브랜딩한 HPE Cray Supercomputing 관련 내용을 소개해 드리려고 합니다!
지난번 Partner Day에서 들어보니 아예 HPC/AI 분야를 통틀어 새롭게 브랜딩 했다고 합니다 🙂
그것이 바로 HPE Cray Supercomputing 입니다!
나아가 기존 Apollo 모델들이 Cray XD로 명칭이 변경되었었죠~
그렇다면 Cray XD 장비에는 어떤 종류들이 있을까요?

현재까지 이렇게 세 가지 모델이 announce 되어 있습니다.
XD670은 이미 출시되었고, XD665는 올해 12월 출시 예정, XD670A는 내년 출시 예정인 점 참고 부탁 드립니다.
좀 더 상세하게 살펴 볼게요!
💜Cray XD670

우선 기존에 있던 장비부터 소개해볼게요.
Cray XD670 장비는 LLM (Large Language Model의 약자) 즉 대규모 연산 트레이닝에 적합한 모델입니다.
내부에는 NVIDIA H100 GPU 8개가 NVLink 타입으로 내장되어 있습니다.
CPU는 Intel Sapphire Rapids (4세대) 라인이 2개 구성되어 있죠.
메모리는 32개까지 장착 가능하며, 디스크는 NVMe 디스크 총 8개 장착 가능합니다.
💜Cray XD665

12월 출시 예정인 Cray XD665 입니다.
Cray XD665 장비는 대규모 연산 트레이닝용보다 작은 규모의 HPC와 AI에 특화된 서버입니다.
내부에는 NVIDIA H100 GPU 4개가 NVLink 타입으로 내장되어 있습니다.
‘5’로 끝나는 장비 이름부터 알 수 있듯이 AMD CPU가 장착되어 있습니다.
AMD Genoa (4세대) 라인이 2개 구성되어 있죠.
메모리는 24개까지 장착 가능하며, 디스크는 Cray XD670과 마찬가지로 NVMe 디스크 총 8개 장착 가능합니다.
Cray XD665는 HPE Cray Supercomputing 라인 중 가장 시장성이 좋고,
HPE에서 심혈을 기울여 만든 장비라고 해요!
그 이유는 Cray XD670 장비의 경우 H100 GPU가 8개나 들어가기 때문에 Cray XD665 장비보다 비쌀 뿐더러,
현실적으로 8개 GPU까지 필요한 고객사는 드물기 때문입니다.
따라서 고객의 구매 목적과 예산 등에 맞춰 알맞은 서버를 추천해주시면 좋겠죠? 🙂
💜Cray XD670A

이 장비는 내년에 출시될 예정인데요.
Cray XD670A는 AI 트레이닝 및 Inference 워크로드에 특화되어 있는 서버입니다.
또한, Cray XD670과 똑같은 샤시에 구성되며, 장착되는 GPU 제조사만 다르다고 보시면 됩니다.
내부에는 AMD MI300X GPU 8개가 NVLink 타입으로 내장되어 있습니다.
요즘 들어 NVIDIA GPU 수급이 불안정하다는 말이 많아, 대안으로 나온 제품이라고 보시면 좋겠죠!

(출처 : AMD)
AMD MI300X GPU는 가성비가 좋고, 빠른 수급이 가능하다는 장점이 있습니다.
또한, GPU 메모리도 192GB HBM3이나 됩니다!
그 외 CPU, 메모리, 디스크는 Cray XD670 장비와 동일하게 들어갑니다.
😯냉각 방식 (Cooling)
이러한 AI 인프라들이 점점 출시됨에 따라 우리가 고려해야 할 것은 바로 “냉각”이죠!
CPU, GPU 모두 성능이 하루가 다르게 좋아지고 있어, 이에 걸맞게 발열량도 높아지고 있습니다.
따라서 기존 Air Cooling (공냉) 방식으로는 발열량을 잡는 데에 한계가 있게 된 것이죠.

그래서 요즘 나오는 서버들은 Air Cooling 방식 뿐만 아니라 DLC 방식도 채택합니다!
DLC 방식이란 Direct Liquid Cooling의 약자로, 직접 수냉 방식을 의미합니다.
Air Cooing 방식과 DLC 방식의 차이는 무엇일까요?
[Air Cooling]
* 개요: 공냉은 공기를 사용하여 열을 제거하는 냉각 기술입니다.
* 동작 원리: 냉각 팬이나 히트 싱크를 사용하여 열을 흡수하고 공기를 통해 방출합니다.
* 장점: 수냉에 비해 설치가 비교적 간단하며, 유지 보수가 쉽고 저렴합니다.
* 단점: 수냉에 비해 열 효율이 한계에 도달할 수 있고, 소음이 큰 편입니다.
[Direct Liquid Cooling]
* 개요: 직접 액체 냉각은 전자 기기의 열을 효과적으로 제거하기 위해 냉각 액체를 직접 사용하는 방식입니다.
주로 고성능 컴퓨팅 및 데이터 센터 환경에서 사용됩니다.
* 동작 원리:
1) 열 흡수: 냉각 액체는 튜브나 채널을 통해 순환합니다. 이 액체는 서버의 열을 흡수하게 됩니다.
2) 열 이동: 냉각 액체는 열을 흡수한 후 냉각 시스템으로 이동하여 열을 방출하고, 이 과정을 계속 반복합니다.
* 장점: 높은 열 효율을 제공하며, 일반적으로 소음이 작습니다.
* 단점: 설치가 다소 복잡하고, 비용이 높습니다.
또한, 서버가 위치하는 곳 또는 데이터 센터의 환경이 DLC 방식에 적합해야 설치가 가능하다는 한계가 있습니다.
번외로, Cray XD665 장비는 독특한 냉각 방식을 선보이는데요!
바로 Closed Loop Liquid Cooling 방식입니다.

이 방식은 폐쇄 회로 액체 냉각 방식을 의미하는데, 사용자가 개입하지 않는 미리 봉인된 시스템으로 구성됩니다.
따라서 냉각 액체를 추가하거나 유지 보수하는 데 필요한 작업이 없다는 것을 의미하죠.
기존 DLC 방식은 설치하려면 서버가 위치하는 곳 또는 데이터 센터의 환경을 고려해야 한다는 한계가 있었죠?
Closed Loop Liquid Cooling 방식은 다릅니다!
별도 설비 필요 없이 일반 Rack에 바로 적용이 가능하다는 장점이 있습니다 🙂
그러나 열 효율은 당연히 DLC 방식이 더 높겠죠?
상황에 맞게 선택하여 구성해주시면 좋을 것 같아요~
이렇게 Cray 장비들과 냉각 방식에 대해서 알아봤는데요!
그렇다면 어떤 상황에 어떤 서버를 선택해야 할까요?

우선 PCIe 타입 GPU는 Cray XD6500 장비에 호환되지 않습니다!
즉, GPU 간 통신(HGX 타입)이 필요하다면?
👉 Cray XD 모델로 선택하시는게 좋겠죠!
그리고 대규모 연산 트레이닝이 필요하다면!
👉 8개 GPU가 장착된 Cray XD670/XD670A를 추천드립니다.
반면, 나는 대규모까지는 아니지만 HPC & AI에 특화된 서버가 필요하다면! 그리고 가성비가 중요하다면!
👉 Cray XD665를 추천드려요.
이외에 나는 간단한 Inferencing 정도만 할 예정이고, GPU 간 통신 없이 PCIe 타입 GPU로 장착해도 된다면!
👉 DL380a Gen11 서버를 사용하셔도 좋을 것 같아요.
여기까지 HPE Cray Supercomputing에 대해서 알아봤는데요 🙂
문의 사항 있으시면 언제든지 연락 부탁 드립니다!
감사합니다.

안녕하세요 동국시스템즈 박용원입니다.
오늘은 새롭게 브랜딩한 HPE Cray Supercomputing 관련 내용을 소개해 드리려고 합니다!
지난번 Partner Day에서 들어보니 아예 HPC/AI 분야를 통틀어 새롭게 브랜딩 했다고 합니다 🙂
그것이 바로 HPE Cray Supercomputing 입니다!
나아가 기존 Apollo 모델들이 Cray XD로 명칭이 변경되었었죠~
그렇다면 Cray XD 장비에는 어떤 종류들이 있을까요?
현재까지 이렇게 세 가지 모델이 announce 되어 있습니다.
XD670은 이미 출시되었고, XD665는 올해 12월 출시 예정, XD670A는 내년 출시 예정인 점 참고 부탁 드립니다.
좀 더 상세하게 살펴 볼게요!
💜Cray XD670
우선 기존에 있던 장비부터 소개해볼게요.
Cray XD670 장비는 LLM (Large Language Model의 약자) 즉 대규모 연산 트레이닝에 적합한 모델입니다.
내부에는 NVIDIA H100 GPU 8개가 NVLink 타입으로 내장되어 있습니다.
CPU는 Intel Sapphire Rapids (4세대) 라인이 2개 구성되어 있죠.
메모리는 32개까지 장착 가능하며, 디스크는 NVMe 디스크 총 8개 장착 가능합니다.
💜Cray XD665
12월 출시 예정인 Cray XD665 입니다.
Cray XD665 장비는 대규모 연산 트레이닝용보다 작은 규모의 HPC와 AI에 특화된 서버입니다.
내부에는 NVIDIA H100 GPU 4개가 NVLink 타입으로 내장되어 있습니다.
‘5’로 끝나는 장비 이름부터 알 수 있듯이 AMD CPU가 장착되어 있습니다.
AMD Genoa (4세대) 라인이 2개 구성되어 있죠.
메모리는 24개까지 장착 가능하며, 디스크는 Cray XD670과 마찬가지로 NVMe 디스크 총 8개 장착 가능합니다.
Cray XD665는 HPE Cray Supercomputing 라인 중 가장 시장성이 좋고,
HPE에서 심혈을 기울여 만든 장비라고 해요!
그 이유는 Cray XD670 장비의 경우 H100 GPU가 8개나 들어가기 때문에 Cray XD665 장비보다 비쌀 뿐더러,
현실적으로 8개 GPU까지 필요한 고객사는 드물기 때문입니다.
따라서 고객의 구매 목적과 예산 등에 맞춰 알맞은 서버를 추천해주시면 좋겠죠? 🙂
💜Cray XD670A
이 장비는 내년에 출시될 예정인데요.
Cray XD670A는 AI 트레이닝 및 Inference 워크로드에 특화되어 있는 서버입니다.
또한, Cray XD670과 똑같은 샤시에 구성되며, 장착되는 GPU 제조사만 다르다고 보시면 됩니다.
내부에는 AMD MI300X GPU 8개가 NVLink 타입으로 내장되어 있습니다.
요즘 들어 NVIDIA GPU 수급이 불안정하다는 말이 많아, 대안으로 나온 제품이라고 보시면 좋겠죠!
(출처 : AMD)
AMD MI300X GPU는 가성비가 좋고, 빠른 수급이 가능하다는 장점이 있습니다.
또한, GPU 메모리도 192GB HBM3이나 됩니다!
그 외 CPU, 메모리, 디스크는 Cray XD670 장비와 동일하게 들어갑니다.
😯냉각 방식 (Cooling)
이러한 AI 인프라들이 점점 출시됨에 따라 우리가 고려해야 할 것은 바로 “냉각”이죠!
CPU, GPU 모두 성능이 하루가 다르게 좋아지고 있어, 이에 걸맞게 발열량도 높아지고 있습니다.
따라서 기존 Air Cooling (공냉) 방식으로는 발열량을 잡는 데에 한계가 있게 된 것이죠.
그래서 요즘 나오는 서버들은 Air Cooling 방식 뿐만 아니라 DLC 방식도 채택합니다!
DLC 방식이란 Direct Liquid Cooling의 약자로, 직접 수냉 방식을 의미합니다.
Air Cooing 방식과 DLC 방식의 차이는 무엇일까요?
[Air Cooling]
* 개요: 공냉은 공기를 사용하여 열을 제거하는 냉각 기술입니다.
* 동작 원리: 냉각 팬이나 히트 싱크를 사용하여 열을 흡수하고 공기를 통해 방출합니다.
* 장점: 수냉에 비해 설치가 비교적 간단하며, 유지 보수가 쉽고 저렴합니다.
* 단점: 수냉에 비해 열 효율이 한계에 도달할 수 있고, 소음이 큰 편입니다.
[Direct Liquid Cooling]
* 개요: 직접 액체 냉각은 전자 기기의 열을 효과적으로 제거하기 위해 냉각 액체를 직접 사용하는 방식입니다.
주로 고성능 컴퓨팅 및 데이터 센터 환경에서 사용됩니다.
* 동작 원리:
1) 열 흡수: 냉각 액체는 튜브나 채널을 통해 순환합니다. 이 액체는 서버의 열을 흡수하게 됩니다.
2) 열 이동: 냉각 액체는 열을 흡수한 후 냉각 시스템으로 이동하여 열을 방출하고, 이 과정을 계속 반복합니다.
* 장점: 높은 열 효율을 제공하며, 일반적으로 소음이 작습니다.
* 단점: 설치가 다소 복잡하고, 비용이 높습니다.
또한, 서버가 위치하는 곳 또는 데이터 센터의 환경이 DLC 방식에 적합해야 설치가 가능하다는 한계가 있습니다.
번외로, Cray XD665 장비는 독특한 냉각 방식을 선보이는데요!
바로 Closed Loop Liquid Cooling 방식입니다.
이 방식은 폐쇄 회로 액체 냉각 방식을 의미하는데, 사용자가 개입하지 않는 미리 봉인된 시스템으로 구성됩니다.
따라서 냉각 액체를 추가하거나 유지 보수하는 데 필요한 작업이 없다는 것을 의미하죠.
기존 DLC 방식은 설치하려면 서버가 위치하는 곳 또는 데이터 센터의 환경을 고려해야 한다는 한계가 있었죠?
Closed Loop Liquid Cooling 방식은 다릅니다!
별도 설비 필요 없이 일반 Rack에 바로 적용이 가능하다는 장점이 있습니다 🙂
그러나 열 효율은 당연히 DLC 방식이 더 높겠죠?
상황에 맞게 선택하여 구성해주시면 좋을 것 같아요~
이렇게 Cray 장비들과 냉각 방식에 대해서 알아봤는데요!
그렇다면 어떤 상황에 어떤 서버를 선택해야 할까요?
우선 PCIe 타입 GPU는 Cray XD6500 장비에 호환되지 않습니다!
즉, GPU 간 통신(HGX 타입)이 필요하다면?
👉 Cray XD 모델로 선택하시는게 좋겠죠!
그리고 대규모 연산 트레이닝이 필요하다면!
👉 8개 GPU가 장착된 Cray XD670/XD670A를 추천드립니다.
반면, 나는 대규모까지는 아니지만 HPC & AI에 특화된 서버가 필요하다면! 그리고 가성비가 중요하다면!
👉 Cray XD665를 추천드려요.
이외에 나는 간단한 Inferencing 정도만 할 예정이고, GPU 간 통신 없이 PCIe 타입 GPU로 장착해도 된다면!
👉 DL380a Gen11 서버를 사용하셔도 좋을 것 같아요.
여기까지 HPE Cray Supercomputing에 대해서 알아봤는데요 🙂
문의 사항 있으시면 언제든지 연락 부탁 드립니다!
감사합니다.