国产无码三级电影|日韩中文字码无砖|最新可用AV网址|日韩无码av免费|999久久久精品|久草香蕉婷婷视频|在线观看日韩a.|免费的二三级毛片|亚洲无码四虎在线|成人AⅤ福利无码

長沙共和信息科技公司供應曙光服務器、浪潮服務器、惠普服務器及工作站!HP服務器代理商 | 中科曙光服務器
  • 長沙惠普服務器代理商
您所在的位置:首頁 > 新聞中心  > 解決方案
超微GPU Server H100/H200 系統(tǒng)介紹
來源:www.meijipin.net 發(fā)布時間:2024/10/28 10:47:44

嚴格意義上HGX里面有8個GPU,每個GPU為一個Module 這個才叫做模組,HGX 其實是由8個GPU 模組和4個NVLInk Switch組成,下圖所示,就是每個上圖的SINK 下面的GPU模組。




放大的圖:

     嚴格意義的模組 中間就是H100/A100這種GPU,通過SXM SOCKET 接口和GPU主板連接。



然后下圖是8個GPU 模組通過4 個NVLINK SWITCH 連接,組成一個8GPU的“大號”GPU。




在H100 SXM GPU上加裝散熱器后,便構成了HGX,這是由英偉達設計的一種配置,作為直接供應給服務器制造商的“最 小單元”。需要注意的是,HGX本身并不能單獨運行,因為它本質(zhì)上是一個“大型邏輯GPU”,必須與服務器平臺(即服務器主體)結(jié)合使用,才能構成一個完整的GPU服務器。這種完整的服務器便是NVIDIA DGX,一款由英偉達品牌提供的GPU服務器。除了核心的HGX模塊之外,DGX還配備了服務器所需的其他組件,如機箱、主板、電源、CPU、內(nèi)存、存儲設備及網(wǎng)絡接口卡等。 盡管在功能和結(jié)構上,NVIDIA DGX與其他服務器制造商基于HGX模塊構建的GPU服務器沒有顯 著差異,但由于其高昂的價格以及可能與合作伙伴產(chǎn)生市場競爭的考慮,NVIDIA通常不會廣泛推廣DGX產(chǎn)品,除非是針對特定客戶群體。事實上,NVIDIA DGX更多地出現(xiàn)在每年GTC大會等場合,用于展示 新的GPU技術,例如直接贈送給像ChatGPT實驗室這樣的研究機構或在發(fā)布會上向客戶展示。這一策略既體現(xiàn)了NVIDIA希望通過DGX來吸引關注和宣傳新技術的意圖,同時也避免了與生態(tài)系統(tǒng)中的合作伙伴發(fā)生直接競爭。


因此,從某種程度上講,DGX可以被視為一種“概念車型”的存在,主要用于技術和市場的展示目的,而非大規(guī)模商業(yè)銷售。出于對合作伙伴關系的維護,NVIDIA在多數(shù)情況下并不在美國及其他地區(qū)廣泛銷售DGX。鑒于此,為了更貼合實際應用情況,我們將以超微公司的一款SYS-821GE-TNHR AI服務器為例進行介紹,這款服務器在設計和性能上與DGX有著相似之處。










接下來就是這個系統(tǒng)貴的部分HGX的俯視圖, 主要由8個H100 和4個NVLINK Switch組成,號稱占到整個系統(tǒng)的90%,這個就是Intel 的股票為啥腰斬,而NVIDIA的股票狂漲的原因。AIGC這波操作,Intel幾乎沒有賺到多少錢 ,一個系統(tǒng)就賣2個CPU 估計1%都不到,但是8個GPU占到整個系統(tǒng)的90%成本。





系統(tǒng)架構圖:

觀看了整個機器的外部和內(nèi)部結(jié)構,在這個基礎上理解系統(tǒng)架構圖就比較容易

1.  上面的motherboard 主板,主板主要由CPU  內(nèi)存組成,兩個CPU  SOCKET 通過4個UPI LINK連接,CPU通過DMI連接PCH (南橋,Intel 又叫 Platform Controller Hub) 再連接BMC和2個M.2 Nvme 應該裝OS使用,2個M.2 NVMe 可以組成RAID 1.

2.  中間底部的表示的為上面介紹的PCIe Switch Board, 每個CPU因為是Intel 第4代/5代 CPU 可以支持80個PCIe Lane ,所以總共可以支持160Lane,連接到6個PCIe Switch ,其中4個PCIe Switch 是用來和HGX 上的GPU通信的,每個PCIe SW上端USP(Upstream Port) 32 PCIe Lane ,下端DSP(Downstream Port) 72 PCIe Lane 總共104 Lane。DSP 下端每個PCIe Switch可以接兩張x16網(wǎng)卡,總共8張網(wǎng)卡,假設每個網(wǎng)卡可以提供200Gb/s的帶寬, 則可以通過這些網(wǎng)卡實現(xiàn)1.6T Gb/s的跨Node GPU-GPU帶寬,使用GPUDirect RDMA 可以實現(xiàn)GPU跨Node 的直接連接而無需CPU介入 ,從而實現(xiàn)Server 和  Server之間的8 GPU通訊,把若干各8 GPU組網(wǎng)連接在一起。這對大模型訓練特別有用,大模型訓練里面一個概念 模型并行,模型并行(Model Parallel, MP)通常是指在多個計算節(jié)點上分布式地訓練一個大型的神經(jīng)網(wǎng)絡模型,其中每個節(jié)點負責模型的一部分。這種方法主要用于解決單個計算節(jié)點無法容納整個模型的情況。模型并行可以進一步細分為幾種策略,PP和TP。每個PCIe Switch  DSP里面還有另外兩個x16 PCIe lane用來接入GPU到HGX,這個是CPU-GPU的通信,主要是CPU對GPU進行控制流的操作,類似大模型的訓練都在HGX 里面的GPU執(zhí)行了,但是開始進行初始化和一些數(shù)據(jù)準備操作以及命令配置等是由CPU 代表操作系統(tǒng)模型框架來下發(fā)到GPU的,所以還是需要通信的,只不過這個通信沒有GPU-GPU之前的數(shù)據(jù)量那么大。每個PCIe SW 還有一個8lane 是留給2 x NVMe SSD 使用,總共支持64lane ,8個NVMe SSD 用來進行本地存儲。

3.   兩側(cè)各可以配置一個PCIe Switch這兩個一個是default 一個是可選,用來做CPU 的網(wǎng)絡通信使用,即這兩個CPU和其他的Server 之間的通信,可以配置為NIC 或者DPU 做NVMe RoceV2 協(xié)議卸載,可以實現(xiàn)GDS和存算分離的存儲集群通過 GDS( GPUDriect Stroage )連接。另外兩個x16的PCIE 再可以接8個NVme 加上PCIe Switch board 的8個系統(tǒng)總共支持18個NVME U.2.



來源: stephenxi 計算機體系結(jié)構及底層原理 公眾號







掃二維碼咨詢
產(chǎn)品導航

曙光服務器

浪潮服務器
惠普服務器
新華三服務器
寶德服務器
聯(lián)系我們

座機:
0731-89842037  89842038  89842039

電話:130-3678-6724   133-8731-9287
地址:長沙市雨花區(qū)勞動東路139號新世界廣場
郵箱:luolie130@163.com
關于我們

公司介紹
企業(yè)文化
資質(zhì)榮譽
企業(yè)郵局