適用于主流企業服務器的多用途計算加速GPU
NVIDIA A30 Tensor Core GPU 為各種企業工作負載帶來加速性能。例如大規模 AI 推理和高性能計算 (HPC) 應用程序。
具有 PCIe 外形規格(非常適合主流服務器)的 NVIDIA A30 Tensor Core GPU 集快速顯存帶寬與低功耗于一體,不僅能實現彈性數據中心,還能為企業帶來更大價值。
NVIDIA A30 Tensor Core GPU 采用的 NVIDIA Ampere 架構,以 540 億個晶體管打造,是有史以來最大的 7 納米 (nm) 芯片,包含多項關鍵的突破性創新。
1. 第三代 Tensor 核心
NVIDIA Tensor 核心技術最先運用在 NVIDIA Volta? 架構上,不只大幅加速人工智能,也將訓練時間從數周降至數小時,同時顯著提升推論速度。NVIDIA Ampere 架構以這些創新技術為基礎,采用全新精度標準 Tensor Float 32 (TF32) 與 64 位浮點 (FP64),以加速并簡化人工智能應用,同時將 Tensor 核心效能拓展至高效能運算。
TF32 與 FP32 運作方式相同,無需更改任何程序代碼即可將人工智能速度提升至最高 20 倍。透過 NVIDIA 自動混合精度,研究人員只要多加幾行程序代碼,就可以利用自動混合精度和 FP16 將效能提升 2 倍。通過支持 bfloat16、INT8 與 INT4,更能為人工智能訓練和推論創造極致多元的加速器。
NVIDIA A30 Tensor Core GPU 將強大的 Tensor 核心導入高效能運算,還支持完整矩陣運算、通過 IEEE 認證,并使用 FP64 精度。
2. 多實例 GPU (MIG)
如果把傳統 GPU 比作一個飲水機,那么 MIG 就像一個多頭的噴泉。多實例 GPU (MIG)可讓工作負載共享 GPU。MIG 將一個 NVIDIA A30 Tensor Core GPU 劃分為多達四個獨立的 GPU 實例。它們同時運行,每個都有自己的內存、緩存和流式多處理器,這使得 NVIDIA A30 Tensor Core GPU 能夠以比以前的 GPU 高 4 倍的利用率提供有保證的服務質量。
3. 第三代 NVLink
第三代 NVIDIA? NVLink? 可將 GPU 到 GPU 的直接帶寬翻倍,達到每秒 600 GB (GB/秒),比第二代 PCIe 速度快近 10 倍。搭配最新一代 NVIDIA NVSwitch? 使用時,服務器中的所有 GPU 都能透過 NVLink 全速相互交流,執行極高速的數據傳輸。
4. 結構化稀疏
現代人工智能網絡相當龐大且越來越大,有數百萬、甚至數十億個參數。精準預測與推論不需要用到所有參數,而有些參數可以轉換為零,以確保模型變「稀疏」的同時不會犧牲準確性。Tensor 核心最高可以將稀疏模型的效能提高 2 倍。將模型稀疏化對于人工智能推論有益,同時也能改善模型訓練效能。
5. 第二代 RT 核心
NVIDIA Ampere 架構的第二代 RT 核心可大幅提升電影作品的擬真渲染、建筑設計評估,以及產品設計的虛擬原型制作等工作負載的速度。RT 核心還能加速光線追蹤于動態模糊的渲染效果,以更快的速度獲得更高的視覺準確度。在執行著色或噪聲消除功能的同時,還能執行光線追蹤。
NVIDIA Ampere 架構是完整的 NVIDIA 企業數據中心解決方案的一部分,它囊括了硬件、網絡、軟件和庫的構建模塊,以及 NVIDIA NGC? 目錄中經優化的 AI 模型和應用程序。NVIDIA A30 Tensor Core GPU 為數據中心提供了強大的端到端 AI 和 HPC 平臺,讓研究人員能夠快速交付真實的結果,并且大規模地將解決方案部署到生產環境中。
1. 深度學習訓練
NVIDIA A30 Tensor Core 具備 Tensor Float (TF32) 精度,可提供比 NVIDIA T4 高 10 倍之多的性能,并且無需更改代碼;若使用自動混合精度和 FP16,性能可進一步提升 2 倍,綜合起來可將吞吐量提高 20 倍。與 NVIDIA? NVLink?、PCIe Gen4、NVIDIA Mellanox? 網絡和 NVIDIA Magnum IO? SDK 配合使用時,可以擴展到數千個 GPU。
Tensor Core 和 MIG 使 NVIDIA A30 Tensor Core GPU 全天都能夠動態地用于工作負載。它可以在需求高峰時段用于生產推理,并且部分 GPU 可以在非高峰時段改用于快速重新訓練同一批模型。
2. 深度學習推理
NVIDIA A30 Tensor Core GPU 引入了突破性的功能來優化推理工作負載。它能在從 FP64 到 TF32 和 INT4 的整個精度范圍內進行加速。NVIDIA A30 Tensor Core GPU 每個 GPU 支持多達 4 個 MIG,允許多個網絡在安全的硬件分區中同時運行,同時保證服務質量。在 NVIDIA A30 Tensor Core GPU 其他推理性能增益的基礎之上,僅結構化稀疏支持一項就能帶來高達兩倍的性能提升。
NVIDIA 產品的出色 AI 性能在 MLPerf 推理測試中得到驗證。通過與可以輕松地大規模部署 AI 的 NVIDIA Triton? 推理服務器配合使用,NVIDIA A30 Tensor Core GPU 能為不同企業帶來此突破性性能。
3. 高性能計算
NVIDIA A30 Tensor Core GPU 采用 FP64 NVIDIA Ampere 架構 Tensor Core,提供自 GPU 推出以來幅度非常大的 HPC 性能飛躍。配合 24 GB 的 GPU 顯存和 933 GB/s 的帶寬,可讓研究人員快速解決雙精度計算問題。HPC 應用程序還可以利用 TF32 提高單精度、密集矩陣乘法運算的吞吐量。
FP64 Tensor Core 與 MIG 的結合能讓科研機構安全地對 GPU 進行分區,以允許多位研究人員訪問計算資源,同時確保 QoS 和更高的 GPU 利用率。部署 AI 的企業可以在需求高峰時段使用 A30 的推理功能,然后在非高峰時段將同一批計算服務器改用于處理 HPC 和 AI 訓練工作負載。
4. 高性能數據分析
數據科學家需要能夠分析和可視化龐大的數據集,并將其轉化為寶貴見解。但是,由于數據集分散在多臺服務器上,橫向擴展解決方案往往會陷入困境。
搭載 NVIDIA A30 Tensor Core GPU 的加速服務器可以提供必需的計算能力,并能利用大容量 HBM2 顯存、933 GB/s 的顯存帶寬和通過 NVLink 實現的可擴展性妥善處理這些工作負載。通過結合 InfiniBand、NVIDIA Magnum IO 和 RAPIDS? 開源庫套件(包括 RAPIDS Accelerator for Apache Spark),NVIDIA 數據中心平臺能夠加速這些大型工作負載,并實現超高的性能和效率水平。
5. NVIDIA AI ENTERPRISE
NVIDIA AI Enterprise 是一套端到端云原生 AI 和數據分析軟件,經認證可在基于服務器虛擬化平臺的虛擬基礎設施(帶有 VMware vSphere)中的NVIDIA A30 Tensor Core GPU 上運行。這允許在混合云環境中管理和擴展 AI 工作負載。
6. 主流 NVIDIA-CERTIFIED SYSTEMS
搭載 NVIDIA A30 Tensor Core GPU 的 NVIDIA-Certified Systems? 將計算加速功能與高速、安全的 NVIDIA 網絡整合到 NVIDIA 的 OEM 合作伙伴構建并銷售的企業數據中心服務器中。利用此計劃,客戶可以在單個高性能、經濟高效且可擴展的基礎設施上識別、獲取和部署系統,以運行 NVIDIA NGC (NVIDIA GPU CLOUD) 目錄中的傳統和多樣化的現代 AI 應用程序。
Nvidia A30 Tensor Core GPU 采用雙槽全長尺寸,核心基于 GA100 SKU,其基礎頻率為930 MHz,可加速至 1440 MHz,擁有 24 GB HBM2 顯存、帶寬 933 GB/s。顯卡的 TDP 為 165W,單 8-pin 供電。
*與 NVIDIA 產品相關的圖片或視頻(完整或部分)的版權均歸 NVIDIA Corporation 所有。