AMD's Instinct GPU-serie wordt steeds populairder in de computer- en AI-gemeenschap. Dit is waarom.

Het lijdt geen twijfel dat NVIDIA de parallelle computerruimte blijft domineren met zijn verschillende populaire GPU-series. Maar met AMD's Instinct AI-versnellers die twee van de nieuwste en grootste supercomputers uitrusten (Frontier en El Capitan) en de groeiende steun van de gemeenschap voor hun open-source ROCm-platform, heeft NVIDIA misschien hun grootste rivaal tot nu toe gevonden.

Dus wat zijn AMD's Instinct AI-versnellers precies? Wat maakt ze krachtig en hoe verhouden ze zich tot NVIDIA's Tensor GPU's?

Wat is een AMD Instinct-processor?

AMD's Instinct-processors zijn enterprise-grade hardware die wordt gebruikt voor high-performance computing (HPC) en AI-versnelde verwerking. In tegenstelling tot reguliere GPU's van consumentenkwaliteit, zijn de Instinct GPU's gespecialiseerd om AI-leren en andere hoogwaardige taken beter aan te kunnen door middel van software- en hardware-innovaties.

instagram viewer

AMD's Instinct-serie GPU's werd gebruikt om de eerste supercomputer aan te drijven die de Exascale-barrière doorbrak en presteerde met 1,1 EFLOP's met bewerkingen met dubbele precisie per seconde. Supercomputers die Instinct GPU's gebruiken, worden momenteel gebruikt om kankerbehandelingen, duurzame energie en klimaatverandering te onderzoeken.

Hoe Instinct-processors AI en HPC versnellen

Voor 's werelds krachtigste reguliere servers en supercomputers om verwerking op exaschaalniveau te bereiken, moesten AMD's Instinct-versnellers worden uitgerust met verschillende technologische upgrades en innovaties.

Laten we enkele van de nieuwe en bijgewerkte technologie bespreken die wordt gebruikt op AMD Instinct GPU's.

1. DNA berekenen (CDNA)

Beeldcredits: Pascal Liebart/AMD-bibliotheek

Recente AMD Instinct-versnellers (vanaf de MI100) hebben de CDNA-architectuur van het bedrijf gebruikt.

CDNA richt zich voornamelijk op functies zoals parallelle verwerking, geheugenhiërarchie en geoptimaliseerde rekenprestaties via hun Matrix Core-technologie. Zelfs HPC en AI of machine learning die op enkele servers draaien, kunnen worden ondersteund door CDNA, evenals enorme Exascale-computers.

AMD's Matrix Core-technologie versnelt AI-leren door bewerkingen met gemengde precisie te ondersteunen. Door de mogelijkheid om met verschillende precisie te berekenen, kunnen Instinct GPU's efficiënt matrixbewerkingen berekenen op basis van het vereiste precisieniveau.

De meest populaire indelingen voor berekeningsprecisie zijn FP64, FP32, FP16, BF16 en INT8. FP staat voor Floating Point, BF voor Brain Floating Point en INT voor Integer. Hoe hoger het getal dat overeenkomt met het formaat, hoe nauwkeuriger de berekening. Werken met 64-bits staat bekend als dubbele precisie. Bij 32-bits is het enkelvoudige precisie, bij 16-bits is het halve precisie, enzovoort.

Aangezien een groot deel van het trainen van deep learning-modellen niet veel precisie vereist, hebben ze de mogelijkheid om matrixen te berekenen operaties met halve precisie of zelfs kwartprecisie voor het maken van conclusies verminderen de werklast aanzienlijk, waardoor AI wordt versneld aan het leren.

2. Geheugen met hoge bandbreedte (HBM)

Afbeelding tegoed: Jason De Vos/AMD-bibliotheek

Elke AMD Instinct AI-versneller wordt geleverd met maximaal 880 Matrix Cores. Met AMD's Matrix Core-processors die in staat zijn om 383 TFLOP's van halfprecisieberekeningen uit te voeren, is ultrasnel geheugen noodzakelijk. AMD's nieuwste Instinct-aanbiedingen zijn uitgerust met High Bandwidth Memory (HBM) in plaats van de gebruikelijke DDR4 of DDR5 RAM.

In tegenstelling tot conventioneel geheugen gebruikt HBM een zogenaamde 3D-gestapelde architectuur. Dit type architectuur verwijst naar een ontwerpbenadering waarbij DRAM-matrijzen verticaal op elkaar worden gestapeld. Hierdoor kunnen matrijzen op zowel de verticale als de horizontale as worden gestapeld, vandaar de term 3D-stapeling.

Met deze 3D-stapeltechnologie kunnen HBM's fysieke geheugencapaciteiten hebben die zo groot zijn als een paar honderd gigabytes per module, terwijl DRR5 slechts tot tientallen gigabytes per module kan. Afgezien van capaciteit, is het ook bekend dat HBM's hogere prestaties leveren in termen van overdrachtssnelheid en een betere energie-efficiëntie dan regulier DDR-geheugen.

3. Infinity-stof

Een andere innovatie in Instinct GPU's is AMD's Infinity Fabric-technologie. Infinity Fabric is een type interconnectiesysteem dat CPU's en GPU's op een slimme dynamische manier met elkaar verbindt. Hierdoor kunnen componenten efficiënt met elkaar communiceren.

Met de Infinity Fabric worden componenten nu niet meer met een gewone bus verbonden, maar worden componenten nu verbonden in een mesh-achtig netwerk waar bandbreedtes kunnen oplopen tot enkele honderden gigabytes per seconde.

Afgezien van de mesh-achtige verbinding, gebruikt Infinity Fabric ook sensoren die in elke matrijs zijn ingebed om dynamisch te werken regelfrequentie, gegevensoverdrachtsnelheden en ander adaptief gedrag, waardoor de prestaties worden geoptimaliseerd en geminimaliseerd latentie.

4. ROCm-ontwikkelingsplatform

NVIDIA's CUDA (compute unified device architecture) is het meest gebruikte ontwikkelplatform voor het trainen van AI-modellen. Het probleem met CUDA is dat het alleen werkt met NVIDIA GPU's. Dit is een van de belangrijkste redenen waarom NVIDIA de overgrote meerderheid van de marktaandelen heeft voor HPC- en AI GPU-versnellers.

Omdat AMD een groter deel van de HPC- en AI-markt wilde veroveren, moesten ze hun eigen platform ontwikkelen, ROCm (Radeon Open Compute). ROCm is een open-source softwareplatform waarmee Instinct GPU's kunnen worden gebruikt als AI-versnellers.

Hoewel het niet noodzakelijkerwijs deel uitmaakt van de Instinct-hardware, is ROCm van fundamenteel belang als het gaat om het voortbestaan ​​van de Instinct-lijn van GPU's. Met ROCm, ontwikkelaars en onderzoekers krijgen de ROCm-tools, compiler, kernelstuurprogramma's, een hele reeks bibliotheken en toegang tot frameworks zoals TensorFlow en PyTorch om te ontwikkelen met hun voorkeur AI-programmeertaal.

Hoe verhouden Instinct AI-versnellers zich tot Radeon GPU AI-versnellers?

AMD biedt zijn Instinct-reeks GPU's voor ondernemingen en Radeon GPU's voor gewone consumenten. Zoals eerder besproken, maakt Instinct GPU gebruik van AMD's CDNA-architectuur, HBM en Infinity Fabric-interconnect. Omgekeerd gebruikt Radeon AMD's RDNA-architectuur, DDR6-geheugen en Infinity Cache.

Hoewel minder capabel, biedt de Radeon-serie AI-versnellers nog steeds veel kracht door een of twee AI-versnellerkernen per rekeneenheid te implementeren. De laatste Radeon RX7900 XT GPU heeft twee AI-acceleratorkernen per rekeneenheid, waardoor 103 TFLOP's piek-halfprecisie en 52 TFLOP's piek-enkelvoudige precisie-berekeningen mogelijk zijn.

Hoewel de Instinct-serie GPU's beter geschikt is voor LLM's en HPC, kunnen Radeon AI-versnellers worden gebruikt voor het verfijnen van vooraf getrainde modellen, inferentie en grafisch intensieve taken.

AMD-instinct vs. NVIDIA-tensor

Volgens een TrendForce-enquête, NVIDA heeft een marktaandeel van 80% voor server-GPU's, terwijl AMD slechts 20% heeft. Dit overweldigende succes van NVIDIA is omdat ze een bedrijf zijn dat gespecialiseerd is in GPU-ontwerp en -assemblage. Hierdoor kunnen ze aanzienlijk beter presterende GPU's ontwerpen die ongeëvenaard zijn door andere aanbiedingen.

Laten we AMD's Instinct MI205X en NVIDIA's H100SXM5 vergelijken met specificaties van AMD's officiële website En NVIDIA's eigen datasheet:

GPU-model

FP64 (TFLOP's)

FP32 (TFLOP's)

FP16 (TFLOP's)

INT8 (TFLOP's)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Zoals je in de tabel kunt zien, presteert AMD's MI250X beter op het gebied van dubbele precisie en halve precisie berekeningen, terwijl NVIDIA's H100SXMS veel beter is in termen van half-precisie en kwart-precisiematrix berekeningen. Dit maakt AMD's MI250X beter geschikt voor HPC, terwijl NVIDIA's H100SXMS met AI-leren en inferentie.

De toekomst van AMD's Instinct-processors

Hoewel het nieuwste aanbod van AMD, de MI250X, is ontworpen voor HPC, is hun aankomende MI300 meer gericht op AI-training. Er is aangekondigd dat deze AI-versneller een APU is, die GPU en CPU in één pakket combineert. Hierdoor kan de MI300 hun CNDA3 Unified Memory APU-architectuur gebruiken, waarbij de GPU en CPU slechts één geheugen gebruiken, wat de efficiëntie verhoogt en de prijs verlaagt.

Hoewel AMD vandaag niet zal concurreren met NVIDIA op de AI-versnellermarkt, zodra de MI300 wordt uitgebracht en ROCm wordt gepolijst, zou de Instinct-serie van AMD net goed genoeg kunnen zijn om een ​​aanzienlijk deel van de markt voor AI-versnellers weg te rukken NVIDIA.