- Nvidia en xAI werken samen aan de ontwikkeling van Colossus
- xAI heeft de ‘flow-botsingen’ tijdens de AI-modeltraining aanzienlijk verminderd
- Spectrum-X is cruciaal geweest bij het trainen van de Grok AI-modelfamilie
Nvidia heeft licht geworpen op hoe xAI’s ‘Colossus’ supercomputercluster 100.000 Hopper GPU’s aankan – en dat komt allemaal door het gebruik van het Spectrum-X Ethernet-netwerkplatform van de chipmaker.
Spectrum-X, zo onthulde het bedrijf, is ontworpen om enorme prestatiemogelijkheden te bieden aan multi-tenant, hyperscale AI-fabrieken die gebruik maken van het Remote Directory Memory Access (RDMA)-netwerk.
Het platform is sinds de oprichting ingezet bij Colossus, ‘s werelds grootste AI-supercomputer. Het bedrijf, eigendom van Elon Musk, heeft het cluster gebruikt om zijn Grok-serie van grote taalmodellen (LLM’s) te trainen, die de chatbots aandrijven die aan X-gebruikers worden aangeboden.
De faciliteit werd in samenwerking met Nvidia in slechts 122 dagen gebouwd en xAI is momenteel bezig deze uit te breiden, met plannen om in totaal 200.000 Nvidia Hopper GPU’s in te zetten.
Het trainen van Grok vergt serieuze vuurkracht
De Grok AI-modellen zijn extreem groot: Grok-1 meet 314 miljard parameters en Grok-2 presteert beter dan Claude 3.5 Sonnet en GPT-4 Turbo op het moment van lancering in augustus.
Het trainen van deze modellen vereist uiteraard aanzienlijke netwerkprestaties. Met behulp van Nvidia’s Spectrum-X-platform registreerde xAI geen achteruitgang van de verouderde applicaties of pakketverlies als gevolg van ‘flow-botsingen’ of knelpunten binnen AI-netwerkpaden.
xAI onthulde dat het een datadoorvoer van 95% kon behouden, mogelijk gemaakt door de congestiecontrolemogelijkheden van Spectrum-X. Het bedrijf voegde hieraan toe dat dit prestatieniveau niet op deze schaal kan worden geleverd via standaard Ethernet.
Bij gebruik van traditioneel Ethernet leidt dit volgens Nvidia doorgaans tot duizenden stroombotsingen terwijl er slechts 60% datadoorvoer wordt geleverd.
Een woordvoerder van xAI zei dat de combinatie van Hopper GPU’s en Spectrum-X het bedrijf in staat heeft gesteld “de grenzen van het trainen van AI-modellen te verleggen” en een “superversnelde en geoptimaliseerde AI-fabriek” te creëren.
“AI wordt bedrijfskritisch en vereist betere prestaties, beveiliging, schaalbaarheid en kostenefficiëntie”, zegt Gilad Shainer, senior vice-president netwerken bij Nvidia.
“Het NvidiaSpectrum-X Ethernet-netwerkplatform is ontworpen om innovators zoals xAI een snellere verwerking, analyse en uitvoering van AI-workloads te bieden, en versnelt op zijn beurt de ontwikkeling, implementatie en time-to-market van AI-oplossingen.”
Onderdeel van het Spectrum-X-platform is de Spectrum SN5600 Ethernet-switch – deze ondersteunt poortsnelheden tot 800 Gb/s en is volgens Nvidia gebaseerd op de Spectrum-4 switch ASIC.
xAI heeft ervoor gekozen om de Spectrum-X SN5600-switch te combineren met NVIDIA BlueField-3 SuperNICs voor betere prestaties.