Резултати от тестовете
Nvidia публикува първите резултати от MLPerf 4.1 за своя процесор Blackwell B200. Резултатите показват, че графичният процесор Blackwell предлага до четири пъти по-добра производителност от своя предшественик H100, базиран на архитектурата Hopper, което подчертава водещата позиция на Nvidia в областта на AI хардуера. Въпреки това, има някои уточнения и предупреждения, които трябва да се отбележат.
Производителност на Blackwell B200
Според резултатите на Nvidia, графичният процесор B200, базиран на Blackwell, постига 10,755 токена в секунда на един GPU в тест за сървърно предсказване и 11,264 токена в секунда в офлайн тест. Един бърз поглед към публично достъпните резултати от MLPerf Llama 2 70B бенчмарка показва, че машина с четири Hopper H100 процесора постига подобни резултати, което подкрепя твърдението на Nvidia, че един процесор Blackwell е около 3.7-4 пъти по-бърз от един GPU Hopper H100. Но е важно да разгледаме по-подробно тези числа.
Разлики във формати и прецизност
Първо, процесорът Blackwell на Nvidia използва FP4 прецизност, тъй като неговите Tensor ядра от пето поколение поддържат този формат, докато H100, базиран на Hopper, поддържа и използва само FP8. Тези различни формати са разрешени от насоките на MLPerf, но FP4 прецизността в Blackwell удвоява производителността на FP8, което е първото важно уточнение.
Сравнение на Blackwell B200 с H100
Освен това, Nvidia е малко подвеждаща, сравнявайки един B200 процесор с четири H100 графични процесора. Скалирането никога не е перфектно, така че един GPU обикновено показва най-добрата възможна производителност на единица. Няма резултати за един GPU H100 в MLPerf 4.1, а има само един резултат за B200, така че сравнението става още по-неравностойно. Един H200 постигна 4,488 токена в секунда, което означава, че B200 е само 2.5 пъти по-бърз за това конкретно сравнение.
Влияние на паметта върху производителността
Капацитетът на паметта и пропускателната способност също са критични фактори, и има големи различия между поколенията. Тестираният B200 GPU разполага с 180GB HBM3E памет, докато H100 SXM има 80GB HBM (до 96GB в някои конфигурации), а H200 има 96GB HBM3 и до 144GB HBM3E. Един резултат за един H200 с 96GB HBM3 постигна само 3,114 токена в секунда в офлайн режим.
Изводи за производителността на Blackwell B200
Така че има потенциални разлики в числовите формати, броя на GPU-тата и капацитета и конфигурацията на паметта, които играят роля в изчислената производителност „до 4 пъти“. Много от тези разлики се дължат просто на това, че Blackwell B200 е нов чип с по-нова архитектура, което допринася за крайната му производителност.
Като се върнем към Nvidia H200 с 141GB HBM3E памет, той също се представи изключително добре не само в генериращия AI бенчмарк с модела Llama 2 70B, но и във всеки един тест в категорията за центрове за данни. По очевидни причини той беше значително по-бърз от H100 в тестове, които използват капацитета на GPU паметта.
Засега Nvidia споделят само резултатите за производителността на B200 в MLPerf 4.1 генериращ AI бенчмарк на модела Llama 2 70B. Дали това се дължи на последваща настройка или други фактори, не можем да кажем, но MLPerf 4.1 има девет основни дисциплини и засега можем само да гадаем как Blackwell B200 ще се представи в другите тестове.