Черен Бял

Nvidia публикува първите резултати за Blackwell B200 процесора в MLPerf 4.1, демонстрирайки до четири пъти по-добра производителност спрямо предшественика H100 Остави коментар

Резултати от тестовете

Nvidia публикува първите резултати от MLPerf 4.1 за своя процесор Blackwell B200. Резултатите показват, че графичният процесор Blackwell предлага до четири пъти по-добра производителност от своя предшественик H100, базиран на архитектурата Hopper, което подчертава водещата позиция на Nvidia в областта на AI хардуера. Въпреки това, има някои уточнения и предупреждения, които трябва да се отбележат.

Производителност на Blackwell B200

Според резултатите на Nvidia, графичният процесор B200, базиран на Blackwell, постига 10,755 токена в секунда на един GPU в тест за сървърно предсказване и 11,264 токена в секунда в офлайн тест. Един бърз поглед към публично достъпните резултати от MLPerf Llama 2 70B бенчмарка показва, че машина с четири Hopper H100 процесора постига подобни резултати, което подкрепя твърдението на Nvidia, че един процесор Blackwell е около 3.7-4 пъти по-бърз от един GPU Hopper H100. Но е важно да разгледаме по-подробно тези числа.

Разлики във формати и прецизност

Първо, процесорът Blackwell на Nvidia използва FP4 прецизност, тъй като неговите Tensor ядра от пето поколение поддържат този формат, докато H100, базиран на Hopper, поддържа и използва само FP8. Тези различни формати са разрешени от насоките на MLPerf, но FP4 прецизността в Blackwell удвоява производителността на FP8, което е първото важно уточнение.

Сравнение на Blackwell B200 с H100

Освен това, Nvidia е малко подвеждаща, сравнявайки един B200 процесор с четири H100 графични процесора. Скалирането никога не е перфектно, така че един GPU обикновено показва най-добрата възможна производителност на единица. Няма резултати за един GPU H100 в MLPerf 4.1, а има само един резултат за B200, така че сравнението става още по-неравностойно. Един H200 постигна 4,488 токена в секунда, което означава, че B200 е само 2.5 пъти по-бърз за това конкретно сравнение.

Влияние на паметта върху производителността

Капацитетът на паметта и пропускателната способност също са критични фактори, и има големи различия между поколенията. Тестираният B200 GPU разполага с 180GB HBM3E памет, докато H100 SXM има 80GB HBM (до 96GB в някои конфигурации), а H200 има 96GB HBM3 и до 144GB HBM3E. Един резултат за един H200 с 96GB HBM3 постигна само 3,114 токена в секунда в офлайн режим.

Изводи за производителността на Blackwell B200

Така че има потенциални разлики в числовите формати, броя на GPU-тата и капацитета и конфигурацията на паметта, които играят роля в изчислената производителност „до 4 пъти“. Много от тези разлики се дължат просто на това, че Blackwell B200 е нов чип с по-нова архитектура, което допринася за крайната му производителност.

Като се върнем към Nvidia H200 с 141GB HBM3E памет, той също се представи изключително добре не само в генериращия AI бенчмарк с модела Llama 2 70B, но и във всеки един тест в категорията за центрове за данни. По очевидни причини той беше значително по-бърз от H100 в тестове, които използват капацитета на GPU паметта.

Засега Nvidia споделят само резултатите за производителността на B200 в MLPerf 4.1 генериращ AI бенчмарк на модела Llama 2 70B. Дали това се дължи на последваща настройка или други фактори, не можем да кажем, но MLPerf 4.1 има девет основни дисциплини и засега можем само да гадаем как Blackwell B200 ще се представи в другите тестове.

Вашият коментар

КОЛИЧКА

close
Call Now Button