تراشه مبتنی بر هوش مصنوعی H100، انویدیا را به یک شرکت چند تریلیون دلاری تبدیل کرد و اکنون انویدیا حتی جلوتر رفته و از سوپرتراشههای گرافیکی B200 و GB200 مبتنی بر معماری Blackwell خود رونمایی میکند.
انویدیا اعلام کرد که پردازنده گرافیکی جدید B200 حداکثر قدرت 20 پتافلاپس در فرمت FP4 را از 208 میلیارد ترانزیستور خود ارائه میدهد. یک پردازنده گرافیکی GB200 که دو تا از این پردازندههای گرافیکی را با یک پردازنده Grace ترکیب میکند، میتواند 30 برابر کارایی بیشتری را برای بارهای کاری استنتاجی LLM ارائه دهد و هزینه و مصرف انرژی را تا 25 برابر نسبت به H100 کاهش دهد. انویدیا ادعا میکند که آموزش یک مدل 1.8 تریلیون پارامتری قبلاً به 8000 پردازنده گرافیکی Hopper و 15 مگاوات قدرت نیاز داشت. اما اکنون، طبق گفته مدیرعامل انویدیا 2000 پردازنده گرافیکی Blackwell میتوانند این کار را انجام دهند در حالی که فقط چهار مگاوات مصرف کنند. طبق اظهار انویدیا در معیار GPT-3 LLM با 175 میلیارد پارامتر، GB200 عملکردی هفت برابری و سرعت یادگیری چهار برابری نسبت به H100 دارد.
انویدیا به خبرنگاران گفت که یکی از پیشرفتهای کلیدی در سوپرتراشههای گرافیکی Blackwell جدید B200 و GB200 موتور ترانسفورماتور نسل دوم آنها است که با استفاده از چهار بیت برای هر نورون به جای هشت بیت، قدرت محاسبه، پهنای باند و اندازه مدل را دو برابر میکند. دومین تفاوت کلیدی زمانی رخ میدهد که تعداد زیادی از این پردازندهها به هم متصل شوند. در این صورت یک سوئیچ نسل جدید NVLink به 576 پردازنده گرافیکی اجازه میدهد به همراه یکدیگر با 1.8 ترابایت در ثانیه پهنای باند دو طرفه ارتباط بگیرند.
انویدیا میگوید که این امر مستلزم ساخت یک تراشه سوئیچ شبکه جدید با 50 میلیارد ترانزیستور و 3.6 ترافلاپس FP8 بود. پیش از این، انویدیا گفته بود که مجموعهای متشکل از 16 پردازنده گرافیکی 60 درصد از زمان خود را صرف برقراری ارتباط با یکدیگر و 40 درصد دیگر را به محاسبات اختصاص میدهند. انویدیا روی شرکتها برای خرید مقادیر زیادی از این پردازندههای گرافیکی حساب باز کرده و آنها را در طرحهای بزرگتر بستهبندی میکند، مانند GB200 NVL72، که 36 سیپییو و 72 پردازنده گرافیکی را به یک رک (rack) خنککننده مایع وصل میکند و مجموعاً 720 پتافلاپس در عملکرد آموزش هوش مصنوعی و 1440 پتافلاپس در عملکرد استنتاجی را ارائه میدهد. جالب است بدانید که 5000 کابل داخل آن وجود دارد که نزدیک به دو مایل میشود.
هر سینی در رک شامل دو تراشه GB200 یا دو سوئیچ NVLink است که 18 عدد از اولی و 9 عدد از دومی در هر رک وجود دارد. در مجموع، انویدیا میگوید یکی از این رکها میتواند از مدل 27 تریلیون پارامتری پشتیبانی کند. شایعه شده که GPT-4 مدلی 1.7 تریلیون پارامتری است. این شرکت میگوید آمازون، گوگل، مایکروسافت و اوراکل همگی در حال برنامهریزی برای ارائه رکهای NVL72 در خدمات ابری خود هستند، اگرچه مشخص نیست که چه تعداد از آنها را خریداری میکنند.
انویدیا زیرساختی را هم به شرکتها ارائه داده و آن هم DGX Superpod یا اکنون DGX GB200 است که هشت سیستم را در یک سیستم برای مجموع 288 سیپییو، 576 پردازنده گرافیکی، 240 ترابایت حافظه و 11.5 اگزافلاپس محاسبات FP4 ترکیب میکند. انویدیا اظهار کرده که سیستمهایش میتوانند به دهها هزار سوپرتراشه GB200 متصل به شبکههای 800 گیگابیت بر ثانیهای Quantum-X800 InfiniBand (برای حداکثر 144 اتصال) یا اترنت Spectrum-X800 (برای حداکثر 64 اتصال) متصل شوند.