انویدیا در حال بهبود مجموعه ابزارهای هوش مصنوعی، ماشین لرنینگ و همچنین ابزارهای LLM (مدل زبانی بزرگ) خود است و برای این کار از تکنولوژی TensorRT و TensorRT-LLM استفاده میکند.
این مطلب مخصوص افرادی است که دانش لازم را در حوزه تکنولوژی در اختیار داشته باشند.
TensorRT یک SDK برای استنتاج یادگیری عمیق با کارایی بالا است که شامل بهینهساز و runtime حافظه یادگیری عمیق است و برای نرمافزارهای استنتاج با تأخیر کم و ظرفیت بالا استفاده میشود. TensorRT-LLM یک کتابخانهی متنباز است که عملکرد استنتاجی را برای آخرین مدلهای زبان هوش مصنوعی بزرگ بهبود میبخشد.
ایده اصلی پشت TensorRT این است که منابع و فرمت مدلها را بهینهسازی کند تا عملکرد، بهبود چشمگیری داشته باشد و استفاده بهتری از حافظه صورت گیرد. با استفاده از ONNX که یک فرمت متنباز برای مدلها و عملگرهای هوش مصنوعی و یادگیری ماشین است، مدل اصلی stable diffusion که در Hugging Face پایدار است به فرمت ONNX تبدیل میشود. از آنجا، شما میتوانید عملکرد را برای کارت گرافیکی که استفاده میکنید بهبود بخشید. چند دقیقهای طول میکشد تا TensorRT تنظیمات لازم را انجام دهد. پس از تکمیل، شما باید به همراه بهبود چشمگیر در عملکرد، استفاده بهتری از حافظه را نیز ببینید.
TensorRT بر پایه مدل برنامهنویسی موازی CUDA NVIDIA ساخته شدهاست و به شما امکان بهینهسازی استنتاج با استفاده از تکنیکهایی نظیر کوانتیزاسیون، ادغام لایه و تانسور، تنظیم هسته و موارد دیگر بر روی کارت گرافیکهای انویدیا را میدهد. همچنین این امکان را به شما میدهد تا استنتاج را تا 36 برابر سریعتر نسبت به پلتفرمهای صرفاً تحت تاثیر CPU انجام دهید و مدلهای شبکه عصبی را که با تمامی چهارچوبهای اصلی آموزش یافتهاند، بهینهسازی کنید، همچنین کالیبراسیون با دقت بالا را انجام دهید و در مراکز داده فرامقیاس، پلتفرمهایی را مستقر کنید. در حالت تولید تصویر از طریق Stable Diffusion Web UI، تکنولوژیTensorRT تعداد تولید تصویر در دقیقه را نسبت به روشی که پیشتر استفاده میشد (PyTorch xFormers) دو برابر کرد. این موفقیت روی GeForce RTX 4090 با Intel i9 12900K و یک Apple M2 Ultra با 76 هسته بدست آمد.
در مقابل، TensorRT-LLM برای سرعتبخشی به مدلهای زبانی بزرگ روی کارت گرافیکهای انویدیا طراحی شده است. این مورد شامل کامپایلر یادگیری عمیق TensorRT، هستههای بهینهسازی، مراحل پیشپردازش و پسپردازش، و ابزارهای ارتباط multi-GPU/multi-node است. به عنوان مثال، برای مدل زبان Llama 2 ،TensorRT-LLM میتواند عملکرد استنتاج را نسبت به کارت گرافیکهای A100 تا 4.6 برابر سرعت بخشد.
به طور کلی، TensorRT و TensorRT-LLM ابزارهای موثری در افزایش عملکرد هوش مصنوعی محسوب میشوند که به توسعهدهندگان امکان بهینهسازی مدلهای خود و رسیدن به استنتاج سریعتر و کارآمدتر را میدهند.