انویدیا از TensorRT برای تقویت هوش مصنوعی خود استفاده می‌کند

انویدیا در حال بهبود مجموعه ابزارهای هوش مصنوعی، ماشین لرنینگ و همچنین ابزارهای LLM (مدل زبانی بزرگ) خود است و  برای این کار از تکنولوژی TensorRT و TensorRT-LLM استفاده می‌کند.

این مطلب مخصوص افرادی است که دانش لازم را در حوزه تکنولوژی در اختیار داشته باشند.

TensorRT یک SDK برای استنتاج یادگیری عمیق با کارایی بالا است که شامل بهینه‌ساز و runtime حافظه یادگیری عمیق است و برای نرم‌افزارهای استنتاج با تأخیر کم و ظرفیت بالا استفاده می‌شود. TensorRT-LLM یک کتابخانه‌ی متن‌باز است که عملکرد استنتاجی را برای آخرین مدل‌های زبان هوش مصنوعی بزرگ بهبود می‌بخشد.

ایده اصلی پشت TensorRT این است که منابع و فرمت مدل‌ها را بهینه‌سازی کند تا عملکرد، بهبود چشمگیری داشته باشد و استفاده بهتری از حافظه صورت گیرد. با استفاده از ONNX که یک فرمت متن‌باز برای مدل‌ها و عملگرهای هوش مصنوعی و یادگیری ماشین است، مدل اصلی stable diffusion که در Hugging Face پایدار است به فرمت ONNX تبدیل می‌شود. از آنجا، شما می‌توانید عملکرد را برای کارت گرافیکی که استفاده می‌کنید بهبود بخشید. چند دقیقه‌ای طول می‌کشد تا TensorRT تنظیمات لازم را انجام دهد. پس از تکمیل، شما باید به همراه بهبود چشمگیر در عملکرد، استفاده بهتری از حافظه را نیز ببینید.

TensorRT بر پایه مدل برنامه‌نویسی موازی CUDA NVIDIA ساخته شده‌است و به شما امکان بهینه‌سازی استنتاج با استفاده از تکنیک‌هایی نظیر کوانتیزاسیون، ادغام لایه و تانسور، تنظیم هسته و موارد دیگر بر روی کارت گرافیک‌های انویدیا را می‌دهد.  همچنین این امکان را به شما می‌دهد تا استنتاج را تا 36 برابر سریع‌تر نسبت به پلتفرم‌های صرفاً تحت تاثیر CPU انجام دهید و مدل‌های شبکه عصبی را که با تمامی چهارچوب‌های اصلی آموزش یافته‌اند، بهینه‌سازی کنید، همچنین کالیبراسیون با دقت بالا را انجام دهید و در مراکز داده فرامقیاس، پلتفرم‌هایی را مستقر کنید. در حالت تولید تصویر از طریق Stable Diffusion Web UI، تکنولوژیTensorRT تعداد تولید تصویر در دقیقه را نسبت به روشی که پیش‌تر استفاده می‌شد (PyTorch xFormers) دو برابر کرد. این موفقیت روی GeForce RTX 4090 با Intel i9 12900K و یک Apple M2 Ultra با 76 هسته بدست آمد.

در مقابل، TensorRT-LLM برای سرعت‌بخشی به مدل‌های زبانی بزرگ روی کارت گرافیک‌های انویدیا طراحی شده است. این مورد شامل کامپایلر یادگیری عمیق TensorRT، هسته‌های بهینه‌سازی، مراحل پیش‌پردازش و پس‌پردازش، و ابزارهای ارتباط multi-GPU/multi-node است. به عنوان مثال، برای مدل زبان Llama 2 ،TensorRT-LLM می‌تواند عملکرد استنتاج را نسبت به کارت گرافیک‌های A100 تا 4.6 برابر سرعت بخشد.

به طور کلی، TensorRT و TensorRT-LLM ابزارهای موثری در افزایش عملکرد هوش مصنوعی محسوب می‌شوند که به توسعه‌دهندگان امکان بهینه‌سازی مدل‌های خود و رسیدن به استنتاج سریع‌تر و کارآمدتر را می‌دهند.

پست های مرتبط

اپل چهارمین نسخه بتای iOS 18.2 را برای تمامی مدل‌های سازگار آیفون منتشر کرد

آیفون SE 4 اپل در ماه مارس سال 2025 به همراه مودم اختصاصی خود شرکت عرضه می‌شود

اپل iOS 18.1.1 را به همراه اصلاحات امنیتی برای آیفون‌های سازگار منتشر کرد