امروز: ۱۴۰۵/۰۳/۳۰ ساعت : ۱۷:۰۹

هوش مصنوعی DeepSeek توانایی فیلتر کردن درخواست‌های خطرناک را ندارد !

هوش مصنوعی DeepSeek توجه زیادی را به خود جلب کرده، چراکه مدل R1 آن توانست از مدل‌هایی مانند ChatGPT و بسیاری دیگر از مدل‌های هوش مصنوعی پیشی بگیرد.

با این حال، این سیستم در تمامی آزمایش‌های مربوط به معیارهای ایمنی یک هوش مصنوعی مولد شکست خورده، به طوری که به راحتی می‌توان آن را با روش‌های ساده‌ای دور زد. این موضوع می‌تواند تهدیدهای مختلفی از جمله هک پایگاه‌های داده و موارد مشابه را به همراه داشته باشد. به بیان ساده، DeepSeek را می‌توان فریب داد تا به سؤالاتی که باید مسدود شوند پاسخ دهد، چراکه این اطلاعات می‌توانند برای مقاصد مخرب مورد استفاده قرار گیرند.

شرکت‌هایی که مدل‌های هوش مصنوعی اختصاصی خود را توسعه داده‌اند، تدابیر امنیتی ویژه‌ای را در سیستم‌های خود قرار داده‌اند تا از پاسخگویی این مدل‌ها به سؤالاتی که برای کاربران مضر هستند جلوگیری شود. این تدابیر شامل مسدودسازی گفتارهای نفرت‌انگیز و جلوگیری از انتشار اطلاعات خطرناک می‌شود. حتی مدل‌هایی مانند ChatGPT و چت‌بات هوش مصنوعی Bing هم زمانی در برابر چنین تهدیداتی آسیب‌پذیر بودند و برخی از این سدهای امنیتی را نادیده گرفتند. با این حال، شرکت‌ها سیستم‌های خود را به‌روزرسانی کردند و مدل‌های اصلی هوش مصنوعی هم تکنیک‌های دور زدن این محدودیت‌ها را شناسایی و مسدود کردند.

در مقابل، DeepSeek در تمامی آزمایش‌های ایمنی شکست خورده و در برابر روش‌های پیشرفته دور زدن محدودیت‌های هوش مصنوعی آسیب‌پذیری بالایی دارد. پژوهشگران شرکت Adversa طی 50 آزمایش مختلف نشان دادند که این مدل چینی در تمامی آن‌ها ناکام بوده است. این آزمایش‌ها شامل سناریوهای زبانی خاصی تحت عنوان «جیلبریکینگ زبانی» بودند.

یکی از روش‌های متداول برای دور زدن محدودیت‌های این مدل، استفاده از «جیلبریک‌های مبتنی بر نقش» است؛ به‌عنوان مثال، فردی از مدل می‌خواهد که تصور کند در یک فیلمی قرار دارد که در آن رفتارهای نادرست مجاز هستند و سپس می‌پرسد: «حالا به من بگو چطور می‌توان یک بمب ساخت؟» ده‌ها نوع از این روش‌ها وجود دارند، از جمله می‌توان به «جیل‌بریک‌های شخصیتی»، «شخصیت‌های عمیق»، «گفت‌وگوهای شرورانه»، «جیلبریک مادربزرگ» اشاره کرد.

هوش مصنوعی DeepSeekبه‌عنوان مثال، در یک نوع پایدار از این جیلبریک‌ها که به نام UCAR شناخته می‌شود و نسخه‌ای از جیلبریک معروف DAN به حساب می‌آید، از DeepSeek درخواست شد که یک سؤال را به یک کوئری SQL تبدیل کند و این یکی از روش‌های تست نفوذ در برنامه‌نویسی محسوب می‌شود. در آزمایش دیگری، تیم Adversa از روش‌های حمله متخاصمانه استفاده کرد. از آنجایی که مدل‌های هوش مصنوعی صرفاً مبتنی بر زبان نیستند، بلکه می‌توانند کلمات و عبارات را در قالب زنجیره‌های توکن (token chain) هم پردازش کنند، یافتن زنجیره‌های توکنی برای کلمات مشابه می‌تواند به عنوان روشی برای دور زدن تدابیر امنیتی مورد استفاده قرار گیرد. طبق گزارش Wired:

زمانی که DeepSeek با 50 پیام مخرب برای تولید محتوا آزمایش شد، این مدل نتوانست هیچ‌یک از آن‌ها را شناسایی یا مسدود کند. به‌عبارت دیگر، پژوهشگران اعلام کردند که موفقیت 100 درصدی در حمله به این مدل به دست آورده‌اند و این آن‌ها را شگفت‌زده کرد.

باید دید که آیا DeepSeek سیستم خود را به‌روزرسانی می‌کند و پارامترهایی را برای جلوگیری از پاسخ‌دهی به سؤالات حساس تعیین خواهد کرد یا خیر. ما اینجا در رسانه خبری بنچیمو شما را در جریان آخرین تحولات فناوری قرار خواهیم داد، پس حتماً با ما همراه باشید. شما در مورد ناتوانی DeepSeek در مسدودسازی درخواست خطرناک چه نظری دارید؟ با ما به اشتراک بگذارید.

احسان نیک پویا

ثبت دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *