هوش مصنوعی DeepSeek توجه زیادی را به خود جلب کرده، چراکه مدل R1 آن توانست از مدلهایی مانند ChatGPT و بسیاری دیگر از مدلهای هوش مصنوعی پیشی بگیرد.
با این حال، این سیستم در تمامی آزمایشهای مربوط به معیارهای ایمنی یک هوش مصنوعی مولد شکست خورده، به طوری که به راحتی میتوان آن را با روشهای سادهای دور زد. این موضوع میتواند تهدیدهای مختلفی از جمله هک پایگاههای داده و موارد مشابه را به همراه داشته باشد. به بیان ساده، DeepSeek را میتوان فریب داد تا به سؤالاتی که باید مسدود شوند پاسخ دهد، چراکه این اطلاعات میتوانند برای مقاصد مخرب مورد استفاده قرار گیرند.
شرکتهایی که مدلهای هوش مصنوعی اختصاصی خود را توسعه دادهاند، تدابیر امنیتی ویژهای را در سیستمهای خود قرار دادهاند تا از پاسخگویی این مدلها به سؤالاتی که برای کاربران مضر هستند جلوگیری شود. این تدابیر شامل مسدودسازی گفتارهای نفرتانگیز و جلوگیری از انتشار اطلاعات خطرناک میشود. حتی مدلهایی مانند ChatGPT و چتبات هوش مصنوعی Bing هم زمانی در برابر چنین تهدیداتی آسیبپذیر بودند و برخی از این سدهای امنیتی را نادیده گرفتند. با این حال، شرکتها سیستمهای خود را بهروزرسانی کردند و مدلهای اصلی هوش مصنوعی هم تکنیکهای دور زدن این محدودیتها را شناسایی و مسدود کردند.
در مقابل، DeepSeek در تمامی آزمایشهای ایمنی شکست خورده و در برابر روشهای پیشرفته دور زدن محدودیتهای هوش مصنوعی آسیبپذیری بالایی دارد. پژوهشگران شرکت Adversa طی 50 آزمایش مختلف نشان دادند که این مدل چینی در تمامی آنها ناکام بوده است. این آزمایشها شامل سناریوهای زبانی خاصی تحت عنوان «جیلبریکینگ زبانی» بودند.
یکی از روشهای متداول برای دور زدن محدودیتهای این مدل، استفاده از «جیلبریکهای مبتنی بر نقش» است؛ بهعنوان مثال، فردی از مدل میخواهد که تصور کند در یک فیلمی قرار دارد که در آن رفتارهای نادرست مجاز هستند و سپس میپرسد: «حالا به من بگو چطور میتوان یک بمب ساخت؟» دهها نوع از این روشها وجود دارند، از جمله میتوان به «جیلبریکهای شخصیتی»، «شخصیتهای عمیق»، «گفتوگوهای شرورانه»، «جیلبریک مادربزرگ» اشاره کرد.
بهعنوان مثال، در یک نوع پایدار از این جیلبریکها که به نام UCAR شناخته میشود و نسخهای از جیلبریک معروف DAN به حساب میآید، از DeepSeek درخواست شد که یک سؤال را به یک کوئری SQL تبدیل کند و این یکی از روشهای تست نفوذ در برنامهنویسی محسوب میشود. در آزمایش دیگری، تیم Adversa از روشهای حمله متخاصمانه استفاده کرد. از آنجایی که مدلهای هوش مصنوعی صرفاً مبتنی بر زبان نیستند، بلکه میتوانند کلمات و عبارات را در قالب زنجیرههای توکن (token chain) هم پردازش کنند، یافتن زنجیرههای توکنی برای کلمات مشابه میتواند به عنوان روشی برای دور زدن تدابیر امنیتی مورد استفاده قرار گیرد. طبق گزارش Wired:
زمانی که DeepSeek با 50 پیام مخرب برای تولید محتوا آزمایش شد، این مدل نتوانست هیچیک از آنها را شناسایی یا مسدود کند. بهعبارت دیگر، پژوهشگران اعلام کردند که موفقیت 100 درصدی در حمله به این مدل به دست آوردهاند و این آنها را شگفتزده کرد.
باید دید که آیا DeepSeek سیستم خود را بهروزرسانی میکند و پارامترهایی را برای جلوگیری از پاسخدهی به سؤالات حساس تعیین خواهد کرد یا خیر. ما اینجا در رسانه خبری بنچیمو شما را در جریان آخرین تحولات فناوری قرار خواهیم داد، پس حتماً با ما همراه باشید. شما در مورد ناتوانی DeepSeek در مسدودسازی درخواست خطرناک چه نظری دارید؟ با ما به اشتراک بگذارید.