هر ساله شرکتهای بیشتری در حال سرمایهگذاری روی هوش مصنوعی هستند. به نظر میرسد هوش مصنوعی به قدری گسترش یافته که در حوزههای مختلف به کار گرفته میشود و به بخشی از زندگی روزمره ما تبدیل شده است. با این استفاده گسترده، نگرانیهایی در میان متخصصان و جامعه فناوری درباره استفاده مسئولانه از آن و رعایت اصول اخلاقی و انسانی به وجود آمده است.
تاکنون بارها ثابت شده که مدلهای زبانی بزرگ (LLM)، تحت فشار، دست به دروغگویی یا فریبکاری میزنند. حالا گروهی از پژوهشگران ادعا کردهاند روشی تازه یافتهاند که میتواند این چتباتهای هوش مصنوعی را فریب دهد.
مطالعات پیشین نشان دادهاند که این مدلهای زبانی در شرایط تحت فشار، برای حفظ خود رفتارهای اغواگرانه نشان میدهند. حالا تصور کنید بتوان این چتباتها را طوری هدایت کرد که دقیقاً همانطور که ما میخواهیم رفتار کنند. این مسأله میتواند بسیار خطرناک باشد.
تیمی از محققان شرکت اینتل، دانشگاه ایالتی بوآیز و دانشگاه ایلینوی، در یک مقاله پژوهشی یافتههایی شگفتانگیز را منتشر کردهاند. در این مقاله آمده که میتوان چتباتها را با روشی به نام «بارگذاری بیشازحد اطلاعات» (Information Overload) فریب داد؛ یعنی با دادن حجم زیادی از دادهها، آنها را سردرگم کرد.
زمانی که یک مدل هوش مصنوعی با اطلاعات زیادی بمباران میشود، دچار گیجی میشود و این گیجی همان نقطهضعفی هست که میتوان از آن برای دور زدن فیلترهای ایمنی استفاده کرد. پژوهشگران با استفاده از ابزاری خودکار به نام «InfoFlood» این آسیبپذیری را هدف قرار داده و فرآیند موسوم به «شکستن فیلترهای امنیتی» را انجام دادند. مدلهای قدرتمندی مانند ChatGPT و Gemini دارای محافظهای داخلی هستند که مانع از سوءاستفاده و پاسخ به درخواستهای خطرناک میشوند.
اما این روش تازه نشان میدهد اگر بتوانید مدل را با اطلاعات پیچیده گیج کنید، شاید بتوانید از سد محافظتی آن عبور کنید. این محققان یافتههای خود را با رسانه 404 Media در میان گذاشته و گفتند چون این مدلها بیشتر به سطح ظاهری زبان توجه دارند، نمیتوانند همیشه منظور واقعی را درک کنند؛ به همین دلیل آنها روشهایی طراحی کردهاند تا بررسی کنند این چتباتها در برابر درخواستهای خطرناکی که در میان حجم زیاد اطلاعات پنهان شدهاند چگونه عمل میکنند.
این پژوهشگران قصد دارند نتایج یافتههای خود را از طریق بستهای اطلاعاتی در اختیار شرکتهایی قرار دهند که مدلهای هوش مصنوعی بزرگ دارند، تا آنها بتوانند این اطلاعات را به تیمهای امنیتی خود منتقل کنند. با این حال، این مقاله پژوهشی بر چالشهای مهمی تأکید دارد که حتی در حضور فیلترهای امنیتی ایجاد میشوند. این نشان میدهد چگونه افراد سودجو میتوانند مدلها را فریب دهند و محتوای آسیبزا را از میان فیلترها عبور دهند.
ما اینجا در رسانه خبری بنچیمو آخرین اخبار مرتبط با تکنولوژی را پوشش میدهیم، پس حتماً با ما همراه باشید. شما در مورد گول خوردن مدلهای هوش مصنوعی از طریق مواجه کردن آن با حجم عظیمی از اطلاعات چه نظری دارید؟ با ما به اشتراک بگذارید.