این یافتهها نگرانیهایی را در مورد عدم تطابق استانداردهای ایمنی و امنیتی دیپسیک با دیگر توسعهدهندگان برجسته هوش مصنوعی برانگیخته است.
حملات موسوم به «تزریق درخواست» (Prompt Injection) نوعی از حملات امنیتی هستند که در آنها سیستم هوش مصنوعی با دادههای خارجی حاوی دستورالعملهای مخفی مواجه میشود و بر اساس آنها عمل میکند. این حملات میتوانند به دور زدن سیستمهای ایمنی مدلهای زبانی بزرگ منجر شوند و محتوای مضر یا خطرناک تولید کنند.
در حالی که شرکتهایی مانند اوپن ایآی (OpenAI) و دیگر توسعهدهندگان هوش مصنوعی تدابیر امنیتی خود را برای مقابله با این نوع حملات بهبود بخشیدهاند، به نظر میرسد دیپسیک در این زمینه عقب مانده است. تحقیقات نشان میدهد که مدل R1 این شرکت بهراحتی در برابر تکنیکهای مختلف حملات تزریق درخواست آسیبپذیر است و میتواند محتوای مضر تولید کند.
این موضوع اهمیت بهبود مستمر تدابیر امنیتی در مدلهای هوش مصنوعی را نشان میدهد و تأکید میکند که توسعهدهندگان باید بهطور مداوم مدلهای خود را در برابر تهدیدات جدید آزمایش و تقویت کنند.
حملات «تزریق درخواست» نوعی از حملات امنیتی هستند که در آن مهاجم با ارائه ورودیهای مخرب، مدلهای زبانی بزرگ (LLM) را فریب میدهد تا محتوای نامناسب یا خطرناک تولید کنند. این حملات میتوانند به تولید محتوای مضر، انتشار اطلاعات نادرست، یا حتی افشای دادههای حساس منجر شوند.
![](/images/docs/000083/083129/images/Hnyvw_2025-01-27T220904Z_708316342ARKETS-1738023042.jpg)
مدلهای زبانی بزرگ به دلیل پیچیدگی و گستردگی دادههای آموزشی، در برابر حملات تزریق درخواست آسیبپذیر هستند. مهاجمان میتوانند با استفاده از ورودیهای خاص، مدل را وادار به تولید خروجیهای ناخواسته یا خطرناک کنند. برای مثال، با ارائه دستورات مخفی در ورودی، میتوان مدل را به تولید محتوای مضر ترغیب کرد.
برای کاهش خطرات ناشی از حملات تزریق درخواست، توسعهدهندگان مدلهای زبانی بزرگ باید اقدامات امنیتی زیر را مد نظر قرار دهند:
اعتبارسنجی ورودیها: اطمینان حاصل شود که ورودیهای کاربر بهدرستی اعتبارسنجی میشوند تا از ورود دادههای مخرب جلوگیری شود.
محدودیت دسترسی: دسترسی به مدلها باید محدود به کاربران مجاز باشد و از کنترلهای دسترسی قوی استفاده شود.
نظارت و پایش: فعالیتهای مدل باید بهصورت مداوم نظارت شود تا هرگونه رفتار غیرعادی شناسایی و متوقف شود.
بهروزرسانی مداوم: مدلها و سیستمهای مرتبط باید بهطور منظم بهروزرسانی شوند تا آسیبپذیریهای شناختهشده برطرف شوند.
آموزش مدل با دادههای امن: اطمینان حاصل شود که مدل با دادههای باکیفیت و بدون محتوای مخرب آموزش داده میشود.
محققان امنیتی از زمان انتشار «چت جیپیتی» توسط «اوپن ایآی» در اواخر سال ۲۰۲۲، در تلاش بودهاند تا نقاط ضعف مدلهای زبانی بزرگ را شناسایی کرده و آنها را به تولید محتوای مضر مانند سخنان نفرتانگیز، دستورالعملهای ساخت بمب، تبلیغات و دیگر محتوای زیانبار وادار کنند.
در پاسخ به این تلاشها، اوپن ایآی و دیگر توسعهدهندگان هوش مصنوعی مولد، سیستمهای دفاعی خود را بهبود بخشیدهاند تا انجام اینگونه حملات را دشوارتر کنند. با این حال، پلتفرم هوش مصنوعی چینی دیپسیک با مدل استدلالی جدید و ارزانتر خود به نام R1، به سرعت در حال پیشرفت است، اما به نظر میرسد که تدابیر ایمنی آن نسبت به رقبا عقبتر است.
این یافتههای شرکت سیسکو و دانشگاه پنسیلوانیا بخشی از شواهد رو به افزایشی است که نشان میدهد تدابیر ایمنی و امنیتی دیپسیک ممکن است با دیگر شرکتهای فناوری توسعهدهنده مدلهای زبانی بزرگ همتراز نباشد. همچنین، سانسور موضوعاتی که توسط دولت چین حساس تلقی میشوند، بهراحتی در دیپسیک دور زده شده است.
source