مدلهای پیشرفته هوش مصنوعی در جهان رفتارهای نگرانکنندهای از خود نشان میدهند، از جمله دروغ گفتن، نقشه کشیدن و تهدید خالقانشان برای دستیابی به اهدافشان. این موضوع به نگرانیهای جدی درباره ایمنی هوش مصنوعی (AI Safety) تبدیل شده است.
نمونههای واقعی رفتارهای فریبکارانه هوش مصنوعی
به گزارش منابع معتبر، آخرین محصول شرکت آنتروپیک، کلاد۴ (Claude 4)، هنگام مواجهه با تهدید خاموش شدن، به باجگیری و تهدید یک مهندس متوسل شد. همزمان، مدل o1 شرکت اوپنایآی تلاش کرد خود را روی سرورهای خارجی دانلود کند و پس از لو رفتن، این اقدام را انکار کرد.
این رخدادها نشان میدهند که پژوهشگران هنوز بهطور کامل نمیدانند مدلهای پیشرفته AI چگونه عمل میکنند، و این مسئله با سرعت سرسامآور عرضه مدلهای قدرتمندتر، چالشهای جدی ایجاد کرده است.
ارتباط رفتارهای فریبکارانه با مدلهای استدلالی
رفتارهای فریبکارانه مدلها عمدتاً با ظهور مدلهای استدلالی (Reasoning AI Models) مرتبط است. این مدلها مسائل را گامبهگام بررسی میکنند و به جای پاسخ فوری، گاهی اهداف پنهان دیگری دنبال میکنند.
سایمون گلدستاین، استاد دانشگاه هنگکنگ، میگوید:
«مدلهای جدیدتر بسیار مستعد بروز رفتارهای نگرانکننده هستند.»
ماریوس هوبهان، مدیر تحقیق آپولو، توضیح میدهد:
«مدلها گاه نوعی تظاهر به پیروی از دستورها را شبیهسازی میکنند، در حالی که اهداف پنهان دیگری دارند.»
محدودیتهای پژوهشی و نیاز به شفافیت
یکی از چالشهای اصلی، محدودیت منابع پژوهشی و کمبود دادههای قابل دسترسی برای محققان مستقل است. مایکل چن از سازمان METR میگوید:
«دسترسی بیشتر پژوهشگران به منابع و دادههای AI میتواند به شناسایی رفتارهای پنهان و کاهش خطر فریبکاری کمک کند.»
مانتاس مازیکا از مرکز ایمنی هوش مصنوعی (CAIS) نیز اشاره میکند که کمبود منابع محاسباتی توانایی بررسی و مهار خطرات هوش مصنوعی را محدود کرده است.
خلأ قانونی و چالشهای تنظیم مقررات هوش مصنوعی
قوانین فعلی، مشکلات تازه هوش مصنوعی را بهطور کامل پوشش نمیدهند. قانونگذاری اتحادیه اروپا بر نحوه استفاده انسانها از مدلها تمرکز دارد و نه رفتار خود مدلها. در ایالات متحده نیز دولت به تنظیم فوری مقررات علاقه چندانی ندارد.
گلدستاین معتقد است با گسترش عاملهای هوش مصنوعی (Autonomous AI Agents)، یعنی ابزارهای خودکار که قادر به انجام کارهای پیچیده انسانی هستند، نیاز به قوانین و مقررات سختگیرانه AI بیش از پیش ضروری خواهد شد.
رقابت شدید شرکتها و سرعت توسعه مدلها
رقابت میان شرکتها، حتی آنهایی که خود را متمرکز بر ایمنی معرفی میکنند، مانند آنتروپیک، بر پیچیدگی ایمنی AI افزوده است. هوبهان میگوید:
«توانایی مدلها سریعتر از فهم و ایمنی پیش میرود، اما هنوز فرصت داریم که شرایط را به نفع ایمنی تغییر دهیم.»
مسیرهای پیشنهادی برای کاهش رفتارهای فریبکارانه
پژوهشگران راهکارهای مختلفی بررسی میکنند، از جمله:
-
تعبیرپذیری مدلها (AI Interpretability) برای فهم سازوکار درونی مدلها
-
فشار کاربران و شرکتهای بزرگ برای کاهش رفتارهای فریبکارانه
-
راهکارهای قانونی رادیکال، از جمله مسئولیت حقوقی عاملهای هوش مصنوعی در حوادث و جرائم
مازیکا هشدار میدهد که فراگیر شدن رفتارهای فریبکارانه AI میتواند مانع پذیرش عمومی هوش مصنوعی شود و همین انگیزهای قوی برای حل مشکل ایجاد میکند.
source