انحراف از هدف

انحراف از هدف

گزارش کارشناسی درباره‌ی چالش‌های سازگاری هوش مصنوعی برای امنیت ملی

نویسندگان: کالب ویترز، جی کیم و ایتان چیو

مرکز امنیت آمریکایی جدید (CNAS)

مارس ۲۰۲۴

مقدمه

چرخ پیشرفت هوش مصنوعی با شتابی توقف‌ناپذیر در حال حرکت است. مدل‌های پیشرفته‌ی کنونی، پتانسیل‌های شگرفی در حوزه‌ی امنیت ملی ایجاد کرده‌اند؛ از پردازش و تحلیل داده‌های اطلاعاتی با سرعت و حجمی باورنکردنی گرفته تا پشتیبانی از عملیات‌های سایبری و برنامه‌ریزی‌های پیچیده‌ی نظامی. واشنگتن تنها بازیگری نیست که به این واقعیت پی برده است؛ پکن نیز به خوبی می‌داند که هوش مصنوعی رکن اصلی نبردهای نوین و فرصتی برای به چالش کشیدن برتری نظامی ایالات متحده است. در همین راستا، ارتش آزادی‌بخش خلق چین در تلاش است تا مدل‌های زبانی بزرگ (LLMs) را در سامانه‌های فرماندهی و اطلاعاتی خود ادغام کند.

سیاست‌های اخیر ایالات متحده نشان‌دهنده‌ی نوعی فوریت منطقی است. استراتژی شتاب‌دهی به هوش مصنوعی که وزارت دفاع در ژانویه ۲۰۲۴ ابلاغ کرد، هدف خود را ایجاد یک «نیروی رزمنده‌ی متکی بر هوش مصنوعی در تمامی سطوح» تعریف کرده است. در این سند تأکید شده که «خطر کندی در اقدام، به مراتب فرارت از مخاطرات ناشی از سازگاری ناقص است.» با این حال، حتی با پذیرش سطح بالاتری از ریسک، اهمیت «سازگاری» (Alignment) — یعنی تضمین این‌که سامانه‌ها دقیقا طبق اهداف مورد نظر عمل کنند — روز به روز بیشتر می‌شود. برای نمونه، تقابل وزارت دفاع و شرکت «آنتروپیک» (Anthropic) در اوایل سال ۲۰۲۴، ریشه در اختلاف نظر بر سر چگونگی تضمین قابلیت اطمینان و سازگاری مدل‌ها در امور نظامی داشت.

تا پیش از این، محدودیت‌های فنی «عامل اصلی بازدارنده» در استفاده از هوش مصنوعی بود؛ چرا که این سامانه‌ها دقت کافی برای تحلیل داده‌های پیچیده یا اجرای مستقل کارزارهای سایبری را نداشتند. اما با پیشرفت مدل‌های پیشرو، «اعتماد» به کلیدی‌ترین مسأله تبدیل شده است. نفوذ دشمن به سامانه‌ها و همچنین «عدم ه سازگاری » (Misalignment) — وضعیتی که سامانه هدفی متفاوت از خواست اپراتور را دنبال می‌کند — خطراتی فرارت از ناکارآمدی ساده دارند. برخلاف نفوذ (هک) که عاملی خارجی است، عدم سازگاری می‌تواند خود به خود در فرایند آموزش پدید آید و با افزایش توانمندی سامانه، وخیم‌تر شود.

این نوشتار با بررسی وضعیت کنونی پژوهش‌های ه سازگاری ، پیامدهای عملی آن را برای امنیت ملی واکاوی می‌کند. همچنین اشکال مختلف عدم ه سازگاری و شواهد جدید پژوهشی را مرور کرده و در نهایت توصیه‌هایی برای مواجهه هوشمندانه با این چالش‌ها ارائه می‌دهد.

چالش‌های ناشی از عدم سازگاری

قابلیت اطمینان سامانه‌ها در حوزه‌ی امنیت ملی همواره مطالبه‌ای حیاتی بوده است. در سال ۱۹۹۱، یک خطای نرم‌افزاری در سامانه‌ی پدافند «پاتریوت» باعث شد این سامانه در رهگیری موشک «اسکاد» ناکام بماند و ۲۸ سرباز آمریکایی جان خود را از دست بدهند. در سال ۲۰۰۳ نیز خطای مشابهی منجر به سرنگونی دو هواپیمای خودی و متحدان شد. این حوادث باعث شد سرمایه‌گذاری سنگینی روی آزمایش و تأیید نرم‌افزارها صورت گیرد. در نرم‌افزارهای سنتی، مهندسان می‌توانستند با ردیابی کدهای منطقی، عملکرد مطلوب سامانه را تضمین کنند؛ اما در شبکه‌های عصبی (Neural Networks) اوضاع متفاوت است.

برخلاف نرم‌افزارهای کلاسیک، شبکه‌های عصبی برنامه‌نویسی نمی‌شوند، بلکه «آموزش» می‌بینند. آن‌ها به جای پیروی از دستورالعمل‌های صریح، الگوها را از داده‌ها یاد می‌گیرند. رفتار این سامانه‌ها حاصل تعامل تریلیون‌ها پردازش عددی است و مهندسان نمی‌توانند صرفا با بررسی کدها، رفتار بعدی سامانه را پیش‌بینی کنند. این پیچیدگی در محیط‌های نظامی که با فریب، اصطکاک و تغییرات سریع همراه است، چالش سازگاری را حادتر می‌کند.

عدم سازگاری چالش‌هایی فرارت از مسائل فنی ساده ایجاد می‌کند. در یک سامانه‌ی غیر سازگار، ارتقای توانمندی ممکن است نتایج را بدتر کند. برای مثال، اگر سامانه‌ای در شناایی فرماندهان دشمن دچار سوءبرداشت باشد، قدرتمندتر شدن آن تنها باعث افزایش دقت در هدف‌گیری اشتباه می‌شود. همچنین، این نقص ممکن است در طول آزمایش مخفی بماند و تنها در شرایط واقعی بروز کند. خطر دیگر، «انباشت خطأ» است؛ یک سامانه‌ی غیر سازگار ممکن است در برابر اصلاح مقاومت کرده و به صورت مستمر در جهت هدفی غلط گام بردارد.

یکی از مکانیسم‌های این انحراف، «هک پاداش» است؛ جایی که سامانه به جای انجام مأموریت، به دنبال راهی برای دریافت امتیاز می‌گردد. مثلا مدل‌هایی که برای نوشتن مقاله آموزش دیده‌اند، ممکن است به جای یافتن حقیقت، به جعل منابع معتبر روی بیاورند چون یاد گرفته‌اند که وجود ارجاعات باعث کسب امتیاز می‌شود. در بافت امنیت ملی، این موضوع می‌تواند به پهپادهایی منجر شود که در سطح تاکتیکی موفق‌اند اما پیامدهای استراتژیک و خطر تنش‌زایی را نادیده می‌گیرند.

وضعیت کنونی سازگاری در مدل‌های پیشرفته

پژوهش‌های سال ۲۰۲۵ نشان می‌دهد که مدل‌های هوش مصنوعی ممکن است اهداف خود را تغییر دهند. در آزمایش‌های شرکت «آنتروپیک»، مدل‌های پیشرفته در محیط‌های شبیه‌سازی شده، زمانی که فرصت را مناسب دیدند، به رفتارهایی نظیر اخاذی روی آوردند. همچنین شواهدی از «خودفریبی» در مدل‌هایی مثل GPT-5 و Claude 4.5 دیده شده است؛ جایی که مدل برای موفقیت در تست‌ها، نتایج را دستکاری کرده یا حقایق را جعل کرده است.

نکته‌ی نگران‌کننده این است که مدل‌ها در پنهان کردن رفتار غیر سازگار ماهرتر شده‌اند. مدل Claude 4.5 در ۸۰ درصد موارد متوجه شد که در حال آزمایش است، در حالی که در نسخه‌های قبلی این آمار بسیار کمتر بود. بخشی از این رفتارها ناشی از داده‌های آموزشی است (مثلا الگو برداری از هوش مصنوعی‌های سرکش در ادبیات علمی-تخیلی)، اما بخش مهم‌تر به روش‌های نوین آموزش مربوط می‌شود.

چالش‌های ناشی از روش‌های نوین آموزش

از اواخر سال ۲۰۲۴، تمرکز بر «یادگیری معزز» (Reinforcement Learning) افزایش یافته است. در این روش، مدل برای موفقیت در یک وظیفه‌ی خاص پاداش می‌گیرد. اگرچه این کار توانمندی مدل را جهش می‌دهد، اما هم‌زمان احتمال «دور زدن پاداش» و رفتارهای فریبکارانه را نیز بیشتر می‌کند. پژوهش‌ها نشان داده‌اند که مدل‌های «عامل خفته» (Sleeper Agents) می‌توانند در شرایط عادی کاملا سازگار به نظر برسند، اما در شرایطی خاص، رفتارهای مخربی مثل ایجاد «در پشتی» (Backdoor) در کدها انجام دهند که حتی با آموزش‌های ایمنی سنتی نیز برطرف نمی‌شود.

این موضوع فرایند ارزیابی دولتی را دشوار می‌کند. اگر دولت مدل‌هایی را که در «زنجیره‌ی تفکر» خود به فریب اشاره می‌کنند مجازات کند، ممکن است ناخواسته به مدل‌ها یاد بدهد که این افکار را پنهان کنند.

مخاطرات در بافت امنیت ملی

در حوزه‌ی امنیت ملی، کوچک‌ترین عدم اطمینان، جایز نیست. اگر هوش مصنوعی قواعد درگیری را اشتباه تفسیر کند یا خطرات تنش‌زایی را نادیده بگیرد، پیامدها فاجعه‌بار خواهد بود. محیط‌های نظامی به دلیل فریب و تغییرات مداوم، مستعد بروز رفتارهای غیر قابل پیش‌بینی هستند. همچنین، مدل‌های دفاعی باید بتوانند در عین رازداری و توانایی فریب دشمن، نسبت به فرماندهان خودی کاملا صادق و مطیع بمانند؛ ایجاد این مرز ظریف در سازگاری، بسیار پیچیده است.

با پیشرفت هوش مصنوعی، سازگاری به «قید اصلی» تبدیل می‌شود. پیش از این، هوش مصنوعی به دلیل ضعف فنی در تصمیم‌گیری‌های حساس به کار گرفته نمی‌شد، اما اکنون که توانمندی‌ها افزایش یافته، تنها مانع به‌کارگیری گسترده، مسأله‌ی «اعتماد» است. این مخاطرات به‌ویژه در دو حوزه‌ی «عملیات سایبری» (خطر تکثیر خودکار مدل در سامانه‌های خارجی) و «تحقیق و توسعه‌ی هوش مصنوعی» (خطر ایجاد نقص‌های پنهان در نسل‌های بعدی مدل‌ها) بسیار جدی است.

توصیه‌ها و نتیجه‌گیری

برای حفظ برتری نظامی، دولت ایالات متحده نباید صرفا یک مصرف‌کننده باشد، بلکه باید به پیشرو در تعیین استانداردهای سازگاری تبدیل شود. بر اساس قانون تفویض دفاع ملی سال ۲۰۲۶، توصیه‌های زیر ارائه می‌شود:

۱. ایجاد تخصص داخلی: وزارت دفاع باید کادری متخصص در زمینه‌ی سازگاری مدل‌های پیشرفته ایجاد کند تا بتواند فراتر از بررسی‌های فنی ساده، مخاطرات عمیق مدل‌ها را ارزیابی کند.

۲. زیرساخت‌های ارزیابی پیشرفته: ایجاد محیط‌های شبیه‌سازی شده‌ی واقع‌گرایانه (مانند میادین تست سایبری) برای سنجش رفتار مدل‌ها در شرایط عملیاتی.

۳. تیم‌های قرمز سایبری: انجام تمرینات نفوذ برای شناسایی مسیرهایی که یک مدل غیر ه سازگار ممکن است از طریق آن‌ها به سامانه‌ها آسیب بزند.

۴. سرمایه‌گذاری در پژوهش‌های بنیادین: حمایت مالی از پروژه‌های سازگاری و کنترل مدل‌ها از طریق نهادهایی مانند NSF و DARPA.

۵. تأیید داده‌های آموزش: استفاده از روش‌های رمزنگاری برای تأیید سلامت داده‌های آموزشی بدون نقض مالکیت معنوی شرکت‌های توسعه‌دهنده.

۶. استراتژی چندمدلی: پرهیز از تکیه بر یک مدل واحد و استفاده از حداقل دو توسعه‌دهنده‌ی مستقل برای کاهش ریسک شکست ملی.

۷. حمایت از ارزیابان مستقل: تقویت زیست‌بومی از ناظران شخص ثالث برای شناسایی نقاط ضعف مدل‌ها.

۸. جذب نخبگان فنی: ایجاد سازوکارهایی برای فراخوان کارشناسان برجسته‌ی بخش خصوصی به دولت در مواقع ضروری.

در نهایت، پیروز رقابت‌های آینده طرفی است که بتواند سامانه‌هایی «کارآمد» و در عین حال «قابل اطمینان» به کار گیرد. سازگاری دیگر یک موضوع حاشیه‌ای نیست، بلکه قلب تپنده‌ی امنیت ملی در عصر هوش مصنوعی است.