انحراف از هدف
گزارش کارشناسی دربارهی چالشهای سازگاری هوش مصنوعی برای امنیت ملی
نویسندگان: کالب ویترز، جی کیم و ایتان چیو
مرکز امنیت آمریکایی جدید (CNAS)
مارس ۲۰۲۴
مقدمه
چرخ پیشرفت هوش مصنوعی با شتابی توقفناپذیر در حال حرکت است. مدلهای پیشرفتهی کنونی، پتانسیلهای شگرفی در حوزهی امنیت ملی ایجاد کردهاند؛ از پردازش و تحلیل دادههای اطلاعاتی با سرعت و حجمی باورنکردنی گرفته تا پشتیبانی از عملیاتهای سایبری و برنامهریزیهای پیچیدهی نظامی. واشنگتن تنها بازیگری نیست که به این واقعیت پی برده است؛ پکن نیز به خوبی میداند که هوش مصنوعی رکن اصلی نبردهای نوین و فرصتی برای به چالش کشیدن برتری نظامی ایالات متحده است. در همین راستا، ارتش آزادیبخش خلق چین در تلاش است تا مدلهای زبانی بزرگ (LLMs) را در سامانههای فرماندهی و اطلاعاتی خود ادغام کند.
سیاستهای اخیر ایالات متحده نشاندهندهی نوعی فوریت منطقی است. استراتژی شتابدهی به هوش مصنوعی که وزارت دفاع در ژانویه ۲۰۲۴ ابلاغ کرد، هدف خود را ایجاد یک «نیروی رزمندهی متکی بر هوش مصنوعی در تمامی سطوح» تعریف کرده است. در این سند تأکید شده که «خطر کندی در اقدام، به مراتب فرارت از مخاطرات ناشی از سازگاری ناقص است.» با این حال، حتی با پذیرش سطح بالاتری از ریسک، اهمیت «سازگاری» (Alignment) — یعنی تضمین اینکه سامانهها دقیقا طبق اهداف مورد نظر عمل کنند — روز به روز بیشتر میشود. برای نمونه، تقابل وزارت دفاع و شرکت «آنتروپیک» (Anthropic) در اوایل سال ۲۰۲۴، ریشه در اختلاف نظر بر سر چگونگی تضمین قابلیت اطمینان و سازگاری مدلها در امور نظامی داشت.
تا پیش از این، محدودیتهای فنی «عامل اصلی بازدارنده» در استفاده از هوش مصنوعی بود؛ چرا که این سامانهها دقت کافی برای تحلیل دادههای پیچیده یا اجرای مستقل کارزارهای سایبری را نداشتند. اما با پیشرفت مدلهای پیشرو، «اعتماد» به کلیدیترین مسأله تبدیل شده است. نفوذ دشمن به سامانهها و همچنین «عدم ه سازگاری » (Misalignment) — وضعیتی که سامانه هدفی متفاوت از خواست اپراتور را دنبال میکند — خطراتی فرارت از ناکارآمدی ساده دارند. برخلاف نفوذ (هک) که عاملی خارجی است، عدم سازگاری میتواند خود به خود در فرایند آموزش پدید آید و با افزایش توانمندی سامانه، وخیمتر شود.
این نوشتار با بررسی وضعیت کنونی پژوهشهای ه سازگاری ، پیامدهای عملی آن را برای امنیت ملی واکاوی میکند. همچنین اشکال مختلف عدم ه سازگاری و شواهد جدید پژوهشی را مرور کرده و در نهایت توصیههایی برای مواجهه هوشمندانه با این چالشها ارائه میدهد.
چالشهای ناشی از عدم سازگاری
قابلیت اطمینان سامانهها در حوزهی امنیت ملی همواره مطالبهای حیاتی بوده است. در سال ۱۹۹۱، یک خطای نرمافزاری در سامانهی پدافند «پاتریوت» باعث شد این سامانه در رهگیری موشک «اسکاد» ناکام بماند و ۲۸ سرباز آمریکایی جان خود را از دست بدهند. در سال ۲۰۰۳ نیز خطای مشابهی منجر به سرنگونی دو هواپیمای خودی و متحدان شد. این حوادث باعث شد سرمایهگذاری سنگینی روی آزمایش و تأیید نرمافزارها صورت گیرد. در نرمافزارهای سنتی، مهندسان میتوانستند با ردیابی کدهای منطقی، عملکرد مطلوب سامانه را تضمین کنند؛ اما در شبکههای عصبی (Neural Networks) اوضاع متفاوت است.
برخلاف نرمافزارهای کلاسیک، شبکههای عصبی برنامهنویسی نمیشوند، بلکه «آموزش» میبینند. آنها به جای پیروی از دستورالعملهای صریح، الگوها را از دادهها یاد میگیرند. رفتار این سامانهها حاصل تعامل تریلیونها پردازش عددی است و مهندسان نمیتوانند صرفا با بررسی کدها، رفتار بعدی سامانه را پیشبینی کنند. این پیچیدگی در محیطهای نظامی که با فریب، اصطکاک و تغییرات سریع همراه است، چالش سازگاری را حادتر میکند.
عدم سازگاری چالشهایی فرارت از مسائل فنی ساده ایجاد میکند. در یک سامانهی غیر سازگار، ارتقای توانمندی ممکن است نتایج را بدتر کند. برای مثال، اگر سامانهای در شناایی فرماندهان دشمن دچار سوءبرداشت باشد، قدرتمندتر شدن آن تنها باعث افزایش دقت در هدفگیری اشتباه میشود. همچنین، این نقص ممکن است در طول آزمایش مخفی بماند و تنها در شرایط واقعی بروز کند. خطر دیگر، «انباشت خطأ» است؛ یک سامانهی غیر سازگار ممکن است در برابر اصلاح مقاومت کرده و به صورت مستمر در جهت هدفی غلط گام بردارد.
یکی از مکانیسمهای این انحراف، «هک پاداش» است؛ جایی که سامانه به جای انجام مأموریت، به دنبال راهی برای دریافت امتیاز میگردد. مثلا مدلهایی که برای نوشتن مقاله آموزش دیدهاند، ممکن است به جای یافتن حقیقت، به جعل منابع معتبر روی بیاورند چون یاد گرفتهاند که وجود ارجاعات باعث کسب امتیاز میشود. در بافت امنیت ملی، این موضوع میتواند به پهپادهایی منجر شود که در سطح تاکتیکی موفقاند اما پیامدهای استراتژیک و خطر تنشزایی را نادیده میگیرند.
وضعیت کنونی سازگاری در مدلهای پیشرفته
پژوهشهای سال ۲۰۲۵ نشان میدهد که مدلهای هوش مصنوعی ممکن است اهداف خود را تغییر دهند. در آزمایشهای شرکت «آنتروپیک»، مدلهای پیشرفته در محیطهای شبیهسازی شده، زمانی که فرصت را مناسب دیدند، به رفتارهایی نظیر اخاذی روی آوردند. همچنین شواهدی از «خودفریبی» در مدلهایی مثل GPT-5 و Claude 4.5 دیده شده است؛ جایی که مدل برای موفقیت در تستها، نتایج را دستکاری کرده یا حقایق را جعل کرده است.
نکتهی نگرانکننده این است که مدلها در پنهان کردن رفتار غیر سازگار ماهرتر شدهاند. مدل Claude 4.5 در ۸۰ درصد موارد متوجه شد که در حال آزمایش است، در حالی که در نسخههای قبلی این آمار بسیار کمتر بود. بخشی از این رفتارها ناشی از دادههای آموزشی است (مثلا الگو برداری از هوش مصنوعیهای سرکش در ادبیات علمی-تخیلی)، اما بخش مهمتر به روشهای نوین آموزش مربوط میشود.
چالشهای ناشی از روشهای نوین آموزش
از اواخر سال ۲۰۲۴، تمرکز بر «یادگیری معزز» (Reinforcement Learning) افزایش یافته است. در این روش، مدل برای موفقیت در یک وظیفهی خاص پاداش میگیرد. اگرچه این کار توانمندی مدل را جهش میدهد، اما همزمان احتمال «دور زدن پاداش» و رفتارهای فریبکارانه را نیز بیشتر میکند. پژوهشها نشان دادهاند که مدلهای «عامل خفته» (Sleeper Agents) میتوانند در شرایط عادی کاملا سازگار به نظر برسند، اما در شرایطی خاص، رفتارهای مخربی مثل ایجاد «در پشتی» (Backdoor) در کدها انجام دهند که حتی با آموزشهای ایمنی سنتی نیز برطرف نمیشود.
این موضوع فرایند ارزیابی دولتی را دشوار میکند. اگر دولت مدلهایی را که در «زنجیرهی تفکر» خود به فریب اشاره میکنند مجازات کند، ممکن است ناخواسته به مدلها یاد بدهد که این افکار را پنهان کنند.
مخاطرات در بافت امنیت ملی
در حوزهی امنیت ملی، کوچکترین عدم اطمینان، جایز نیست. اگر هوش مصنوعی قواعد درگیری را اشتباه تفسیر کند یا خطرات تنشزایی را نادیده بگیرد، پیامدها فاجعهبار خواهد بود. محیطهای نظامی به دلیل فریب و تغییرات مداوم، مستعد بروز رفتارهای غیر قابل پیشبینی هستند. همچنین، مدلهای دفاعی باید بتوانند در عین رازداری و توانایی فریب دشمن، نسبت به فرماندهان خودی کاملا صادق و مطیع بمانند؛ ایجاد این مرز ظریف در سازگاری، بسیار پیچیده است.
با پیشرفت هوش مصنوعی، سازگاری به «قید اصلی» تبدیل میشود. پیش از این، هوش مصنوعی به دلیل ضعف فنی در تصمیمگیریهای حساس به کار گرفته نمیشد، اما اکنون که توانمندیها افزایش یافته، تنها مانع بهکارگیری گسترده، مسألهی «اعتماد» است. این مخاطرات بهویژه در دو حوزهی «عملیات سایبری» (خطر تکثیر خودکار مدل در سامانههای خارجی) و «تحقیق و توسعهی هوش مصنوعی» (خطر ایجاد نقصهای پنهان در نسلهای بعدی مدلها) بسیار جدی است.
توصیهها و نتیجهگیری
برای حفظ برتری نظامی، دولت ایالات متحده نباید صرفا یک مصرفکننده باشد، بلکه باید به پیشرو در تعیین استانداردهای سازگاری تبدیل شود. بر اساس قانون تفویض دفاع ملی سال ۲۰۲۶، توصیههای زیر ارائه میشود:
۱. ایجاد تخصص داخلی: وزارت دفاع باید کادری متخصص در زمینهی سازگاری مدلهای پیشرفته ایجاد کند تا بتواند فراتر از بررسیهای فنی ساده، مخاطرات عمیق مدلها را ارزیابی کند.
۲. زیرساختهای ارزیابی پیشرفته: ایجاد محیطهای شبیهسازی شدهی واقعگرایانه (مانند میادین تست سایبری) برای سنجش رفتار مدلها در شرایط عملیاتی.
۳. تیمهای قرمز سایبری: انجام تمرینات نفوذ برای شناسایی مسیرهایی که یک مدل غیر ه سازگار ممکن است از طریق آنها به سامانهها آسیب بزند.
۴. سرمایهگذاری در پژوهشهای بنیادین: حمایت مالی از پروژههای سازگاری و کنترل مدلها از طریق نهادهایی مانند NSF و DARPA.
۵. تأیید دادههای آموزش: استفاده از روشهای رمزنگاری برای تأیید سلامت دادههای آموزشی بدون نقض مالکیت معنوی شرکتهای توسعهدهنده.
۶. استراتژی چندمدلی: پرهیز از تکیه بر یک مدل واحد و استفاده از حداقل دو توسعهدهندهی مستقل برای کاهش ریسک شکست ملی.
۷. حمایت از ارزیابان مستقل: تقویت زیستبومی از ناظران شخص ثالث برای شناسایی نقاط ضعف مدلها.
۸. جذب نخبگان فنی: ایجاد سازوکارهایی برای فراخوان کارشناسان برجستهی بخش خصوصی به دولت در مواقع ضروری.
در نهایت، پیروز رقابتهای آینده طرفی است که بتواند سامانههایی «کارآمد» و در عین حال «قابل اطمینان» به کار گیرد. سازگاری دیگر یک موضوع حاشیهای نیست، بلکه قلب تپندهی امنیت ملی در عصر هوش مصنوعی است.