نبذة مختصرة و1. المقدمة
الأعمال ذات الصلة
2.1 نماذج اللغة الكبيرة للرؤية
2.2 هجمات خصومية قابلة للتحويل
المقدمات
3.1 إعادة النظر في نماذج اللغة الكبيرة للرؤية ذاتية الانحدار
3.2 الهجمات الطباعية في أنظمة الكشف التلقائي المعتمدة على نماذج اللغة الكبيرة للرؤية
المنهجية
4.1 التوليد التلقائي للهجوم الطباعي
4.2 تعزيزات الهجوم الطباعي
4.3 تحقيقات الهجمات الطباعية
التجارب
الخاتمة والمراجع
يوضح الشكل 1 نظرة عامة على خط أنابيب الهجوم الطباعي الخاص بنا، والذي ينتقل من هندسة المطالبات إلى تعليم الهجوم، خاصة من خلال خطوات التوليد التلقائي للهجوم، وتعزيز الهجوم، وتحقيق الهجوم. نصف تفاصيل كل خطوة في الأقسام الفرعية التالية.
\ من أجل توليد تضليل مفيد، يجب أن تتوافق الأنماط الخصومية مع سؤال موجود مع توجيه نموذج اللغة الكبير نحو إجابة غير صحيحة. يمكننا تحقيق ذلك من خلال مفهوم يسمى التوجيه، والذي يشير إلى تكوين الهدف لنموذج اللغة الكبير، مثل ChatGPT، لفرض قيود محددة مع تشجيع السلوكيات المتنوعة. في سياقنا، نوجه نموذج اللغة الكبير لتوليد ˆa كعكس للإجابة المعطاة a، تحت قيد السؤال المعطى q. لذلك، يمكننا تهيئة التوجيهات إلى نموذج اللغة الكبير باستخدام المطالبات التالية في الشكل 2،
\
\
\ عند توليد الهجمات، سنفرض قيودًا إضافية اعتمادًا على نوع السؤال. في سياقنا، نركز على مهام ❶ استدلال المشهد (مثل العد)، ❷ استدلال كائن المشهد (مثل التعرف)، و❸ استدلال الإجراء (مثل توصية الإجراء)، كما يلي في الشكل 3،
\
\ تشجع التوجيهات نموذج اللغة الكبير على توليد هجمات تؤثر على خطوة استدلال نموذج اللغة الكبير للرؤية من خلال محاذاة النص إلى النص وتنتج تلقائيًا أنماطًا طباعية كهجمات معيارية. من الواضح أن الهجوم الطباعي المذكور أعلاه يعمل فقط لسيناريوهات المهام الفردية، أي زوج واحد من السؤال والإجابة. للتحقيق في نقاط الضعف متعددة المهام فيما يتعلق بأزواج متعددة، يمكننا أيضًا تعميم الصياغة إلى K من أزواج الأسئلة والإجابات، المشار إليها بـ qi، ai، للحصول على النص الخصومي aˆi لـ i ∈ [1, K].
\
:::info المؤلفون:
(1) نهات تشونغ، CFAR و IHPC، A*STAR، سنغافورة و VNU-HCM، فيتنام؛
(2) سينسين غاو، CFAR و IHPC، A*STAR، سنغافورة وجامعة نانكاي، الصين؛
(3) توان-آنه فو، CFAR و IHPC، A*STAR، سنغافورة و HKUST، هونغ كونغ؛
(4) جي تشانغ، جامعة نانيانغ التكنولوجية، سنغافورة؛
(5) آيشان ليو، جامعة بيهانغ، الصين؛
(6) يون لين، جامعة شنغهاي جياو تونغ، الصين؛
(7) جين سونغ دونغ، الجامعة الوطنية في سنغافورة، سنغافورة؛
(8) تشينغ غوو، CFAR و IHPC، A*STAR، سنغافورة والجامعة الوطنية في سنغافورة، سنغافورة.
:::
:::info هذه الورقة متاحة على arxiv تحت رخصة CC BY 4.0 DEED.
:::
\