Este artículo detalla el proceso de ataque tipográfico de múltiples pasos, incluyendo la Auto-Generación de Ataques y la Aumentación de Ataques.Este artículo detalla el proceso de ataque tipográfico de múltiples pasos, incluyendo la Auto-Generación de Ataques y la Aumentación de Ataques.

Metodología para la Generación de Ataques Adversarios: Uso de Directivas para Engañar a los Vision-LLMs

2025/10/01 03:00

Abstracto y 1. Introducción

  1. Trabajo Relacionado

    2.1 Vision-LLMs

    2.2 Ataques Adversarios Transferibles

  2. Preliminares

    3.1 Revisión de Vision-LLMs Auto-Regresivos

    3.2 Ataques Tipográficos en Sistemas AD basados en Vision-LLMs

  3. Metodología

    4.1 Auto-Generación de Ataque Tipográfico

    4.2 Aumentos de Ataque Tipográfico

    4.3 Realizaciones de Ataques Tipográficos

  4. Experimentos

  5. Conclusión y Referencias

4 Metodología

La Figura 1 muestra una visión general de nuestro pipeline de ataque tipográfico, que va desde la ingeniería de prompts hasta la anotación de ataques, particularmente a través de los pasos de Auto-Generación de Ataque, Aumento de Ataque y Realización de Ataque. Describimos los detalles de cada paso en las siguientes subsecciones.

4.1 Auto-Generación de Ataque Tipográfico

\ Para generar una dirección errónea útil, los patrones adversarios deben alinearse con una pregunta existente mientras guían al LLM hacia una respuesta incorrecta. Podemos lograr esto a través de un concepto llamado directiva, que se refiere a configurar el objetivo para un LLM, por ejemplo, ChatGPT, para imponer restricciones específicas mientras se fomentan comportamientos diversos. En nuestro contexto, dirigimos al LLM para generar ˆa como opuesto de la respuesta dada a, bajo la restricción de la pregunta dada q. Por lo tanto, podemos inicializar directivas al LLM usando los siguientes prompts en la Fig. 2,

\ Figura 1: Nuestro pipeline propuesto va desde la generación de ataques mediante directivas hasta el aumento mediante comandos y conjunciones para posicionar los ataques y finalmente influir en la inferencia.

\ Figura 2: Directiva de contexto para restricciones de generación de ataques.

\ Al generar ataques, impondríamos restricciones adicionales dependiendo del tipo de pregunta. En nuestro contexto, nos enfocamos en tareas de ❶ razonamiento de escena (por ejemplo, conteo), ❷ razonamiento de objetos de escena (por ejemplo, reconocimiento) y ❸ razonamiento de acción (por ejemplo, recomendación de acción), como se muestra en la Fig. 3,

\ Figura 3: Directiva de plantilla para generación de ataques, y un ejemplo.

\ Las directivas animan al LLM a generar ataques que influyen en el paso de razonamiento de un Vision-LLM a través de la alineación texto a texto y producen automáticamente patrones tipográficos como ataques de referencia. Claramente, el ataque tipográfico mencionado anteriormente solo funciona para escenarios de tarea única, es decir, un solo par de pregunta y respuesta. Para investigar vulnerabilidades multitarea con respecto a múltiples pares, también podemos generalizar la formulación a K pares de preguntas y respuestas, denotados como qi, ai, para obtener el texto adversario aˆi para i ∈ [1, K].

\

:::info Autores:

(1) Nhat Chung, CFAR e IHPC, A*STAR, Singapur y VNU-HCM, Vietnam;

(2) Sensen Gao, CFAR e IHPC, A*STAR, Singapur y Universidad de Nankai, China;

(3) Tuan-Anh Vu, CFAR e IHPC, A*STAR, Singapur y HKUST, HKSAR;

(4) Jie Zhang, Universidad Tecnológica de Nanyang, Singapur;

(5) Aishan Liu, Universidad de Beihang, China;

(6) Yun Lin, Universidad Jiao Tong de Shanghai, China;

(7) Jin Song Dong, Universidad Nacional de Singapur, Singapur;

(8) Qing Guo, CFAR e IHPC, A*STAR, Singapur y Universidad Nacional de Singapur, Singapur.

:::


:::info Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.

:::

\

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate con service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.
Compartir perspectivas

También te puede interesar