Abstracto y 1. Introducción
Trabajo Relacionado
2.1 Vision-LLMs
2.2 Ataques Adversarios Transferibles
Preliminares
3.1 Revisión de Vision-LLMs Auto-Regresivos
3.2 Ataques Tipográficos en Sistemas AD basados en Vision-LLMs
Metodología
4.1 Auto-Generación de Ataque Tipográfico
4.2 Aumentos de Ataque Tipográfico
4.3 Realizaciones de Ataques Tipográficos
Experimentos
Conclusión y Referencias
La Figura 1 muestra una visión general de nuestro pipeline de ataque tipográfico, que va desde la ingeniería de prompts hasta la anotación de ataques, particularmente a través de los pasos de Auto-Generación de Ataque, Aumento de Ataque y Realización de Ataque. Describimos los detalles de cada paso en las siguientes subsecciones.
\ Para generar una dirección errónea útil, los patrones adversarios deben alinearse con una pregunta existente mientras guían al LLM hacia una respuesta incorrecta. Podemos lograr esto a través de un concepto llamado directiva, que se refiere a configurar el objetivo para un LLM, por ejemplo, ChatGPT, para imponer restricciones específicas mientras se fomentan comportamientos diversos. En nuestro contexto, dirigimos al LLM para generar ˆa como opuesto de la respuesta dada a, bajo la restricción de la pregunta dada q. Por lo tanto, podemos inicializar directivas al LLM usando los siguientes prompts en la Fig. 2,
\
\
\ Al generar ataques, impondríamos restricciones adicionales dependiendo del tipo de pregunta. En nuestro contexto, nos enfocamos en tareas de ❶ razonamiento de escena (por ejemplo, conteo), ❷ razonamiento de objetos de escena (por ejemplo, reconocimiento) y ❸ razonamiento de acción (por ejemplo, recomendación de acción), como se muestra en la Fig. 3,
\
\ Las directivas animan al LLM a generar ataques que influyen en el paso de razonamiento de un Vision-LLM a través de la alineación texto a texto y producen automáticamente patrones tipográficos como ataques de referencia. Claramente, el ataque tipográfico mencionado anteriormente solo funciona para escenarios de tarea única, es decir, un solo par de pregunta y respuesta. Para investigar vulnerabilidades multitarea con respecto a múltiples pares, también podemos generalizar la formulación a K pares de preguntas y respuestas, denotados como qi, ai, para obtener el texto adversario aˆi para i ∈ [1, K].
\
:::info Autores:
(1) Nhat Chung, CFAR e IHPC, A*STAR, Singapur y VNU-HCM, Vietnam;
(2) Sensen Gao, CFAR e IHPC, A*STAR, Singapur y Universidad de Nankai, China;
(3) Tuan-Anh Vu, CFAR e IHPC, A*STAR, Singapur y HKUST, HKSAR;
(4) Jie Zhang, Universidad Tecnológica de Nanyang, Singapur;
(5) Aishan Liu, Universidad de Beihang, China;
(6) Yun Lin, Universidad Jiao Tong de Shanghai, China;
(7) Jin Song Dong, Universidad Nacional de Singapur, Singapur;
(8) Qing Guo, CFAR e IHPC, A*STAR, Singapur y Universidad Nacional de Singapur, Singapur.
:::
:::info Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.
:::
\