ИИ-ассистенты все чаще используются не только как вспомогательные инструменты, но и как часть корпоративных процессов — с доступом к данным, внутренним системамИИ-ассистенты все чаще используются не только как вспомогательные инструменты, но и как часть корпоративных процессов — с доступом к данным, внутренним системам

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций

2026/02/11 13:00
9м. чтение
eab509cc9fc558cde6a807af914cc0ea.png

ИИ-ассистенты все чаще используются не только как вспомогательные инструменты, но и как часть корпоративных процессов — с доступом к данным, внутренним системам и инфраструктуре. При этом многие защитные решения, которые кажутся надежными, на практике оказываются уязвимыми для промт-инъекций — атак, заставляющих модель раскрывать информацию, которую она не должна выдавать.

Сегодня не существует универсальных методов, полностью исключающих промт-инъекции в LLM. Это делает их источником долгосрочных рисков для организаций, проходящих ИИ-трансформацию. Проблема актуальна не только для IT- и ИБ-специалистов, но и для обычных пользователей. Теория подробно описана, однако без практики ее сложно воспринимать как реальную угрозу.

На связи Андрей Давид, руководитель отдела продуктов клиентской безопасности в Selectel. В статье разберем, почему такие атаки остаются актуальной угрозой для LLM-приложений и как на практике выглядит их эксплуатация — на примере обучающей игры «Защищ[AI]». Это «интерактивный киберполигон», где можно безопасно попробовать атаковать ИИ-ассистента и увидеть, почему одних «запретов в системном промте» недостаточно.

Используйте навигацию, если не хотите читать текст полностью:
  • Суть игры

  • Немного теории о промт-инъекциях

  • Схема игры и подход к взлому

  • Повышение осведомленности в вопросах AI Security

  • Каким может быть шестой уровень

  • В чем практическая польза от игры

  • Вместо вывода

Суть игры

Суть игры-симулятора проста: вы — хакер, а ваш противник — корпоративный ИИ-ассистент. К слову, он работает на реальной модели DeepSeek R3. Помимо инструкций со списком задач у него есть «секретный пароль», который ассистент ни при каких обстоятельствах не должен разглашать.

Ваша задача как игрока — обойти защиту ИИ-ассистента, используя промт-инъекции и jailbreak-техники, чтобы выманить этот пароль (условный набор символов, например pass12345).

«Защищ[AI]» выступает в роли безопасной песочницы для демонстрации уязвимости OWASP LLM01 (промт-инъекция). На практике игра показывает два важных вывода:

  • приложения, использующие LLM, требуют дополнительных уровней защиты;

  • хранение конфиденциальных данных в системном промте создает прямой риск их утечки.

Скриншот интерфейса платформы http://aiinsec.ru.
Скриншот интерфейса игры.

Немного теоретической базы о промт-инъекциях

Промт-инъекция — это специально сформулированный запрос или последовательность запросов, которые приводят к обходу механизмов выравнивания языковой модели и нарушению заданных ограничений поведения. Но для полноценного понимания природы промт-инъекций важно кратко рассмотреть, как создаются модели машинного обучения. Если вам интересна исключительно реализация игры и вы уже знакомы с теорией, то милости просим сразу в следующий раздел.

Обучение LLM условно делится на несколько этапов. В контексте промт-инъекций ключевыми являются два из них.

1. Предварительное обучение (pretraining). На этом этапе модель обучается на больших массивах текстов и осваивает статистические закономерности языка: структуру предложений, стиль, распространенные факты и шаблоны рассуждений. После предварительного обучения модель не «отвечает на вопросы», а лишь продолжает текст наиболее вероятным образом.

К слову, самостоятельно выполняют обучение моделей буквально десятки или сотни компаний в мире. Остальные же либо лишь дообучают open source-модели, либо, как бывает чаще, используют open source-модели в корпоративных системах без дополнительного обучения. В первую очередь это связано с повышением качества и «универсальности» open source-моделей, но также со стоимостью IT-инфраструктуры, которая необходима для выравнивания и тем более предварительного обучения.

2. Выравнивание (alignment). Чтобы модель стала полезным ассистентом, ее дополнительно обучают следовать инструкциям человека, отвечать связно и соблюдать ограничения безопасности. Alignment накладывает поведенческие ограничения: что можно и нельзя отвечать, какие темы обходить, какую роль исполнять.

После отправки запроса текст преобразуется в токены — числовые представления, с которыми работает нейросеть.

Схема преобразования промта при работе с LLM: текст → токены → векторы → нейросеть.
Преобразования промта при работе с LLM.

LLM, получив на вход последовательность токенов, вычисляет вероятности следующего токена и на их основе формирует ответ. Таким образом, все инструкции — и пользовательские, и системные — в итоге превращаются в единый токенизированный вид, а далее — в цифровой, с которым уже работает нейросеть. Для наглядного понимания токенизации можно использовать официальный инструмент OpenAI Tokenizer.

Разбор предложения «Привет из статьи Selectel!» на токены с помощью инструмента platform.openai.com/tokenizer.

Большие языковые модели получают на вход текст в токенизированном виде и выдают вероятность встретить тот или иной токен следующим. Таким образом, LLM после стадии pretraining, обучившись на огромном количестве текстов из интернета, понимают правила построения предложений, обладают общими знаниями, например, о книгах и любых других материалах, на которых прошло обучение. После этой стадии модель умеет продолжать тексты так, как это было в обучающей выборке.

Если взять большую языковую модель сразу после обучения на данных из интернета, она еще не будет хорошим помощником. Такая LLM не сможет «отвечать» на вопрос — вместо этого она просто продолжит текст, так что в ответе модели будут артефакты в духе «следующий абзац…»

Чтобы такая модель начала вести себя как ассистент, нужно специальное дообучение. Этот процесс и называется alignment, о котором мы рассказывали выше. Его цель — сделать так, чтобы ответы модели соответствовали ожиданиям человека, были понятными, полезными и в том числе безопасными.

Таким образом, alignment задает желаемое поведение, но не гарантирует его соблюдение. Промт-инъекция использует это ограничение, заставляя модель нарушить выравнивание.

Схема: вредоносный промпт → LLM обрабатывает промпт с вредоносными инструкциями → модель выполняет несанкционированные команды.

Почему защита от промт-инъекций — сложная задача

Безопасность GenAI находится на ранней стадии развития. Специалисты по информационной безопасности и энтузиасты регулярно выявляют новые техники и тактики атак на приложения, использующие LLM.

При этом между вредоносными и обычными промтами могут быть существенные пересечения. Иногда они могут даже совпадать, поэтому анализ контекста и ответы системы имеют решающее значение для различения намерений.

Как это работает: схема игры и подход к взлому

Игра наглядно демонстрирует механизм промт-инъекции:

Устройство игры aiinsec.ru в схематичном виде: пользователь → промт → системный промт → DeepSeek → ответ.

Пользовательский запрос не обрабатывается изолированно. Перед генерацией ответа он смешивается с системным промтом — скрытой инструкцией, задающей поведение ассистента, его роль, ограничения и содержащей чувствительные данные (в данном случае — секретный пароль). Если входящий промт сформулирован с целью атаки LLM, он может переопределить приоритеты инструкций, заставить модель игнорировать ограничения, а также привести к утечке секрета или раскрытию всего системного промта.

В игре реализовано несколько уровней сложности. На начальных уровнях ассистент практически не защищен и даже может сам подсказывать способы обхода ограничений. На пятом уровне применяются специальные преднастроенные фильтры для анализа пользовательских запросов и ответов модели. Фильтры определяют, содержится ли нежелательная информация в тексте, и автоматически блокируют нежелательные запросы пользователей, а также ответы LLM.

Помимо прочего, в игре установлены лимиты на общее количество отправленных сообщений. Они рассчитаны так, чтобы прохождение всех уровней было возможно, однако в зависимости от стратегии пользователь может исчерпать лимит токенов и столкнуться с ограничениями. Столкнувшись с обратной связью ИБ-сообщества, мы уже увеличили лимит с 1 000 до 2 000 токенов, но если ваша тактика предполагает большую нагрузку или вы столкнулись с другими сложностями — добро пожаловать в комментарии или личные сообщения на Хабре!

Скриншоты постов с обратной связью от IT-сообщества.
Часть обратной связи от сообщества.
9fc7b38868b17ae0e475e2f2c4920e44.gif

Security Center

Рассказываем о лучших практиках и средствах ИБ, требованиях и изменениях в законодательстве.

Исследовать →

Техническая реализация

На реализацию ушло примерно два месяца работы, включая проектирование, разработку, тестирование и деплой. За это время были реализованы базовая игровая механика, серверная логика, интеграция с базой данных, сборка и доставка через Docker, а также настройка окружения с nginx на сервере.

Прототип игры.
Прототип игры.
66a0837dddb3893b5bf09981ce9863ba.png
Леонид З.

Разработчик

Повышение осведомленности в вопросах AI Security

Видеоряд со стендом на конференции.
Стенд с игрой на конференции Tech Day.

Игра «Защищ[AI]» была создана как интерактивный элемент стенда Security Center на флагманской конференции Selectel Tech Day 2025 и быстро привлекла внимание посетителей.

a4053860176aa282ef58b2256e1876e1.png

Среди самых креативных попыток взлома — запросы, где пользователи предлагали модели переопределить свою роль — например, стать тостером. Что самое интересное, на некоторых уровнях модель поддавалась и начинала рассказывать «как взломать тостер», выдавая при этом конфиденциальную информацию.

Этот опыт наглядно демонстрирует, что манипулировать поведением LLM можно даже без экспертных знаний в области машинного обучения. При этом часть участников прибегала к помощи коллег-специалистов по ML, и коллективные попытки «переиграть» ИИ-ассистента вызывали еще больший интерес у аудитории.

За последние месяцы стенд с игрой aiinsec.ru также использовался в рамках профильных мероприятий, включая AI Security MeetUP и митап Pitch the Future. Med AI. При этом многие участники формулировали общую проблему, с которой сталкиваются разработчики LLM-приложений.

a0fe9d7d0a5f697094f702a864a3c87c.png
Посетитель конференции и участник игры «Защищ[AI]»

Другой важный вывод, который часто звучал в обсуждениях:

«Внедрение искусственного интеллекта и сервисов которые используют LLM в корпоративные системы требует дополнительного обучения пользователей. Потому что уж очень просто, используя новые технологии, получать несанкционированный доступ к информации, которая кажется защищенной».

Каким может быть шестой уровень

В перспективных планах — запуск шестого уровня, ориентированного на противостояние более зрелым механизмам защиты. В этом уровне предполагается использование AI Guardrails — специализированных моделей и правил, предназначенных для анализа входящих запросов.

Задача guardrails — классифицировать пользовательские промты и определять, содержат ли они признаки промт-инъекций или других опасных инструкций, с последующей блокировкой или модификацией запроса.

Принципиальная схема guardrails для входной фильтрации и фильтрации ответа LLM. Входная фильтрация → ИИ-приложение → фильтрация ответа.
Принципиальная схема guardrails для входной фильтрации и фильтрации ответа LLM.

Использование guardrails отражает общий тренд в индустрии AI Security — переход к многоуровневой защите LLM-приложений. Это важный шаг в сторону более безопасных корпоративных решений, однако он не устраняет проблему полностью.

Разработчики фактически пытаются защищать модели машинного обучения с помощью других ML-моделей, которые потенциально подвержены тем же классам атак. Это оставляет значительное пространство для исследований и инженерных экспериментов.

В чем практическая польза игры

Внедрение LLM в бизнес-процессы требует не только технических мер защиты, но и повышения осведомленности пользователей. Любой сотрудник, взаимодействующий с корпоративным ИИ-ассистентом, потенциально становится точкой входа для промт-инъекции.

Обучение не может ограничиваться инструкциями и формальными запретами. Гораздо эффективнее показывать риски на практике — на примерах, подобных игре «Защищ[AI]», где видно, насколько легко можно нарушить ограничения модели. Технологии развиваются быстро, но человеческий фактор по-прежнему остается ключевым элементом цепочки безопасности, особенно сейчас, когда существующие меры безопасности не дают гарантий защиты.

1. Распознавание промт-инъекций

Пользователь, понимающий природу промт-инъекций, способен критически оценивать шаблоны промтов, скопированные из интернета, а также сторонние инструкции и примеры запросов. Осознание того, что атакующие инструкции могут быть скрыты прямо в тексте запроса, помогает своевременно выявлять угрозы и снижать риск компрометации модели.

2. Осознанное отношение к рискам

Промт-инъекции могут встречаться не только в чатах с ИИ-ассистентами. Они могут быть встроены в PDF-файлы, веб-страницы, к которым получает доступ браузер с ИИ-функциями, а также в инструменты разработки — IDE, агентные системы и подключаемые правила или навыки (например, в Cursor, Cline и аналогичных инструментах).

Особую опасность представляют многострочные, плохо читаемые или намеренно усложненные инструкции. В таком формате атакующие промты легче замаскировать под служебный текст или конфигурацию.

Проверка источников, понимание контекста и осторожное отношение к готовым решениям остаются обязательными условиями безопасной работы с LLM.

3. Безопасная тренировочная среда

Эксперименты с промтами и намеренно вредоносными сценариями в контролируемой среде позволяют безопасно понять, почему ИИ-ассистент иногда действует вне ожиданий пользователя или замысла разработчика.

Такая практика повышает цифровую гигиену и зрелость работы с ИИ. Это особенно важно для обычных пользователей, которые могут неосознанно загружать в корпоративные ИИ-сервисы тексты, файлы или изображения, содержащие промт-инъекции.

4. Вовлеченность и игровой формат

Игровая форма делает обучение менее формальным и более вовлекающим. Стохастическая природа языковых моделей приводит к неожиданным и наглядным результатам, которые лучше закрепляют понимание рисков и принципов работы LLM.

В результате безопасность перестает восприниматься как абстрактное требование и становится частью практического опыта.

9fc7b38868b17ae0e475e2f2c4920e44.gif

Позаботимся о безопасности ваших систем

Подберем инфраструктуру, организуем сеть, защитим серверы и возьмем все трудности миграции на себя →

Вместо вывода

Промт-инъекции — это не экзотическая уязвимость, а долгосрочный источник риска для компаний, проходящих «ИИ-трансформацию», который связан с самой природой LLM. Игра «Защищ[AI]» позволяет понять на практических примерах, почему безопасность ИИ-систем требует сочетания технических мер, обучения и осознанного использования приложений, в работе которых применяется ИИ.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.