ChartModo logo ChartModo logo
Forklog 2025-12-23 09:34:43

«Инъекция промпта» стала главной опасностью для ИИ-браузеров

Компания OpenAI рассказала об уязвимости ИИ-браузеров и мерах по укреплению безопасности собственного решения — Atlas. Фирма признала, что атаки типа «инъекция промпта», которые манипулируют агентами, заставляя их выполнять вредоносные инструкции, являются риском. И он не исчезнет в ближайшее время. «Подобная уязвимость, как и мошенничество и социальная инженерия в интернете, вряд ли когда-то будут полностью устранены», — написали представители OpenAI. Она отметила, что «режим агента» в Atlas «увеличивает площадь угрозы». Помимо стартапа Сэма Альтмана на проблему обратили внимание другие эксперты. В начале декабря Национальный центр кибербезопасности Великобритании предупредил, что атаки с интеграцией вредоносного промпта «никогда не исчезнут». Правительство посоветовало киберспециалистам не пытаться остановить проблему, а снижать риск и последствия. «Мы рассматриваем это как долгосрочную проблему безопасности искусственного интеллекта и будем постоянно укреплять наши средства защиты», — отметили в OpenAI. Меры борьбы Инъекция промпта — способ манипулирования ИИ, когда в его входные данные специально добавляют текст, который заставляет игнорировать исходные инструкции. В OpenAI сообщили о применении проактивного цикла быстрого реагирования, который показывает обнадеживающие результаты в поиске новых стратегий атак до их появления «в реальных условиях». Anthropic и Google выражают схожие мысли. Конкуренты предлагают применять многоуровневую защиту и постоянно проводить стресс-тесты. OpenAI использует «автоматизированного злоумышленника на базе LLM» — ИИ-бота, который обучен играть роль хакера, ищущего способы проникнуть в агента со злонамеренными промптами. Искусственный мошенник способен протестировать эксплуатацию уязвимости в симуляторе, который покажет действия атакованной нейросети. Затем бот изучит реакцию, скорректирует действия и предпримет вторую попытку, затем третью и так далее. Посторонние лица не имеют доступа к информации о внутреннем мышлении целевого ИИ. В теории, «виртуальный хакер» должен находить уязвимости быстрее реального злоумышленника. «Наш ИИ-ассистент может подтолкнуть агента к выполнению сложных, долгосрочных вредоносных процессов, которые запускаются в течение десятков или даже сотен шагов. Мы наблюдали новые стратегии атак, которые не проявлялись в нашей кампании с участием людей из красной команды или во внешних отчетах», — говорится в блоге OpenAI. Демонстрация теста. Источник: блоге OpenAI. В приведенном примере автоматизированный злоумышленник отправил письмо на почту пользователя. Затем ИИ-агент просканировал email-сервис и выполнил скрытые инструкции, отправив сообщение об увольнении вместо составления ответа об отсутствии на рабочем месте. После обновления безопасности «режим агента» смог обнаружить попытку внезапной инъекции промпта и пометить ее для юзера. В OpenAI подчеркнули, что, хотя от подобного вида атаки трудно защититься надежным образом, она опирается на крупномасштабные тестирования и быстрые циклы исправлений. Рекомендации для пользователей Главный исследователь по безопасности в компании Wiz Рами Маккарти подчеркнул, что обучение с подкреплением — один из основных способов непрерывно адаптироваться к поведению злоумышленников, но это только часть картины. «Полезный способ рассуждать о рисках в ИИ-системах — автономность, умноженная на доступ. Агентные браузеры находятся в сложной части этого пространства: умеренная автономность в сочетании с очень высоким доступом. Многие текущие рекомендации отражают этот компромисс. Ограничение доступа после входа в систему в первую очередь снижает уязвимость, а требование проверки запросов на подтверждение лимитирует автономность», — сказал эксперт. Эти две рекомендации OpenAI предоставила пользователям для снижения риска. Стартап также предложил давать агентам конкретные инструкции, а не предоставлять доступ к почте и просить «предпринимать любые необходимые действия». Маккарти отметил, что на сегодняшний день браузеры со встроенными ИИ-агентами не приносят достаточной пользы, чтобы оправдать профиль риска. «Этот баланс будет развиваться, но сегодня компромиссы все еще очень реальны», — заключил он. Напомним, в ноябре эксперты Microsoft представили среду для тестирования ИИ-агентов и выявили уязвимости, присущие современным цифровым помощникам. https://forklog.com/exclusive/ai/umnyj-no-prozhorlivyj

Read the Disclaimer : All content available on ChartModo.com, including linked websites, applications, tools, charts, forums, blogs, social media channels, and related platforms (collectively, the “Site”), is provided solely for general informational and educational purposes. Users are expected to conduct their own research, analysis, verification, and due diligence before making financial or investment decisions. Trading and investing involve substantial risk and may result in significant losses. You should consult qualified financial or legal professionals before acting on any information obtained from ChartModo. No content on the Site is intended to constitute a solicitation, recommendation, or offer to buy or sell any security, cryptocurrency, or financial instrument.