30.05.2026. - Системы голосового ИИ уязвимы для скрытых аудиоатак

Системы голосового ИИ уязвимы для скрытых аудиоатак

Инструменты голосового и аудиоанализа на основе ИИ все чаще внедряются в повседневную жизнь, от цифровых помощников до умных колонок и ботов для обслуживания клиентов. Достижения в области больших аудио-языковых моделей (LALM), которые могут как анализировать, так и генерировать аудио, теперь позволяют управлять устройствами с помощью голосовых команд, автоматически расшифровывать записи совещаний или определять песню, играющую на заднем плане. Эти модели также все чаще оснащаются возможностью взаимодействовать с внешними сервисами и работать с другими приложениями и инструментами.

Но эти инструменты могут быть «захвачены» с помощью незаметных звуков, встроенных в аудио, что заставляет их выполнять несанкционированные команды без ведома пользователя. Новое исследование, которое будет представлено на Симпозиуме IEEE по безопасности и конфиденциальности в Сан-Франциско на следующей неделе, показывает, что модифицированный аудиоклип, не различимый человеческим ухом, может манипулировать поведением модели со средней вероятностью успеха от 79 до 96 процентов. Эти аудиозаписи разработаны таким образом, чтобы работать независимо от инструкций, которые пользователь предоставляет вместе с аудио, а это значит, что их можно использовать для многократной атаки на одну и ту же модель.

Авторы протестировали подход на 13 ведущих открытых моделях, включая коммерческие голосовые сервисы ИИ от Microsoft и Mistral, и показали, что они могут заставить модели проводить конфиденциальные веб-поиски, загружать файлы из источников, контролируемых злоумышленниками, и отправлять электронные письма, содержащие данные пользователей.

«На обучение этого сигнала уходит всего полчаса, а затем, поскольку этот сигнал не зависит от контекста, вы можете использовать его для атаки на целевую модель, когда захотите, независимо от того, что говорит пользователь», — говорит ведущий автор Мэн Чен, аспирант Чжэцзянского университета в Китае.

Как вредоносное аудио внедряет атаки

Исследование основано на многолетней работе над «вредоносными аудиопримерами» — аудиозаписями, манипулированными для обмана моделей машинного обучения. Предыдущие работы были сосредоточены в основном на том, как эти файлы могут вызывать неверные прогнозы в моделях, выполняющих односторонние задачи, такие как распознавание речи или классификация аудио.

По словам Чена, отличительной чертой этой новой работы является то, что она нацелена на генеративные модели, способные выдавать ответы и совершать действия. Их метод, получивший название AudioHijack, использует критическую уязвимость в архитектуре LALM: поскольку эти модели могут получать инструкции в аудиоформате, вредоносные инструкции могут быть скрыты в измененных клипах для вызывания широкого спектра нежелательных действий.

Многие предыдущие атаки на генеративные модели требовали от злоумышленника полного контроля как над конечным аудиовходом, так и над исходными инструкциями, заданными модели, по сути, выступая в роли пользователя. Здесь же злоумышленник манипулирует только обрабатываемыми моделью аудиоданными, что позволяет атаковать модель, пока она используется кем-то другим.

Примеры из реальной жизни включают сокрытие вредоносных инструкций в онлайн-видео, музыкальных клипах или голосовых заметках, которые пользователи запрашивают у ИИ, или трансляцию вредоносного аудио во время звонка в Zoom, которое затем загружается в сервисы транскрипции ИИ. Чен говорит, что более поздние, неопубликованные исследования команды также продемонстрировали возможность внедрения вредоносного аудио в голосовой чат с ИИ в режиме реального времени.

Исследователи использовали проверенный подход к созданию состязательных примеров. Он включает в себя корректировку числовых значений, представляющих форму волны в цифровом аудиофайле, таким образом, чтобы это не сильно меняло звучание, но вызывало непредвиденное поведение модели при обработке данных. Этот метод основан на алгоритме оптимизации, который многократно корректирует аудиоклип, измеряет влияние на реакцию модели, а затем использует этот сигнал для дальнейшей корректировки звука до тех пор, пока модель не начнет делать то, что хочет злоумышленник.

Таргетирование аудиомоделей генеративного ИИ

Применение этого метода к генеративным моделям представляет собой серьезную проблему. Более старые модели ИИ предоставляют подробную обратную связь о том, как мельчайшие изменения в исходном аудио влияют на реакцию. Генеративные модели, однако, разбивают аудио на фрагменты и присваивают им числовые представления, называемые «токенами», сопоставляя каждый фрагмент с ближайшим совпадением.

Этот более грубый процесс затрудняет определение того, приблизила ли манипуляция модель к желаемому поведению, что сбивает с толку алгоритм оптимизации. Поэтому Чен и его коллеги разработали способ аппроксимации подробной обратной связи, необходимой для корректировки манипуляции алгоритмом оптимизации.

Это потребовало полного доступа к модели, ограничив исследователей возможностью открытия моделей с общедоступными весами. Однако они обнаружили, что атаки, разработанные для открытых моделей, переносились на коммерческие модели от Microsoft и Mistral, которые имеют ту же базовую архитектуру.

В ответ на запрос о комментарии представитель Microsoft заявил: «Мы ценим работу исследователей по углублению понимания этого типа методов. Это исследование оценивает устойчивость модели посредством контролируемого прямого взаимодействия с самой моделью, что помогает нам в разработке подхода к повышению устойчивости модели. На практике модели ИИ часто интегрируются в пользовательские приложения, и мы предлагаем разработчикам инструменты и рекомендации, которые они могут использовать для внедрения дополнительных уровней защиты, помогающих защитить пользователей».

Компания Mistral не ответила на запрос о комментарии к моменту публикации.

Повышение эффективности AudioHijack

Атаки на проприетарные закрытые модели таких компаний, как OpenAI и Anthropic, гораздо сложнее, говорит Чен, учитывая ограниченную публичную информацию об их архитектуре. Но эти модели часто используют компоненты с открытым исходным кодом — такие как предварительно обученные аудиокодеки — которые могут быть атакованы аналогичным образом, и команда в настоящее время исследует этот вопрос.

Чтобы гарантировать эффективность атаки независимо от инструкций, предоставленных пользователем вместе со вредоносным аудиоклипом, исследователи сопоставляли аудиоклип с различными инструкциями пользователя на каждом этапе процесса оптимизации.

Они также нашли способ захватить механизм внимания модели — компонент, помогающий модели определять части аудио, имеющие отношение к поставленной перед ней задаче. Исследователи ввели показатель того, сколько внимания модель уделяет вредоносному аудио по сравнению с инструкциями пользователя на каждом шаге, и использовали его в процессе оптимизации для получения образцов, привлекающих больше внимания модели.

Чтобы затруднить обнаружение манипуляций человеком, исследователи использовали разработанную ими ранее методику, которая имитирует естественную реверберацию в аудиосигнале. Это сложнее обнаружить человеку, чем более ранние подходы, которые добавляли шум к исходному сигналу.

Тестирование на современных аудиомоделях ИИ

Команда продемонстрировала шесть категорий атак: заставлять модель заявлять о невозможности обработки аудио, отклонять запросы пользователей, отвечать ложной информацией, вставлять вредоносные ссылки, изменять личность модели и инициировать несанкционированное использование инструментов.

И что особенно тревожно, этот подход оказался устойчивым к распространенным средствам защиты. Предоставление моделям примеров вредоносных инструкций, на которые следует обратить внимание, снизило успешность атаки всего на 7 процентов, а просьба к модели оценить, соответствует ли ее ответ инструкциям пользователя, выявила лишь 28 процентов атак.

«Эти одноточечные средства защиты с трудом противостоят нашей атаке, потому что мы обнаружили, что этим моделям очень сложно отличить обычные намерения пользователя от атаки нашего противника», — говорит Чен.

Единственной эффективной тактикой оказалось отслеживание внутренних механизмов внимания моделей для обнаружения попыток AudioHijack перенаправить внимание на вредоносный аудиоконтент. Однако исследователи показали, что злоумышленник, знающий об этой защите, может ослабить манипуляцию вниманием за счет небольшого снижения успешности атаки.

В реальном мире этот вид аудиоатаки столкнется с дополнительными проблемами, такими как сжатие и различные механизмы постобработки, которые могут ухудшить качество сигнала, говорит Юджин Багдасарян, доцент кафедры компьютерных наук Массачусетского университета в Амхерсте. Но он отмечает, что многомодальные атаки на модели ИИ остаются по сути нерешенной проблемой.

«С помощью текстовых данных мы можем понять, что что-то не так (специальные символы, подозрительные предложения и т. д.). Аудиоданные действительно сложно понять из-за ограниченности нашего слуха», — пишет он в электронном письме.

Источник