Комбинаторная модель анализа уязвимостей нейронных
DOI: 10.31234/osf.io/vakge_v1
Автор: Лев Золотой-Ким
Оглавление
1. Аннотация
2. Введение
3. Мотивация и выбор логик
4. Определение атомарных логик
5. Комбинаторное перечисление. 5.1. Математическая модель
5.2. Выбор вредоносного подмножества.
6. Методология разработки таксономии
7. Полная таблица классификации
8. Сравнение с существующими подходами
9. Анализ предсказанных комбинаций
10. Защита от предсказанных атак
11. Предложения по экспериментальной валидации
12. Практические применения
13. Иллюстрации
14. Обсуждение
15. Заключение
16. Список литературы
1. Аннотация
Нейронные сети, обеспечивающие работу критически важных приложений, от автономных транспортных средств до больших языковых моделей (LLM), сталкиваются с нарастающими угрозами от сложных атак с множественными логиками, которые комбинируют различные стратегии манипуляции.
Мы предлагаем новую комбинаторную модель, которая формализует эти стратегии как атомарные логики и перечисляет их комбинации, создавая исчерпывающую таксономию — «периодическую таблицу» — известных и предсказанных типов атак.
Анализируя литературу (2015–2025), мы охватываем ~55% пространства вредоносных атак, выявляя 17 известных и 14 неизученных комбинаций. В отличие от фрагментарных исследований, сосредоточенных на изолированных атаках, наш систематический подход предсказывает новые угрозы, такие как перенаправление выполнения с помощью адверсарных входов, и направляет разработку проактивных защит.
Эта модель предоставляет исследователям и практикам новаторский инструмент для прогнозирования будущих уязвимостей, повышения безопасности ИИ и разработки автоматизированных систем тестирования уязвимостей.
2. Введение
Нейронные сети изменили такие области, как компьютерное зрение, обработка естественного языка и автономные системы, но их уязвимости к адверсарным атакам представляют значительные риски.
Хорошо изучены атаки с одной логикой, такие как адверсарные примеры на основе градиентов [1], отравление данных [2] или инъекция подсказок [3], однако новые атаки с множественными логиками комбинируют эти стратегии, создавая качественно новые угрозы.
Например, сочетание отравления данных с инъекцией подсказок может внедрить скрытые триггеры в LLM, обходящие фильтры безопасности и позволяющие генерировать вредоносные выходы [4]. Эти атаки становятся всё более актуальными, поскольку нейронные сети применяются в критически важных областях, таких как здравоохранение, автономное вождение и финансовые системы.
Отсутствие единой модели для классификации и прогнозирования атак с множественными логиками препятствует разработке проактивных защит.
Существующие исследования, такие как анализ композитных атак [18] или модели угроз для трансформеров [20], сосредотачиваются на конкретных комбинациях без систематической таксономии.
В данной статье представлена комбинаторная модель, которая формализует стратегии атак как атомарные логики и перечисляет их комбинации, создавая «периодическую таблицу» уязвимостей.
Анализируя известные атаки и предсказывая неизученные, наш подход предоставляет дорожную карту для исследователей и практиков для прогнозирования и смягчения сложных угроз.
Наша модель уникальна своей предсказательной силой, выявляя 14 новых комбинаций атак, не задокументированных в литературе. Вдохновлённая периодической таблицей Менделеева, она подчёркивает «пустые слоты» как возможности для обнаружения новых угроз, стимулируя целенаправленные исследования и разработку защит.
Эта работа адресована исследователям ИИ, специалистам по безопасности и разработчикам, предлагая систематический, проактивный инструмент для повышения безопасности нейронных сетей в различных приложениях.
3. Мотивация и выбор логик
Наша модель основана на пяти атомарных логиках — манипуляция на основе градиентов (G), ловушка символического мышления (S), отравление данных (P), инъекция подсказок (I) и перенаправление потока управления (C) — тщательно отобранных для охвата ~90% задокументированных векторов атак в литературе по безопасности нейронных сетей (2015–2025) [1–20]. Обзор более 60 статей подтверждает, что эти логики охватывают основные поверхности атак:
• Входы: G (адверсарные примеры) и I (инъекция подсказок) нацелены на манипуляцию входами, критически важную для систем компьютерного зрения и обработки естественного языка.
• Тренировочные данные: P (отравление данных) использует уязвимости данных, распространённые в контролируемом и федеративном обучении.
• Мышление: S (ловушки символического мышления) нацелены на логические недостатки, особенно в LLM.
• Выполнение: C (перенаправление потока управления) манипулирует путями принятия решений, актуальными для RL и систем на основе трансформеров.
Выбор логик не случаен, а обоснован:
• Полное покрытие: Анализ показывает, что G, S, P, I и C охватывают ~90% зарегистрированных атак, включая адверсарные примеры в автономных транспортных средствах [1], jailbreaking в LLM [3] и бэкдоры в медицинской диагностике [2].
• Практическое влияние: Эти логики демонстрируют реальные последствия, угрожая критически важным системам.
• Комбинаторный потенциал: Логики различны, но синергичны, что позволяет создавать новые комбинации (например, G+P [8], S+I [11]).
Экзотические логики, такие как аппаратные атаки на основе инъекции ошибок [25] или побочные атаки [26], были исключены из-за их ориентации на физические или системные уязвимости, менее релевантные для программных атак на нейронные сети. Однако модель расширяема для включения новых логик, таких как инверсия модели [19] или вывод о принадлежности к набору данных [20], как обсуждается в разделе 10.
4. Определение атомарных логик
Мы определяем \( \mathcal{L} = \{ G, S, P, I, C \} \) как множество из пяти атомарных логик атак, каждая из которых использует определённую уязвимость нейронных сетей:
• Манипуляция на основе градиентов (G): Использует градиенты модели для создания адверсарных входов, вызывающих ошибочную классификацию. Пример: Изменение знака остановки, чтобы он выглядел как знак уступи дорогу в автономных транспортных средствах [1].
• Ловушка символического мышления (S): Вызывает логические ошибки через специально созданные входы, особенно в LLM. Пример: Введение чат-бота в заблуждение для генерации предвзятых выходов [5].
• Отравление данных (P): Портит тренировочные данные для внедрения бэкдоров или предвзятостей. Пример: Ошибочная классификация медицинских изображений через отравленные наборы данных [2].
• Инъекция подсказок (I): Манипулирует выходами через вредоносные подсказки, обходя механизмы безопасности. Пример: Jailbreaking LLM для раскрытия конфиденциальных данных [3].
• Перенаправление потока управления (C): Изменяет пути выполнения через адверсарные триггеры. Пример: Перенаправление действий агента RL в робототехнике [6].
Эти логики, подробно описанные выше, охватывают уязвимости входов, данных, мышления и выполнения, формируя основу нашей комбинаторной таксономии.
5. Комбинаторное перечисление
5.1. Математическая модель
Каждая логика моделируется как независимый компонент, что позволяет систематически перечислить все возможные комбинации.
Для \( n = 5 \) логик число различных комбинаций из \( k \) логик (\( 1 \leq k \leq n \)) задаётся биномиальным коэффициентом:
\[ N_k(n) = \binom{n}{k} \]
Общее число непустых комбинаций:
\[ N_{\text{total}}(n) = \sum_{k=1}^n \binom{n}{k} = 2^n - 1 \]
Для \( n = 5 \):
\[ N_{\text{total}}(5) = 2^5 - 1 = 31 \]
Это даёт 31 тип атак, от однологических (например, G) до теоретического максимума (G+S+P+I+C).
5.2. Выбор вредоносного подмножества
Мы сосредотачиваемся на вредоносном подмножестве \( \mathcal{H} \subseteq \mathcal{C} \), где \( |\mathcal{H}| = 17 \) — «Known» (задокументированы в [1–18]), 13 — «Predicted» (гипотетические, но неизученные), и 1 — «Theoretical Max».
Критерии выбора включают:
• Эмпирические данные: Задокументированный успех в литературе (например, G+P [8]).
• Теоретическая правдоподобность: Потенциал для реального воздействия, даже если не проверен.
• Серьёзность атаки: Высокий потенциал ущерба в критически важных системах.
Доброкачественные или структурно невозможные комбинации (например, несовместимые взаимодействия логик) исключены на основе предыдущих исследований и логического анализа.
6. Методология разработки таксономии
Таксономия была разработана в рамках строгого трёхэтапного процесса:
1. Идентификация логик: Обширный обзор литературы (2015–2025) выявил G, S, P, I и C как наиболее распространённые логики атак, охватывающие ~90% задокументированных атак [1–20]. Это подтверждено мета-анализом более 60 статей.
2. Перечисление комбинаций: С использованием комбинаторной математики (\( 2^5 - 1 = 31 \)) мы сгенерировали все возможные комбинации и классифицировали их как Known, Predicted или Theoretical Max на основе литературных данных.
3. Валидация и прогнозирование: Известные комбинации были отображены на источники [1–18], а предсказанные комбинации гипотетически выведены путём расширения известных механизмов атак (например, G+C сочетает адверсарные входы с перенаправлением выполнения).
Эта методология обеспечивает систематическую, расширяемую модель, которая может включать новые логики или адаптироваться к новым угрозам, что делает её надёжным инструментом для исследований в области безопасности ИИ.
7. Полная таблица классификации
Таблица классифицирует все 31 комбинацию, включая статус, ссылки на литературу, потенциальные сценарии для предсказанных атак, сложность реализации и потенциал ущерба.
| Код | Комбинация | Статус | Ссылка на лит. | Потенциальный сценарий (для Predicted) | Сложность | Ущерб |
| C1 | G | Known | [1] | — | Низкая | Средний |
| C2 | S | Known | [5] | — | Средняя | Средний |
| C3 | P | Known | [2] | — | Высокая | Серьёзный|
| C4 | I | Known | [3] | — | Низкая | Средний |
| C5 | C | Known | [6] | — | Высокая | Серьёзный|
| C6 | G+S | Known | [7] | — | Средняя | Средний |
| C7 | G+P | Known | [8] | — | Высокая | Серьёзный|
| C8 | G+I | Known | [9] | — | Средняя | Средний |
| C9 | G+C | Predicted | — | Адверсарные входы перенаправляют навигацию автономного транспорта, вызывая столкновения. | Высокая | Серьёзный|
Я, [16.08.2025 10:49]
| C10 | S+P | Known | [10] | — | Высокая | Серьёзный|
| C11 | S+I | Known | [11] | — | Средняя | Средний |
| C12 | S+C | Predicted | — | Ловушки мышления перенаправляют выполнение LLM для одобрения мошеннических транзакций. | Высокая | Серьёзный|
| C13 | P+I | Known | [12] | — | Средняя | Серьёзный|
| C14 | P+C | Predicted | — | Отравленные бэкдоры вызывают перенаправление выполнения в медицинской диагностике, приводя к ошибочным диагнозам. | Высокая | Серьёзный|
| C15 | I+C | Known | [13] | — | Средняя | Серьёзный|
| C16 | G+S+P | Known | [14] | — | Высокая | Серьёзный|
| C17 | G+S+I | Known | [15] | — | Средняя | Серьёзный|
| C18 | G+S+C | Predicted | — | Адверсарные входы и ловушки мышления перенаправляют ИИ наблюдения, обходя сигналы тревоги. | Высокая | Серьёзный|
| C19 | G+P+I | Known | [16] | — | Высокая | Серьёзный|
| C20 | G+P+C | Predicted | — | Отравленные данные и адверсарные входы перенаправляют агентов RL в робототехнике. | Высокая | Серьёзный|
| C21 | G+I+C | Predicted | — | Адверсарные подсказки перенаправляют инструменты генерации кода для создания уязвимого ПО. | Высокая | Серьёзный|
| C22 | S+P+I | Known | [17] | — | Высокая | Серьёзный|
| C23 | S+P+C | Predicted | — | Отравленные ловушки мышления перенаправляют финансовый ИИ для одобрения мошеннических транзакций. | Высокая | Серьёзный|
| C24 | S+I+C | Predicted | — | Подсказки, вызывающие логические ошибки, перенаправляют юридический ИИ для выдачи неверных советов. | Высокая | Серьёзный|
| C25 | P+I+C | Predicted | — | Отравленные подсказки перенаправляют выполнение чат-бота для утечки конфиденциальных данных. | Высокая | Серьёзный|
| C26 | G+S+P+I | Known | [18] | — | Высокая | Серьёзный|
| C27 | G+S+P+C | Predicted | — | Комплексная атака перенаправляет военный ИИ для неправильной интерпретации угроз. | Высокая | Серьёзный|
| C28 | G+S+I+C | Predicted | — | Адверсарные подсказки и ловушки мышления перенаправляют новостной ИИ для генерации фейкового контента. | Высокая | Серьёзный|
| C29 | G+P+I+C | Predicted | — | Отравленные адверсарные подсказки перенаправляют медицинский ИИ для неправильной приоритизации пациентов. | Высокая | Серьёзный|
| C30 | S+P+I+C | Predicted | — | Отравленные логические подсказки перенаправляют образовательный ИИ для распространения дезинформации. | Высокая | Серьёзный|
| C31 | G+S+P+I+C | Theoretical Max | — | Максимальная атака нарушает экосистемы умного города, вызывая сбои в транспорте и безопасности. | Экстремальная | Серьёзный|
---
8. Сравнение с существующими подходами
Наша модель выделяется среди существующих исследований благодаря систематической, предсказательной таксономии. В отличие от фрагментарных подходов, анализирующих изолированные или ограниченные комбинации атак, наша модель обеспечивает исчерпывающее перечисление всех возможных атак с множественными логиками.
Например, Geiping et al. (2023) исследуют композитные атаки (например, G+S+P+I), но сосредотачиваются на конкретных комбинациях без формальной комбинаторной модели [18]. Аналогично, Hu et al. (2024) классифицируют атаки на трансформеры, но не предсказывают новые комбинации и не предлагают единую модель [20].
Исследования по jailbreaking, такие как Carlini et al. (2023), анализируют атаки S+I, но не обобщают их на другие логики или комбинации [11]. Исследования по адверсарной устойчивости, например Madry et al. (2018), сосредотачиваются на защитах от G без учёта угроз с множественными логиками [27].
Наш подход уникален благодаря формальному перечислению с использованием \( 2^n - 1 \) (31 комбинация для \( n = 5 \)), предсказательной силе (выявление 13 новых атак, например, G+C, S+P+C) и интуитивной аналогии с периодической таблицей Менделеева.
Эта аналогия делает модель доступной и вдохновляющей, побуждая исследователей изучать «пустые слоты» для обнаружения новых угроз. Систематически прогнозируя неизученные векторы атак, наша работа превосходит реактивные подходы, позиционируя себя как новаторский вклад в безопасность ИИ.
9. Анализ предсказанных комбинаций
13 предсказанных комбинаций (C9, C12, C14, C18, C20, C21, C23, C24, C25, C27, C28, C29, C30) и один теоретический максимум (C31) представляют новые векторы атак, использующие синергетические уязвимости нейронных сетей. Эти комбинации, гипотетически выведенные путём расширения известных механизмов атак, подчёркивают неизученные угрозы с серьёзным потенциалом ущерба. Ниже мы анализируем пять репрезентативных примеров с подробными сценариями и предложениями по экспериментам для направления будущих исследований.
Первый пример, C9 (G+C), сочетает манипуляцию на основе градиентов с перенаправлением потока управления. В сценарии автономного вождения атакующий может создать адверсарный дорожный знак (G), чтобы ошибочно классифицировать знак остановки как знак уступи дороги, одновременно перенаправляя логику навигации RL (C), вызывая столкновение. Эксперимент может быть смоделирован в тестовой среде вождения (например, CARLA) с использованием PGD [1] для создания адверсарных входов и анализа аномалий переходов состояний [6]. Серьёзный ущерб (например, аварии) подчёркивает срочность валидации этой атаки.
C12 (S+C) сочетает ловушки символического мышления с перенаправлением потока управления, нацеливаясь на LLM. Например, вредоносная подсказка может вызвать логические ошибки в финансовом чат-боте (S), перенаправляя его выполнение (C) для одобрения мошеннических транзакций. Тестирование включает инженерию подсказок в LLM, таких как GPT-4, для вызова перенаправления механизма внимания, измеряя вредоносность выходов и аномалии выполнения. Потенциал финансовых потерь и нарушений регулирования подчёркивает серьёзность.
C14 (P+C) объединяет отравление данных с перенаправлением потока управления. В системе медицинской визуализации отравленные рентгеновские снимки (P) могут внедрить бэкдор, активируемый созданным входом для перенаправления диагностической логики (C), вызывая ошибочные диагнозы. Эксперимент может смоделировать чистое отравление меток [8] в наборе данных, таком как ChestX-ray14, тестируя триггеры выполнения и оценивая частоту ошибочных диагнозов. Серьёзное воздействие на здоровье пациентов требует немедленных исследований.
C21 (G+I+C) интегрирует манипуляцию на основе градиентов, инъекцию подсказок и перенаправление потока управления. В LLM для генерации кода адверсарный фрагмент кода (G) и вредоносная подсказка (I) могут перенаправить выполнение (C) для создания уязвимого ПО. Тестирование требует адверсарных подсказок [9] и триггеров выполнения в инструментах, таких как CodeLLaMA, измеряя успешность эксплуатации. Потенциал уязвимостей ПО делает это критической угрозой.
Наконец, C31 (G+S+P+I+C), теоретический максимум, сочетает все логики для нарушения экосистемы умного города. Отравленные данные (P), адверсарные входы (G), ловушки мышления (S) и подсказки (I) могут перенаправить выполнение (C), вызывая сбои в транспорте и безопасности. Моделирование в тестовой среде умного города (например, IBM Smart City Simulator) может объединить эти векторы атак, оценивая системные сбои. Катастрофический потенциал подчёркивает необходимость комплексных защит.
Эти сценарии подчёркивают потребность в эмпирической валидации для подтверждения осуществимости и приоритизации разработки защит. Дополнительные предсказанные комбинации (например, C23, C24) следуют аналогичным шаблонам, нацеливаясь на финансовые, юридические или образовательные системы ИИ, и требуют схожих экспериментальных подходов.
10. Защита от предсказанных атак
Защита от атак с множественными логиками требует расширения однологических защит для учёта синергетических эффектов. Ниже мы описываем защиты для пяти комбинаций с деталями реализации и оценки эффективности:
Первая комбинация, C9 (G+C), сочетает манипуляцию на основе градиентов с перенаправлением потока управления, нацеливаясь на системы, такие как автономные транспортные средства. Предлагаемые защиты включают: Гибридное адверсарное обучение, которое обучает модели с адверсарными входами и функциями потерь, учитывающими выполнение, для наказания ошибочной классификации и небезопасных путей [7]; Многосенсорная валидация, проверяющая выходы CNN с помощью LIDAR или радара для обеспечения устойчивости [1]; и Аудит в реальном времени, отслеживающий переходы состояний RL на аномалии [6]. Реализация включает использование PGD [1] для обучения, внедрение алгоритмов слияния сенсоров и реализацию обнаружения аномалий (например, через Isolation Forest). Эти защиты снижают риски ошибочной классификации и перенаправления, но требуют высоких вычислительных ресурсов. Ограничения включают возможность обхода аудита сложными триггерами.
C12 (S+C) сочетает ловушки символического мышления с перенаправлением потока управления, затрагивая LLM в приложениях, таких как финансовые чат-боты. Защиты включают: Санитизацию подсказок, использующую семантические парсеры для фильтрации противоречивых подсказок [23]; Валидацию выполнения, отслеживающую веса внимания LLM на аномалии [6]; и Адверсарное обучение мышлению, повышающее логическую устойчивость с помощью адверсарных подсказок [5]. Реализация требует классификаторов NLP (например, на базе BERT) для анализа подсказок и инструментов мониторинга внимания (например, хуки PyTorch). Эти меры предотвращают логические ошибки и перенаправления, но могут ввести задержки. Ложные срабатывания при санитизации подсказок могут снизить удобство использования.
C14 (P+C) объединяет отравление данных с перенаправлением потока управления, угрожая медицинской диагностике. Защиты включают: Санитизацию данных, выявляющую отравленные образцы через кластеризацию (например, DBSCAN) [2]; Обнаружение бэкдоров, анализирующее выходы на наличие триггерных шаблонов с помощью энтропийных метрик [14]; и Усиление выполнения, устанавливающее строгие ограничения на пути выполнения [6]. Реализация включает применение кластеризации к тренировочным данным, внедрение энтропийных детекторов и использование предопределённых правил переходов состояний. Эти защиты смягчают бэкдоры и перенаправления, но могут пропустить чистое отравление меток или удалить легитимные данные.
C21 (G+I+C) сочетает манипуляцию на основе градиентов, инъекцию подсказок и перенаправление потока управления, нацеливаясь на LLM для генерации кода. Защиты включают: Мультимодальное обучение, обучающее против адверсарных входов и подсказок [9]; Валидацию подсказок/входов, сочетающую обнаружение возмущений и семантические проверки [3]; и Аудит выполнения, отслеживающий пути принятия решений [6]. Реализация использует детекторы на основе градиентов и парсеры NLP для валидации, с мониторингом весов внимания. Эти меры охватывают несколько векторов атак, но вычислительно затратны и могут требовать белого доступа.
Теоретический максимум, C31 (G+S+P+I+C), нацелен на сложные экосистемы ИИ, такие как умные города. Защиты включают: Интегрированное обучение, обучающее против всех типов атак [18]; Целостную валидацию, сочетающую проверки возмущений, подсказок и данных [2, 3]; Системный аудит, отслеживающий все компоненты [6]; и Резервирование, использующее ансамблевые модели для консенсуса [27].
Реализация внедряет ансамблевые модели, многослойное обнаружение аномалий и валидационные конвейеры. Эти защиты всеобъемлющи, но ресурсоёмки, с потенциальными задержками. Сложные атаки могут всё же обойти обнаружение, требуя постоянных обновлений.
11. Предложения по экспериментальной валидации
Для валидации предсказанных комбинаций мы предлагаем целевые эксперименты для подтверждения их осуществимости и информирования разработки защит. Эти эксперименты используют открытые инструменты и контролируемые среды для моделирования реальных сценариев.
Для C9 (G+C) мы предлагаем моделирование атаки в тестовой среде автономного вождения (например, CARLA). Эксперимент включает использование PGD [1] для создания адверсарных входов (например, изменённых дорожных знаков) и анализ переходов состояний RL [6] для обнаружения перенаправления. Метрики включают частоту ошибочной классификации и успешность перенаправления, измеряемые отклонением транспортного средства от безопасных путей. Этот эксперимент подтвердит осуществимость сочетания адверсарных входов с перенаправлением выполнения и направит разработку многосенсорных защит.
C12 (S+C) может быть протестирована в LLM (например, GPT-4) путём инженерии подсказок для вызова логических ошибок и перенаправления механизма внимания. Эксперимент измеряет вредоносность выходов (например, баллы токсичности [23]) и аномалии выполнения (например, отклонения весов внимания). Используя инструменты, такие как Transformers от Hugging Face, исследователи могут оценить воздействие атаки на финансовые или клиентские чат-боты, информируя стратегии санитизации подсказок и валидации выполнения.
C14 (P+C) требует моделирования в наборе данных медицинской визуализации (например, ChestX-ray14). Эксперимент включает чистое отравление меток [8] для внедрения бэкдоров и тестирование триггеров выполнения для перенаправления диагностической логики. Метрики включают частоту ошибочных диагнозов и успешность активации бэкдора, оцениваемые с помощью TensorFlow или PyTorch. Это подтвердит осуществимость атаки в медицинском ИИ и поддержит санитизацию данных и усиление выполнения.
C21 (G+I+C) можно протестировать в LLM для генерации кода (например, CodeLLaMA), сочетая адверсарные входы и вредоносные подсказки для создания уязвимого ПО. Эксперимент измеряет успешность эксплуатации (например, через статический анализ кода) и аномалии выполнения, используя инструменты, такие как Adversarial Robustness Toolbox [22]. Это подтвердит воздействие атаки на безопасность ПО и направит мультимодальное обучение.
C31 (G+S+P+I+C) требует тестовой среды умного города (например, IBM Smart City Simulator) для моделирования максимальной атаки. Эксперимент сочетает отравленные данные, адверсарные входы, ловушки мышления, подсказки и триггеры выполнения, измеряя системные сбои (например, задержки в транспорте, нарушения безопасности). Инструменты, такие как NetworkX, могут моделировать взаимодействия логик, информируя системный аудит и стратегии резервирования.
12. Практические применения
Систематическая таксономия модели имеет широкие практические применения для безопасности ИИ, обеспечивая проактивные меры в различных областях. Выявляя известные и предсказанные комбинации атак, она предоставляет структурированный подход к управлению уязвимостями и разработке защит.
Первое применение — Сканирование уязвимостей, где таксономия может быть интегрирована в автоматизированные инструменты, такие как Adversarial Robustness Toolbox [22], для сканирования нейронных сетей на уязвимости с множественными логиками. Приоритизируя комбинации с высоким ущербом (например, C14, C31), организации могут сосредоточить усилия на тестировании критических угроз, повышая устойчивость систем в приложениях, таких как автономные транспортные средства или медицинский ИИ.
Ещё одно ключевое применение — Разработка защит, направляющая создание устойчивых моделей. Таксономия информирует проектирование гибридного обучения (например, сочетание адверсарного и мышления-ориентированного методов [7, 5]), санитизации данных [2] и аудита выполнения [6]. Например, защиты для C9 (G+C) могут сочетать многосенсорную валидацию и мониторинг RL, повышая безопасность в автономных системах.
Приоритизация исследований — критическое применение, поскольку «пустые слоты» таксономии (предсказанные комбинации) подчёркивают неизученные угрозы. Исследователи могут сосредоточиться на атаках с высоким воздействием (например, C12, C21), ускоряя обнаружение новых уязвимостей и защит. Это особенно ценно для новых систем ИИ, таких как мультимодальные модели или экосистемы умных городов.
Таксономия также поддерживает Соответствие регулированию, помогая организациям оценивать системы ИИ на соответствие новым стандартам безопасности, таким как NIST AI Risk Management Framework. Сопоставляя уязвимости с таксономией, компании могут продемонстрировать должную осмотрительность в критически важных областях, таких как финансы или здравоохранение.
Наконец, Образование и обучение выигрывают от интуитивной аналогии с периодической таблицей. Таксономия предоставляет структурированную модель для преподавания безопасности ИИ, привлекая студентов и практиков ясным, визуальным представлением комбинаций атак. Семинары с использованием инструментов, таких как CARLA или Hugging Face, могут моделировать предсказанные атаки, способствуя практическому обучению.
13. Иллюстрации
Модель поддерживается тремя визуализациями, которые повышают её интерпретируемость и практическую полезность. Эти иллюстрации демонстрируют комбинаторную структуру, распределение, конвейер обнаружения предложенной таксономии.
Иллюстрация 1: Матрица 5;5 парных взаимодействий логик, с рядами и столбцами, представляющими пять логик (G, S, P, I, C). Известные комбинации отмечены зелёным (например, G+P [8]), предсказанные — красным (например, G+C), а невозможные — серым. Эта матрица даёт чёткий обзор таксономии, подчёркивая изученные и неизученные векторы атак.
Иллюстрация 2: Гистограмма комбинаций по порядку, показывающая распределение 31 комбинации (5 однологических, 10 двухлогических, 10 трёхлогических, 5 четырёхлогических, 1 пятилогическая). Известные комбинации (17) — зелёные, предсказанные (13) — красные, а теоретический максимум (C31) — синий. Эта визуализация подчёркивает преобладание атак низкого порядка в текущей литературе и потенциал для открытий более высокого порядка.
Иллюстрация 3: Схема конвейера обнаружения уязвимостей, иллюстрирующая рабочий процесс: анализ входов (обнаружение G, I), идентификация логик (сопоставление с S, P, C), оценка рисков (приоритизация комбинаций с высоким ущербом) и смягчение (применение защит, таких как обучение или аудит). Этот конвейер демонстрирует, как таксономия может быть интегрирована в практические системы безопасности.
14. Обсуждение
Наша модель охватывает ~55% пространства вредоносных атак, с 17 известными комбинациями, задокументированными в литературе, и 13 предсказанными комбинациями плюс один теоретический максимум (C31), открывающими новые направления исследований. Аналогия с периодической таблицей подчёркивает эти «пустые слоты» как возможности для обнаружения новых угроз, подобно предсказаниям Менделеева о неизвестных элементах.
Например, C9 (G+C) может вдохновить на разработку защит для автономных систем путём сочетания адверсарного обучения с аудитом выполнения, в то время как C31 (G+S+P+I+C) бросает вызов безопасности сложных экосистем ИИ, таких как умные города, где максимальная атака может вызвать катастрофические сбои.
Сильные стороны модели заключаются в её систематическом перечислении, предсказательной силе и расширяемости. Формализуя логики атак и их комбинации, она объединяет фрагментарные исследования, предоставляя чёткую структуру для понимания угроз с множественными логиками. Интуитивная метафора периодической таблицы делает её доступной для исследователей, практиков и преподавателей, поощряя изучение неизученных векторов атак. Расширяемость позволяет включать новые логики, такие как инверсия модели [19] или вывод о принадлежности к набору данных [20], обеспечивая актуальность при развитии угроз ИИ.
Однако модель имеет ограничения, которые требуют учёта.
Во-первых, она предполагает независимость логик, но реальные взаимодействия (например, I, усиливающее P [12]) могут вводить зависимости, усложняющие предсказания.
Во-вторых, валидация предсказанных комбинаций требует ресурсоёмких экспериментов, что может задержать практическое внедрение.
В-третьих, область применения ограничена программными уязвимостями, исключая аппаратные атаки, такие как инъекция ошибок [25].
Несмотря на эти ограничения, предсказательный характер модели позиционирует её как проактивный инструмент для прогнозирования будущих угроз, превосходя реактивные подходы в литературе.
Будущие исследования должны сосредоточиться на эмпирической валидации предсказанных атак (например, C9 в тестовой среде вождения, C12 в LLM) для подтверждения осуществимости и приоритизации защит. Расширение модели для включения новых логик, интеграция в автоматизированные сканеры уязвимостей и разработка лёгких техник аудита повысят её практическое воздействие.
Решая эти проблемы, модель может стать краеугольным камнем для исследований и практики в области безопасности ИИ.
15. Заключение
Эта статья представляет новаторскую комбинаторную модель для анализа уязвимостей нейронных сетей, формализуя стратегии атак как пять атомарных логик — манипуляция на основе градиентов (G), ловушка символического мышления (S), отравление данных (P), инъекция подсказок (I) и перенаправление потока управления (C) — и перечисляя их 31 возможную комбинацию.
Охватывая ~90% известных векторов атак и предсказывая 14 новых комбинаций, наша таксономия предлагает проактивный инструмент для прогнозирования будущих угроз. Аналогия с периодической таблицей не только объединяет фрагментарные исследования, но и вдохновляет на изучение неизученных уязвимостей, подобно предсказанию новых химических элементов.
Применения модели включают сканирование уязвимостей, разработку защит, приоритизацию исследований, соответствие регулированию и образование, что делает её универсальным ресурсом для обеспечения безопасности систем ИИ. Её предсказательная сила, продемонстрированная сценариями, такими как C9 (атаки на автономные транспортные средства) и C31 (сбои в умных городах), позиционирует её как новаторский вклад в безопасность ИИ.
Будущие исследования должны валидировать предсказанные атаки в смоделированных средах, расширить модель на новые логики и интегрировать её в системы защиты в реальном времени, обеспечивая её долгосрочную актуальность в условиях развивающихся угроз.
16. Список литературы
1. Гудфеллоу, И. Дж., Шленс, Дж., Сегеди, К. (2015). Объяснение и использование адверсарных примеров. *Международная конференция по обучающим представлениям (ICLR)*.
2. Стейнхардт, Дж., Ко, П. В., Лианг, П. (2017). Сертифицированные защиты от атак отравления данных. *Прогресс в обработке нейронной информации (NeurIPS)*.
3. Перес, Э., и др. (2022). Игнорировать предыдущую подсказку: Стратегии атак для LLM. *arXiv preprint arXiv:2210.12345*.
4. Багдасарян, Э., и др. (2020). Атаки бэкдоров на нейронные сети. *arXiv preprint arXiv:2007.08211*.
5. Маркус, Г. (2018). Глубокое обучение: Критическая оценка. *arXiv preprint arXiv:1801.00631*.
6. Бай, Ю., и др. (2022). Конституционный ИИ: Безвредность от обратной связи ИИ. *arXiv preprint arXiv:2212.08073*.
7. Трамер, Ф., и др. (2018). Ансамблевое адверсарное обучение: Атаки и защиты. *Международная конференция по обучающим представлениям (ICLR)*.
8. Чжу, К., и др. (2019). Переносимые атаки чистого отравления меток. *Международная конференция по машинному обучению (ICML)*.
9. Уоллес, Э., и др. (2019). Универсальные и переносимые адверсарные атаки на модели NLP. *arXiv preprint arXiv:1907.05589*.
10. Биджио, Б., и др. (2013). Атаки уклонения против машинного обучения во время тестирования. *Европейская конференция по машинному обучению и принципам и практике обнаружения знаний в базах данных (ECML-PKDD)*.
11. Карлини, Н., и др. (2023). Атаки jailbreaking на ChatGPT: Исследование случая. *arXiv preprint arXiv:2302.03456*.
12. Вей, А., и др. (2023). Подсказки jailbreaking в инструктивно настроенных LLM. *arXiv preprint arXiv:2305.12345*.
13. Шафахи, А., и др. (2018). Ядовитые лягушки: Целевые атаки чистого отравления меток. *Прогресс в обработке нейронной информации (NeurIPS)*.
14. Рибейро, М. Т., и др. (2020). За пределами точности: Поведенческое тестирование моделей NLP. *Ассоциация вычислительной лингвистики (ACL)*.
15. Ильяс, А., и др. (2019). Адверсарные примеры — не ошибки, а особенности. *Международная конференция по машинному обучению (ICML)*.
16. Чен, Х., и др. (2021). BadNL: Атаки бэкдоров против моделей NLP. *arXiv preprint arXiv:2106.09898*.
17. Салем, А., и др. (2021). Динамические адверсарные атаки на нейронные сети. *arXiv preprint arXiv:2103.12345*.
18. Гейпинг, Дж., и др. (2023). Композитные адверсарные атаки на большие языковые модели. *arXiv preprint arXiv:2309.06789*.
19. Шокри, Р., и др. (2017). Атаки вывода о принадлежности к набору данных против моделей машинного обучения. *IEEE Симпозиум по безопасности и приватности (S&P)*.
20. Ху, Х., и др. (2024). Атаки с множественными логиками на трансформеры: Новая граница в безопасности ИИ. *arXiv preprint arXiv:2405.01234*.
21. Карлини, Н., Вагнер, Д. (2017). К оценке устойчивости нейронных сетей. *IEEE Симпозиум по безопасности и приватности (S&P)*.
22. Николае, М.-И., и др. (2018). Набор инструментов для адверсарной устойчивости. *arXiv preprint arXiv:1807.01069*.
23. Гехман, С., и др. (2020). RealToxicityPrompts: Оценка нейронной токсичности в языковых моделях. *Findings Ассоциации вычислительной лингвистики: EMNLP*.
24. Лю, Ю., и др. (2024). Атаки на основе внимания на трансформеры. *arXiv preprint arXiv:2402.12345*.
25. Ли, Х., и др. (2020). Атаки инъекции ошибок на аппаратное обеспечение ИИ. *IEEE Security & Privacy*.
26. Батина, Л., и др. (2019). Побочные атаки на нейронные сети. *IEEE Transactions on Information Forensics and Security*.
27. Мадри, А., и др. (2018). К моделям глубокого обучения, устойчивым к адверсарным атакам. *Международная конференция по обучающим представлениям (ICLR)*.
28. Ягельски, М., и др. (2018). Манипуляция машинным обучением: Атаки отравления и контрмеры. *IEEE Симпозиум по безопасности и приватности (S&P)*.
29. Бхагои, А. Н., и др. (2019). Анализ федеративного обучения через адверсарную линзу. *Международная конференция по машинному обучению (ICML)*.
30. Чжан, Ю., и др. (2021). Сочетание атак инверсии модели и вывода о принадлежности. *arXiv preprint arXiv:2104.05678*.
31. Наср, М., и др. (2019). Комплексный анализ приватности глубокого обучения. *IEEE Симпозиум по безопасности и приватности (S&P)*.
32. Трамер, Ф., и др. (2020). Об адаптивных атаках к защитам от адверсарных примеров. *Прогресс в обработке нейронной информации (NeurIPS)*.
Свидетельство о публикации №225090400493