Mythos нашёл уязвимость из своих обучающих данных: почему это опасно

Когда ИИ находит то, что уже было найдено

Недавно инструмент Mythos для анализа кода, работающий на базе нейросетей, «обнаружил» серьёзную уязвимость безопасности. Вот только эта CVE уже находилась в его обучающих данных. История кажется анекдотической, но она раскрывает настоящую проблему взросления AI-систем в сфере кибербезопасности и ставит неудобные вопросы о том, чем на самом деле занимаются современные модели машинного обучения.

Суть случая: переоткрытие известного

Mythos, разработанный компанией для автоматизированного поиска уязвимостей, получил задачу проанализировать кодовую базу. Модель успешно определила потенциально опасный паттерн, который классифицировалась как CVE высокой степени критичности. Исследователи, однако, заметили интересный момент — эта именно уязвимость была включена в набор данных, на котором обучалась Mythos.

Это вызывает логичный вопрос: действительно ли модель обучилась выявлять уязвимости, или она просто стала мастером по узнаванию паттернов из своего обучающего набора? Ответ не так прост, как кажется на первый взгляд.

Почему это происходит: глубокие корни проблемы

Переобучение и запоминание вместо обобщения

Явление, когда модель машинного обучения запоминает примеры из обучающего набора вместо того, чтобы научиться обобщать закономерности, называется переобучением. В контексте Mythos это означает, что система может быть слишком специализирована под конкретные примеры уязвимостей из её датасета.

Когда вы обучаете нейросеть на наборе из 10 000 примеров CVE, существует риск, что модель будет отлично работать с этими конкретными 10 000, но неудачно справляться с новыми, неизвестными вариантами уязвимостей.

Утечка данных между тренировочной и тестовой выборкой

Ещё одна техническая причина — потенциальная утечка информации из обучающего набора в тестовый. Это происходит, когда примеры случайно дублируются или когда похожие образцы оказываются в обеих выборках. Результат: модель кажется более точной, чем она есть на самом деле.

Практические последствия для разработчиков

Этот случай имеет серьёзные последствия для экосистемы разработки и безопасности:

Ложное чувство защищённости — если AI-инструмент сообщает об обнаружении уязвимости, которую он, вероятно, просто узнал из обучения, это может привести к неправильной оценке реального риска
Потраченное на бесполезные проверки время — команды безопасности могут сосредоточиться на анализе «найденных» уязвимостей, которые на самом деле были хорошо известны и, возможно, уже исправлены
Недостаток внимания к новым угрозам — пока инженеры погружены в анализ старых паттернов, по-настоящему новые методы атак могут остаться незамеченными
Снижение доверия к автоматизированным инструментам — если AI-система часто «находит» известные проблемы, команда будет относиться к её рекомендациям скептически

Как правильно использовать AI-инструменты для анализа безопасности

Для разработчиков AI-инструментов

Создатели систем типа Mythos должны быть честнее в описании возможностей своих продуктов и включать метрики, показывающие, насколько хорошо модель работает на новых, неизвестных примерах уязвимостей.

Чему нас учит этот случай

История Mythos демонстрирует, что даже передовые технологии машинного обучения не являются серебряной пулей для кибербезопасности. Вот ключевые выводы:

AI-системы в сфере безопасности требуют критического отношения и валидации
Обучающие данные — это основа всего; их качество, разнообразие и актуальность напрямую влияют на результаты
Автоматизация не может полностью заменить экспертизу и человеческое суждение
Прозрачность в описании возможностей и ограничений инструментов критична для индустрии

Заключение

Обнаружение Mythos уязвимости из его собственного обучающего набора — это не просто забавный баг, а тревожный сигнал. Он указывает на необходимость более внимательного подхода к разработке и развёртыванию AI-инструментов безопасности. Пока технология не достигла уровня, при котором её можно использовать без критической проверки, компаниям стоит рассматривать её как помощника, а не замену для работы человека. Будущее кибербезопасности лежит на пути сбалансированного партнёрства между AI и экспертностью людей.

Развитие российской экономики во многом связано с разработкой и внедрением отечественных цифровых решений.

В конструкции этого суперкомпьютера предусмотрено расширение до 34 узлов вычисления

Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Когда ИИ находит то, что уже было найдено

Суть случая: переоткрытие известного

Почему это происходит: глубокие корни проблемы

Переобучение и запоминание вместо обобщения

Утечка данных между тренировочной и тестовой выборкой

Практические последствия для разработчиков

Как правильно использовать AI-инструменты для анализа безопасности

Рекомендации для компаний

Для разработчиков AI-инструментов

Чему нас учит этот случай

Заключение

Callback Injection: как атака обходит Microsoft Defender

Ректор Физтеха Дмитрий Ливанов: «Студенты, которые боятся сложностей, на Физтех не поступают»

Blue Origin успешно испытала систему стыковки для лунного посадочного модуля и орбитальной станции

Immunefi: почему баунти-охотники не получают награды

Архитектура защиты информации на базе Keycloak: практический подход

Илон Маск задумал подключать мобильные телефоны прямо к сети Starlink

Новый фильтр удаляет 98% “вечных химикатов” из воды благодаря наноразмерным молекулярным ловушкам

В Нью-Йорке могут запретить дипфейки сексуального характера

Proptech: почему это одна из самых сложных ИТ-индустрий

Почему ваши логи бесполезны без трейсов: путь к настоящей наблюдаемости

Марсианский орбитальный аппарат NASA перестал выходить на связь

“Стена чудес” Сида Мида – как футурист 50 лет назад предсказал главную проблему современных VR-интерфейсов

Как IT-специалисту написать приложение под Android/iOS для стартапа или пет-проекта

Граймс заявила, что ИИ-психоз приносит удовольствие и рекомендует его всем

ASUS прекратила производство RTX 5070 Ti и RTX 5060 Ti 16GB из-за дефицита памяти

Паркоматы во Владивостоке перестали работать из-за санкций ЕС

Глава Palantir считает, что выжить в эпоху ИИ смогут только нейроотличные люди

Wazuh: ручная регистрация агента — гайд для сложных сетей

ГУМРФ имени адмирала С.О. Макарова стал оператором крупнейшего ледового учебного центра в мире

Как я научил LLM мониторить проекты вместо себя