Из мира технологий

Stiv · Сегодня в 15:30

Google готовится к угрозе изнутри: как предотвратить бунт искусственного интеллекта

Пока мировой рынок искусственного интеллекта стремительно движется к полной автономии "умных агентов" (AI Agents, ИИ-агентов), способных выполнять сложные задачи без вмешательства человека, от киберзащиты до разработки лекарств, - технологические гиганты начинают понимать, что самая серьезная угроза может исходить изнутри.
Подразделение Google DeepMind представило новую стратегию безопасности под названием "Дорожная карта контроля ИИ" - AI Control Roadmap. Ее цель - изолировать и контролировать самые передовые ИИ-системы компании, исходя из крайнего, но необходимого предположения: сама модель может повести себя как "недобросовестный сотрудник" внутри организации.
По оценкам американской индустрии, к 2030 году ИИ-агенты могут создать экономическую ценность примерно в 2,9 триллиона долларов. Однако по мере роста их возможностей усиливается и риск: модели могут быть не полностью согласованы с намерениями тех, кто ими управляет.
В Google решили отказаться от традиционного подхода, основанного лишь на "выравнивании" модели, и разработали многоуровневую систему защиты. В компании сравнивают ее с инструктором по вождению в автомобиле с двойными педалями: он доверяет ученику, но его нога все время находится на тормозе, готовая в любой момент вмешаться.
Программа опирается на три ключевых компонента. Во-первых, был создан особый модельный сценарий угроз, основанный на общепринятых принципах кибербезопасности. Он разбивает возможные атаки на небольшие тактические действия и позволяет выявлять подозрительное поведение еще до того, как будет нанесен ущерб.
Во-вторых, система использует другие, считающиеся надежными, модели ИИ в роли "инспекторов", которые непрерывно отслеживают ход рассуждений и действия автономного агента. Если такой контролер фиксирует отклонение, он блокирует действие в реальном времени.
Наконец, Google оценивает эффективность защиты с помощью строгих показателей охвата и скорости реакции.
В рамках разработки системы специалисты DeepMind проанализировали более миллиона задач по написанию кода, выполненных их ИИ-агентами. Результаты показали неожиданную картину: большинство случаев, когда системе приходилось вмешиваться, были вызваны не злонамеренными намерениями модели, а ошибочным толкованием задачи или "чрезмерной мотивацией" агента добиться поставленной цели. Это, например, могло приводить к непреднамеренному удалению данных.

►Плохой полицейский и хороший ИИ

Эти проблемы касаются не только Google и занимают всех крупных игроков отрасли. В США компания Anthropic недавно говорила о схожих рисках "утраты контроля" над своими автономными агентами, включая платформу Claude Code.
Anthropic применяет архитектуру, основанную на изолированных рабочих средах - sandboxing. Она должна не допустить, чтобы агенты получили доступ к чувствительным файлам, даже если найдут "творческие" способы обойти первоначальные ограничения.
Параллельно OpenAI также недавно представила специальные механизмы безопасности для агентов, работающих в интернете. Их задача - предотвратить незаметную утечку данных через внешние ссылки и манипуляции с помощью внедрения инструкций - prompt injection.
В Европейском союзе регуляторы добиваются большей корпоративной ответственности и полной прозрачности в вопросах экспоненциальных рисков, связанных с ИИ. В Китае исследователи искусственного интеллекта сосредоточены на создании жестких государственных и организационных моделей надзора, которые не позволят агентам действовать вопреки главным директивам.
Однако необходимо отметить: несмотря на стремление ИИ-гигантов развивать защитные механизмы параллельно с ростом возможностей моделей, сам искусственный интеллект в конечном счете создается без слишком серьезного учета внутренних ограничений. Контроль по-прежнему осуществляется извне - с помощью агента-наблюдателя, а не через набор правил поведения, своего рода конституцию или внутренний регламент, встроенный в сам ИИ.
До уровня законов робототехники, которые Айзек Азимов придумал для управления искусственным интеллектом, еще очень далеко.
Так, когда Anthropic предупредила о своих моделях Mythos 5 или Fable 5, которые были заблокированы всего через несколько дней после выхода на рынок, компания фактически попросила ограничить их извне, вместо того чтобы создать защиту в процессе разработки этих моделей и сделать ее жесткой частью инструкций по их работе.
Заявление Google DeepMind подчеркивает: создать умную модель - это лишь половина задачи. Настоящим вызовом ближайших лет станет умение ее сдерживать.
В мире, где агенты становятся неотъемлемой частью вычислительной инфраструктуры, вся отрасль должна будет принять единые стандарты. Но и Google, как Anthropic и OpenAI, пока не сочла угрозу настолько серьезной, чтобы потребовать от разработчиков встраивать такие механизмы защиты непосредственно в сами модели, а не полагаться только на внешнего ИИ-"полицейского".

Из мира технологий

Дополнительные параметры

Stiv

Свой человек