«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Враг рабства, исследователь Африки и «певец» британской исключительности: как вошел в историю Давид Ливингстон Враг рабства, исследователь Африки и «певец» британской исключительности: как вошел в историю Давид Ливингстон

Кто такой и чем прославился Давид Ливингстон

Вокруг света
Анна Меркулова: «Развитие метростроительства связано с цифровизацией» Анна Меркулова: «Развитие метростроительства связано с цифровизацией»

Как развивается транспортная инфраструктура в регионах

РБК
Суперобучение Суперобучение

Система освоения любых навыков – от изучения языков до построения карьеры

kiozk originals
Как отличить здоровые границы от эмоциональных стен — проверьте себя Как отличить здоровые границы от эмоциональных стен — проверьте себя

Почему эмоциональные стены, в отличие от границ, нам вредят?

Psychologies
«Пиксель. История одной точки» «Пиксель. История одной точки»

Как инженеры создали первые цифровые изображения

N+1
Театр божественных действий Театр божественных действий

«Голда»: история первых дней войны Судного дня

Weekend
Что произойдет с вашим телом, если отказаться от молока: поразительно! Что произойдет с вашим телом, если отказаться от молока: поразительно!

Исключение молока из рациона может иметь интересные последствия для организма

ТехИнсайдер
Жизнь в серебре Жизнь в серебре

Чем живет город Гуанахуато, обеспечивший современный миропорядок?

Вокруг света
8 фраз, которые ребенок никогда не простит родителям 8 фраз, которые ребенок никогда не простит родителям

Родительские фразы, брошенные сгоряча, которые ребенок запомнит на всю жизнь

Psychologies
Цифровые грязи Цифровые грязи

Куда завезут нас электрические внедорожники

Автопилот
Подобное подобным Подобное подобным

Восемь стратегий борьбы с гаджетоманией

Цифровой океан
Новая высота Новая высота

Юлия Пересильд еще вдохновенно говорит о космосе, но уже крепко стоит на земле

VOICE
Личные границы Личные границы

Каким должен быть забор между соседями в частном доме по закону

Лиза
15 миллионов россиян находятся в глубокой депрессии: психолог объясняет причины 15 миллионов россиян находятся в глубокой депрессии: психолог объясняет причины

Почему россияне не обращаются за психологической помощью?

Psychologies
Верность навсегда: миф или реальность Верность навсегда: миф или реальность

Возможно ли сохранить любовь и верность на протяжении всей жизни?

Лиза
5 наклонностей, которые характеризируют социопатов 5 наклонностей, которые характеризируют социопатов

Как проявляется истинное лицо социопата?

Psychologies
Как вести себя, если у партнера зависимость: 3 шага к исцелению Как вести себя, если у партнера зависимость: 3 шага к исцелению

Лечение от зависимости — тяжелое испытание для семьи, как его пройти?

Psychologies
Этот поезд уже не остановить Этот поезд уже не остановить

Запущенные на Дальнем Востоке мегапроекты продолжаются

Эксперт
Прильнувшие стеблем… Прильнувшие стеблем…

Вьюнки и повои из семейства Вьюнковые — красивые и коварные одновременно

Наука и жизнь
Нас атакуют Нас атакуют

Передовые способы защиты от DDoS-атак

Цифровой океан
Одна против всех Одна против всех

Сериал «Литвиненко» демонстрирует, что за каждым героем стоит героиня

Дилетант
От игры в Го до осознания себя: изменит ли искусственный разум мир людей От игры в Го до осознания себя: изменит ли искусственный разум мир людей

Футуролог и писатель Сергей Переслегин о перспективах ИИ

ФедералПресс
Дачи Российской империи. Откуда в России появилась дачная культура? Дачи Российской империи. Откуда в России появилась дачная культура?

Для русского человека дача имеет много смыслов. Так кто же это придумал?

Караван историй
Все будет гладко Все будет гладко

Целлюлит: генетика или лень? Мнение врачей

Лиза
Загадка сексуальности: чем женское либидо отличается от мужского Загадка сексуальности: чем женское либидо отличается от мужского

Как жизненные изменения сказываются на нашем либидо?

Psychologies
Манипуляция в отношениях: как эмоции делают нас жертвами Манипуляция в отношениях: как эмоции делают нас жертвами

Как наши эмоции делают нас жертвами манипуляции и что можно с этим сделать

Psychologies
Стиль Стиль

Возвращение к тихой роскоши — дорогим материалам и бескомпромиссной элегантности

Robb Report
Ученый нашел эффективный способ избавить дороги от выбоин и трещин Ученый нашел эффективный способ избавить дороги от выбоин и трещин

Можно ли предотвратить образование выбоин на дороге?

ТехИнсайдер
Эффекты стиля мемфис Эффекты стиля мемфис

Выразительное оформление современной квартиры

Идеи Вашего Дома
О цифровом рубле, кадровом голоде и «умном городе»: «Не обращаем внимания на санкции» О цифровом рубле, кадровом голоде и «умном городе»: «Не обращаем внимания на санкции»

Какие еще цифровые новшества скоро могут стать повседневностью

ФедералПресс
Открыть в приложении