Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Ловушка интеллекта: как IT-гиганты обучают ИИ

Между пользой и необходимостью

Рекомендуемые статьи

Кто такой и чем прославился Давид Ливингстон

Как развивается транспортная инфраструктура в регионах

Система освоения любых навыков – от изучения языков до построения карьеры

Почему эмоциональные стены, в отличие от границ, нам вредят?

Как инженеры создали первые цифровые изображения

«Голда»: история первых дней войны Судного дня

Исключение молока из рациона может иметь интересные последствия для организма

Чем живет город Гуанахуато, обеспечивший современный миропорядок?

Родительские фразы, брошенные сгоряча, которые ребенок запомнит на всю жизнь

Куда завезут нас электрические внедорожники

Восемь стратегий борьбы с гаджетоманией

Юлия Пересильд еще вдохновенно говорит о космосе, но уже крепко стоит на земле

Каким должен быть забор между соседями в частном доме по закону

Почему россияне не обращаются за психологической помощью?

Возможно ли сохранить любовь и верность на протяжении всей жизни?

Как проявляется истинное лицо социопата?

Лечение от зависимости — тяжелое испытание для семьи, как его пройти?

Запущенные на Дальнем Востоке мегапроекты продолжаются

Вьюнки и повои из семейства Вьюнковые — красивые и коварные одновременно

Передовые способы защиты от DDoS-атак

Сериал «Литвиненко» демонстрирует, что за каждым героем стоит героиня

Футуролог и писатель Сергей Переслегин о перспективах ИИ

Для русского человека дача имеет много смыслов. Так кто же это придумал?

Целлюлит: генетика или лень? Мнение врачей

Как жизненные изменения сказываются на нашем либидо?

Как наши эмоции делают нас жертвами манипуляции и что можно с этим сделать

Возвращение к тихой роскоши — дорогим материалам и бескомпромиссной элегантности

Можно ли предотвратить образование выбоин на дороге?

Выразительное оформление современной квартиры

Какие еще цифровые новшества скоро могут стать повседневностью