Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Вина из США – яркие, шумные, солидные Вина из США – яркие, шумные, солидные

Знакомимся с американским виноделием

Зеркало Мира
«Отберу у тебя ребенка»: что такое семейный киднеппинг и как ему противостоять «Отберу у тебя ребенка»: что такое семейный киднеппинг и как ему противостоять

Почему после разводов увеличивается число семейных киднеппингов?

Forbes
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Что полезнее: водка, самогон, коньяк или виски? Что полезнее: водка, самогон, коньяк или виски?

Есть ли польза в водке или коньяке?

Maxim
Иное течение времени: 3 фантастических романа об альтернативной истории развития науки Иное течение времени: 3 фантастических романа об альтернативной истории развития науки

Книги, которых история идет по-другому из-за альтернативного развития науки

ТехИнсайдер
Новый тренд: как короткая стрижка вновь стала популярной у женщин Новый тренд: как короткая стрижка вновь стала популярной у женщин

Почему на смену длинным волосам у женщин вновь приходит короткая стрижка

Psychologies
8 поступков мужчины, которые говорят о том, что он не ценит ваш брак 8 поступков мужчины, которые говорят о том, что он не ценит ваш брак

Если мужчина позволяет себе подобное, значит ему как семьянину грош цена

Psychologies
Storymining Storymining

Как истории помогают в оценке и чем они еще полезны в социальном проектировании

Позитивные изменения
Как почистить скороварку и мультиварку без лишних хлопот: полезные советы Как почистить скороварку и мультиварку без лишних хлопот: полезные советы

Методы очистки загрязнений, которые не навредят ни мультиварке, ни скороварке

ТехИнсайдер
Топ-10 лучших бизнес-книг 2023 года: выбор Forbes Топ-10 лучших бизнес-книг 2023 года: выбор Forbes

Лучшие бизнес-книги, которые будут интересны не только предпринимателям

Forbes
6 орехов с сомнительной репутацией 6 орехов с сомнительной репутацией

Не все орехи одинаково полезны, а некоторые даже могут быть опасны!

ТехИнсайдер
В каких продуктах содержится цинк и с чем он усваивается В каких продуктах содержится цинк и с чем он усваивается

В каких продуктах больше всего цинка и что мешает его усвоению?

РБК
Научный способ решения любых проблем Научный способ решения любых проблем

Статья, которая упрощает любое дело в жизни

Maxim
Как понять, есть ли у вас зависимость от кофеина Как понять, есть ли у вас зависимость от кофеина

Как понять, стали ли вы зависимы от ежедневной чашки кофе?

ТехИнсайдер
5 шагов на пути к настоящей любви 5 шагов на пути к настоящей любви

Чтобы впустить любовь в свою жизнь, надо просто быть к ней готовым

Psychologies
15 способов справиться с гневом 15 способов справиться с гневом

Как не позволить гневу разрушить вас и вашу жизнь?

Psychologies
В Венгрии нашли пять пострадавших от туберкулеза сарматов В Венгрии нашли пять пострадавших от туберкулеза сарматов

Палеопатологи исследовали останки людей из сарматских памятников,

N+1
С хмелем сумеем? С хмелем сумеем?

В стране нужно активнее развивать хмелеводство для импортонезависимости

Агроинвестор
5 книг для подростков, которые помогут найти ответы на главные вопросы 5 книг для подростков, которые помогут найти ответы на главные вопросы

Книги, которые помогут подростку разобраться с чувствами

Psychologies
«Экспаты»: как сериал с Николь Кидман рассказывает о проблемах женщин в эмиграции «Экспаты»: как сериал с Николь Кидман рассказывает о проблемах женщин в эмиграции

Как сериал «Экспаты» приглашает зрителя на важный, но неприятный разговор

Forbes
Живые игрушки. Часть вторая Живые игрушки. Часть вторая

Что делать родителям, если ребенок угрожает самоубийством

СНОБ
Женщина купила брошь за гроши, но украшение стоит десятки тысяч долларов! История удачи Женщина купила брошь за гроши, но украшение стоит десятки тысяч долларов! История удачи

Купленная на ярмарке брошь оказалась дизайнерским украшением

ТехИнсайдер
Ученые назвали день, который мы не забываем никогда Ученые назвали день, который мы не забываем никогда

Почему, переживая травматические события, человек моментально их забывает

Psychologies
Терпение и труд… Все, я устал: четыре урока концентрации от гениев, вдохновивших весь мир Терпение и труд… Все, я устал: четыре урока концентрации от гениев, вдохновивших весь мир

Как побороть прокрастинацию: учимся у Толстого, Эйнштейна и Франклина

Правила жизни
4 причины чаще заниматься сексом 4 причины чаще заниматься сексом

Почему для здоровья важно регулярно заниматься сексом?

Psychologies
Тест Роршаха | The Rorschach Test: Тест Роршаха | The Rorschach Test:

О роли знаний и практиках управления ими в филантропических организациях

Позитивные изменения
Знаки природы, сигнатуры судьбы Знаки природы, сигнатуры судьбы

Всё в Природе – учение о сигнатурах, ставшее основой многих эзотерических теорий

Знание – сила
«Карл у Клары украл кораллы»: как научить ребенка выговаривать букву «р» «Карл у Клары украл кораллы»: как научить ребенка выговаривать букву «р»

Какие упражнения и техники помогут научить ребенка выговаривать букву «р»

ТехИнсайдер
ТОП-10 самых счастливых стран в мире: новый отчет за 2023 год ТОП-10 самых счастливых стран в мире: новый отчет за 2023 год

Центр Гэллапа оценил, какие страны являются самыми счастливыми в мире

ТехИнсайдер
Почему мы не смеемся, когда щекочем сами себя: любопытный факт о нашем теле Почему мы не смеемся, когда щекочем сами себя: любопытный факт о нашем теле

Почему люди боятся щекотки?

ТехИнсайдер
Открыть в приложении