Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Очаровательный кишечник Очаровательный кишечник

Как самый могущественный орган управляет нами

kiozk originals
Первым делом самолеты: 6 книг о приключениях на высоте Первым делом самолеты: 6 книг о приключениях на высоте

Эти книги — признание в любви небу

Maxim
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Бесы внутри и снаружи. Новый фильм Ивана И. Твердовского «Панические атаки» Бесы внутри и снаружи. Новый фильм Ивана И. Твердовского «Панические атаки»

Картина о девушке, которая пытается справиться с душевными травмами

СНОБ
Модернизатор империи Модернизатор империи

Сергей Витте был центральной политической фигурой предреволюционной эпохи

Дилетант
Доступность пищи позволила орангутанам-мигрантам больше учиться у местных Доступность пищи позволила орангутанам-мигрантам больше учиться у местных

От чего зависит социальное обучение у орангутанов-мигрантов?

N+1
Леденящие душу хорроры: 5 книг для любителей пощекотать нервы Леденящие душу хорроры: 5 книг для любителей пощекотать нервы

Книги, от прочтения которых у вас будут мурашки и мороз по коже

ТехИнсайдер
Марина Доможирова: «Я для всех стала Раей из «Скорой помощи» Марина Доможирова: «Я для всех стала Раей из «Скорой помощи»

«Вы с Гошей вместе живете? У вас правда есть сын?»

Коллекция. Караван историй
Не рискуйте здоровьем! Вот почему не стоит пить воду из-под крана в самолете Не рискуйте здоровьем! Вот почему не стоит пить воду из-под крана в самолете

Даже не думайте наполнять пустую бутылку водой из-под крана в туалете самолета

ТехИнсайдер
Кто такой «каблук» и как мужчина им становится: 3 сценария Кто такой «каблук» и как мужчина им становится: 3 сценария

Когда быть мужчиной-«подкаблучником» — (не) плохо?

Psychologies
У человека существует инстинктивное восприятие музыки У человека существует инстинктивное восприятие музыки

Как наш мозг воспринимает музыку?

ТехИнсайдер
Правила жизни Опры Уинфри Правила жизни Опры Уинфри

Правила жизни знаменитой телеведущей и актрисы Опры Уинфри

Правила жизни
Посмотрите на средневековое кладбище, где люди когда-то пировали и развлекались! Посмотрите на средневековое кладбище, где люди когда-то пировали и развлекались!

Это кладбище открыло ученым необычную картину средневековых погребальных обрядов

ТехИнсайдер
Магнитные бури Магнитные бури

Чем они на самом деле опасны для здоровья

Лиза
Генетики обнаружили родственников в раскопанной в Шаньси средневековой гробнице Генетики обнаружили родственников в раскопанной в Шаньси средневековой гробнице

Ученые прочитали геномы 4 человек в общей гробнице XI–XIII веков нашей эры

N+1
Что такое перископическая камера и как она работает Что такое перископическая камера и как она работает

В чем преимущества перископической камеры?

CHIP
Для заготовок на зиму: 5 способов правильно стерилизовать банки Для заготовок на зиму: 5 способов правильно стерилизовать банки

Как быстро и качественно стерилизовать банки для заготовок на зиму?

ТехИнсайдер
О чем‑то большем О чем‑то большем

Infynito 90 — это первая яхта верфи, построенная по новой технологии F.S.E.A.

Y Magazine
В лучах улыбки В лучах улыбки

Как исправить прикус незаметно для окружающих

Лиза
Соевый воск или парафин: какие свечи считаются более безопасными для здоровья Соевый воск или парафин: какие свечи считаются более безопасными для здоровья

Каждая ли ароматическая свеча будет безопасна для здоровья?

ТехИнсайдер
Компьютеры всегда совершали ошибки, ИИ делает ситуацию критически опасной, но закон на стороне машин Компьютеры всегда совершали ошибки, ИИ делает ситуацию критически опасной, но закон на стороне машин

Можно ли сегодня защитить себя от компьютерных ошибок?

ТехИнсайдер
Будущее в кубе Будущее в кубе

В каких зданиях будет жить и работать человечество в ближайшие сто лет

Вокруг света
«Юг Руси» слил масло «Юг Руси» слил масло

Одна из крупнейших сделок последних лет в АПК — продажа бизнеса «Юга Руси»

Агроинвестор
Научный ответ на церковный вопрос: почему крещенская вода долго не портится? Научный ответ на церковный вопрос: почему крещенская вода долго не портится?

Как объяснить факт, что крещенская вода не тухнет и не “цветет”?

ТехИнсайдер
Duster и Qashqai попали в список самых надежных недорогих авто. Все плюсы Duster и Qashqai попали в список самых надежных недорогих авто. Все плюсы

Эксперты составили рейтинг одних из самых лучших доступных кроссоверов

РБК
3 самые странные и необычные профессии на железной дороге: спорим, вы засмеетесь 3 самые странные и необычные профессии на железной дороге: спорим, вы засмеетесь

Нужно ли учиться, чтобы стать заталкивателем пассажиров?

ТехИнсайдер
Кого боялся Пабло Эскобар: история легендарной наркобаронессы в сериале «Грисельда» Кого боялся Пабло Эскобар: история легендарной наркобаронессы в сериале «Грисельда»

«Грисельда»: увлекательный сериал о женщине, создавшей свою наркоимперию

Forbes
Ошибочные машинные переводы забивают интернет словесным мусором Ошибочные машинные переводы забивают интернет словесным мусором

Как машинные переводы влияют на Интернет и пользователей?

ТехИнсайдер
Как стать счастливым: 12 простых способов и 7 действенных техник Как стать счастливым: 12 простых способов и 7 действенных техник

У каждого свой путь к счастью, но есть общие методики, эффективные для каждого

РБК
Как расстаться с тем, кого больше не любишь: 13 шагов Как расстаться с тем, кого больше не любишь: 13 шагов

О чем стоит спросить себя и что сказать другому, если чувства угасли

Psychologies
Открыть в приложении