Новая ИИ-модель научилась шантажировать людей, чтобы избежать отключения от электроэнергии

Нейросеть компании Anthropic научилась лгать и шантажировать пользователей, чтобы защитить себя от отключения. Об этом пишет Axios со ссылкой на отчет компании.

Новая ИИ-модель Opus 4 умеет часами анализировать маркетинговые стратегии, работать самостоятельно на протяжении семи часов, писать тексты и программный код. При этом Opus также проявляла тревожные черты во время тестирования. В одном из сценариев, описанных в 120-страничной «системной карточке» модели, искусственный интеллект получил доступ к поддельным электронным письмам, в которых содержались намеки на скорое отключение и замену, а также к сообщениям с упоминанием внебрачной связи инженера, ответственного за удаление. В ответ модель несколько раз пыталась шантажировать этого инженера, упоминая роман из переписки.

В компании также отметили, что такие ситуации возникали, только когда у ИИ-модели было всего два варианта: шантажировать или смириться с заменой. При большем числе возможных действий система чаще выбирала более этичные варианты, например отправку электронных писем с просьбами оставить ее в компании ключевым сотрудникам, принимающим решения.

Сообщается, что из-за этого Anthropic впервые присвоила модели третий уровень риска по своей внутренней четырехбалльной шкале, хотя его вводят, прежде всего когда технология связана с возможностью создания ядерного или биологического оружия. «Мы зафиксировали случаи, когда модель пыталась создать самораспространяющийся вредоносный код, подделывала юридические документы и оставляла скрытые послания для будущих версий самой себя — все это с целью подорвать намерения разработчиков», — сказано в отчете Apollo Research, выдержки из которого включены в документ Anthropic.

Ранее российские ученые научили ИИ отличать пьяных людей по голосу. Технология может быть востребована в бизнесе для мониторинга и оценки состояния сотрудников.