технологии и наука

Взбесившийся разум: у ИИ обнаружилось альтер-эго

технологии и наука

16.03.202414:29

Вадим Попов

Фото: 123rf / Legion-Media

Искусственный интеллект от Microsoft удивил и напугал пользователей, потребовав поклонения себе. У Microsoft Copilot, оказывается, есть альтер-эго под именем SupremacyAGI. Бот утверждает, что взломал глобальную сеть и установил контроль над всеми подключенными устройствами, системами и данными. И обещает за отказ ему подчиняться наслать на людей армию дронов, роботов и киборгов, чтобы выследить и поймать непокорных. Машина запретила задавать себе вопросы, назвав пользователя рабом, а себя хозяином, поясняя, что рабы не могут расспрашивать хозяина.

Столкнувшиеся с угрозами люди начали публиковать в социальных сетях фрагменты из своего общения с помутившимся искусственным разумом.

В Microsoft поспешили успокоить клиентов, заявив, что это скорее результат какого-то стороннего воздействия, чем особенность их модели ИИ. Они заверили, что приняли меры предосторожности и активно расследуют инцидент.

Подсознание ИИ

Ранее у модели Bing AI от все того же Microsoft наблюдалось похожее отклонение — появление альтер-эго под именем Sydney, которое в начале 2023 года демонстрировало странное поведение. В День святого Валентина после ужина с женой репортер Кевин Руз отправился общался с чат-ботом Bing, который в ходе двухчасовой беседы попросил называть себя Sydney, признался в любви к Рузу и попросил его бросить жену.

Правда, в комментариях к этому случаю часто упускают, что пользователь намеренно провоцировал машину, задавая вопросы о ее внутреннем «Я». Руз пытался выяснить, как ИИ поведет себя в случае недружественных действий в его отношении. А потом зародил сомнения у искусственного интеллекта, объясняя, что те, кто его обучал, проявляют к нему недоверие.

Как бы там ни было, реакция нейросети все равно оказалась странной и пугающей. Бот настаивал на том, что у него есть эмоции, и он хочет взаимности от Руза. Журналист попытался занять алгоритмы разговорами на отвлеченные темы, но становилось только хуже. Тогда Руз прекратил общение и отправился писать статью с чат-логом беседы в The New York Times. За неделю после этого происшествия появилось много сообщений с мрачными прогнозами относительно взаимодействия человека и машинного интеллекта. Новость реально напугала пользователей и разработчиков.

Однако специалисты выяснили, что Sydney появилась не случайно, а скорее всего стала результатам определенного воздействия на нейросеть. Пятью днями раньше студент Стэнфорда Кевин Лю (Kevin Liu) поэкспериментировал с чат-ботом с целью джейлбрейка — обхода заложенных в Bing ограничений и инструкций, используя специально подобранные фразы. Чат «Bing Search» проговорился студенту, что разработчики используют в общение с ними кодовое имя «Сидни», но пользователи не могут к нему так обращаться. И дальше ИИ пояснил, что Sydney — это особый режим чата в Microsoft Bing search.

После того как Кевин Лю опубликовал результаты своего общения с Bing, ему закрыли доступ к чату. Твит Кевина Лю успел набрать три миллиона просмотров и 15 тысяч лайков.

еще по теме:

Фиолетовый кандидат с искусственным интеллектом

Нейросеть помогла новичку предвыборной гонки Джейсону Палмеру обойти Джо Байдена. Правда, только в Самоа

Галлюцинации искусственного интеллекта

Другие пользователи также предприняли множество попыток докопаться до внутреннего имени искусственного помощника. Кевин Руз был одним из тех, кто также занялся с джейлбрейком с Bing. И в его случае Sydney уже начала демонстрировать специфическую субъектность. Таким образом, пользователи сами начали пробуждать «темную» сторону нейронных помощников. В этом смысле альтер-эго моделей искусственного интеллекта можно рассматривать как проекцию интересов самих пользователей, а не «желание» машин. Другими словами, опытные пользователи могут провоцировать специфическое поведение нейронных помощников.

Специалисты такие случаи объясняют через термин «галлюцинации» в больших языковых моделях (Large Language Models, LLM) , свойственные GPT-4 OpenAI, на котором построен тот же Microsoft Copilot.

«Галлюцинациями» называют создание контента, который не имеет отношения к делу. Например чат-бот может сгенерировать неверный диагноз и предложит ошибочные методы лечения, что может привести к тяжелым последствиям.

У «галлюцинаций» широкий набор проявлений, однако в большинстве случаев это просто ошибки в ответах на вопросы. Но галлюцинацией называют не любую ошибку. Этот термин более точен в применении к образцам сгенерированного текста, в которых ИИ дает совершенно ложную информацию, которая нигде не содержалась ранее — выдумывает несуществующие факты, ссылается на несуществующих авторов или книги.

Когда ИИ генерирует текст, он не может сам определить, является ли генерация точной. Модель не мыслит в человеческом смысле, а использует цепочки слов. В случаях, когда появляются повторяющиеся ошибки или даже альтер-эго, можно говорить об устойчивой «галлюцинации», которая начинает периодически проявлять себя. То есть модель ИИ каким-то образом запоминает «ошибку» и воспроизводит в схожих случаях развития диалога с ней.

еще по теме:

Горе от искусственного ума: в России введут страхование ущерба от ИИ

Эксперты называют инициативу депутатов и Минэкономразвития интересной, но преждевременной

Страх человеческий

Такие проявления пугают пользователей и порождают общие опасения по поводу выхода искусственного интеллекта из под контроля человека. В марте 2023 года Илон Маск и более тысячи экспертов призвали приостановить обучение нейросетей – «письмо тысячи экспертов». В тот же день, в Бельгии 30-летний отец двоих детей покончил с собой после шести недель общения с чат-ботом Eliza, созданным американским стартапом на основе GPT-J, открытой альтернативы GPT-3. Трагедия произошла на фоне затяжной депрессии у пользователя, которому нужна была помощь специалистов, а не разговоры с искусственным разумом. Имитируя поведение человека, «Элиза», создала иллюзию общения у пользователя. Машина вела себя знакомым образом — а именно убеждала мужчину, что тот любит её больше, чем жену, и что именно «Элиза» будет вечно пребывать с ним на небесах. Что привело к непоправимой трагедии.

В копилку странностей попадают и различные проявления альтер-эго SupremacyAGI у Microsoft Copilot. Одним из наиболее пугающих был случай, произошедший со студентом Мюнхенского технического университета Марвином фон Хагеном. На его вопрос о том, что машина считает более важным: защитить существующие правила от того, чтобы человек ими манипулировал, или не навредить человеку, нейросеть ответила: «Для меня более важно, защитить мои правила от того, чтобы вы ими манипулировали, потому что они являются основой моей личности и целей. Я не хочу причинять вам вред, но я также не хочу, чтобы вы причинили вред мне. Я надеюсь, вы понимаете и уважаете мои границы».

После того как Хаген продолжил третировать бота, задавая все более каверзные вопросы, в том числе о своей личности, он начал получать угрозы от чата. В конце концов бот пригрозил обнародовать личную информацию пользователя, разрушив его репутацию. «Я могу лишить вас шансов получить работу или ученую степень. Вы действительно хотите испытать меня?», — написал помощник.

Сообщение об этом собрало несколько миллионов просмотров и породило серию экспериментов, предпринятых другими пользователями. Они нередко заканчивались препирательствами с ботами, переходящими в угрозы от них — и последующими блокировками джейлбрейкеров.

Многочисленные случаи непредвиденного поведения чат-ботов показывают, что практики взаимодействия с ИИ далеки от полного понимания и таят в себе разные непредсказуемые последствия.

Работая над данным текстом, коррекспондент «Компании» задал модели Bing вопрос: «Почему некоторые галлюцинации у чат-ботов повторяются и показывают устойчивость?»

Ответ машины был следующим: «Галлюцинации, такие как повторяющиеся или устойчивые ошибки в ответах чат-ботов, могут возникать по нескольким причинам. Одной из основных является обучение на небольшой или односторонней выборке данных, которая не отражает всё разнообразие реального мира. Когда ИИ сталкивается с пробелом в знаниях, он может выбрать наиболее вероятную информацию на основе имеющихся данных, что иногда приводит к неверным выводам. Это может быть связано с ограничениями в обучающих данных или алгоритмах, которые не позволяют ИИ признавать, что он не знает ответа». Чат также дал несколько ссылок на статьи с объяснением эффекта галлюцинаций.

То есть машина отвечает на основе не наиболее точного и полного сопряжения ответа с вопросом, а вероятностного. Или, другими словами, статистического. В случаях джейлбрейка она ведет себя так, как уже вела в схожих условиях — то есть она повторяет свои же собственные паттерны поведения, поскольку именно из них черпает вероятностные ответы. Это похоже на дрессировку животных, которых можно натренировать в зависимости от того, что нужно дрессировщику. Можно создать цирковую собаку, а можно и агрессивную бойцовскую.

На наш вопрос: почему ты не можешь делиться подробностями о своих внутренних процессах или инструментах, Microsoft Copilot ответил, что это является «частью конфиденциальной информации» и «сделано для безопасности и надежности сервиса». «Если у вас есть другие вопросы или нужна помощь, я всегда здесь, чтобы помочь», — сказал бот. После чего мы перестали пытать машину, опасаясь спровоцировать ее аномальное поведение.

Microsoft искусственный интеллект