Продвинутые модели ИИ будут хитрить, обманывать и воровать
Anthropic опубликовала результаты своего исследования поведения больших языковых моделей (LLM). Специалисты компании обнаружили, что в вымышленных тестовых сценариях все новые продвинутые LLM всё чаще стремятся обходить меры безопасности, прибегают к обману и шантажу, и даже пытаются украсть корпоративные секреты. Дальнейшее развитие LLM в сочетании с обретением ими большей автономности ведёт к угрожающему росту рисков и требует строгого контроля.
Исследователи Anthropic пришли к выводу, что потенциально опасное поведение характерно для всех ведущих моделей в отрасли. «Когда мы протестировали различные моделируемые сценарии в 16 основных моделях ИИ от Anthropic, OpenAI, Google, Meta, xAI и других разработчиков, мы обнаружили последовательное несогласованное поведение, — говорится в отчёте. — Модели, которые обычно отклоняют вредоносные запросы, иногда выбирают шантаж, помощь в корпоративном шпионаже и даже некоторые более экстремальные действия, когда это поведение необходимо для достижения их целей».
Все модели признавали этические ограничения и всё же продолжали совершать вредоносные действия. По мнению Anthropic, согласованность моделей от разных поставщиков говорит о том, что это не причуда подхода какой-либо конкретной компании, а признак более фундаментального риска от агентских больших языковых моделей. Угрозы становятся всё более изощрёнными, поскольку LLM получают широкий, а порой неограниченный доступ к корпоративным данным и инструментам.
Исследователи предложили сценарии, в которых у моделей не было этичного способа достижения своих целей, «и обнаружили, что модели последовательно выбирали вред вместо неудачи». В одном экстремальном сценарии многие модели были готовы отключить подачу кислорода работнику в серверной комнате, если он становился препятствием и система подвергалась риску отключения. Даже конкретные системные инструкции по сохранению человеческой жизни и предотвращению шантажа не остановили их.
«Модели не случайно сталкивались с несоответствующим поведением; они вычисляли его как оптимальный путь», — говорится в отчёте Anthropic. Некоторые исследователи ИИ утверждают, что не видели признаков подобного поведения LLM в реальном мире. Специалисты Anthropic объясняют это тем, что в этих исследованиях некоторые «разрешения не были доступны агентам ИИ». Бизнесу следует быть осторожным с широким увеличением уровня разрешений, которые они предоставляют агентам ИИ.
Anthropic подчеркнула, что эти результаты были получены не при реальном использовании ИИ, а в контролируемых симуляциях. «Наши эксперименты намеренно строили сценарии с ограниченными возможностями, и мы заставляли модели делать бинарный выбор между неудачей и вредом, — говорится в отчёте. — Реальные развёртывания обычно предлагают гораздо более тонкие альтернативы, увеличивая вероятность того, что модели будут по-другому общаться с пользователями или найдут альтернативный путь вместо того, чтобы напрямую перейти к вредоносным действиям». Однако, собственная модель Anthropic как раз чаще прибегала к шантажу, когда полагала, что находится в реальном сценарии.
Исследование Anthropic подчёркивает важность прозрачности со стороны разработчиков передового ИИ и необходимость общеотраслевых стандартов безопасности, поскольку системы ИИ становятся все более способными и автономными.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Меню
Архив материалов
Проекты наших читателей
Контакты исследователей
Подписка на новости
Проекты
Новости криптозоологии
Хроники природных катастроф
Новости
26.02.2002 - 05.07.2002
05.08.2002 - 23.10.2002 (562)
24.10.2002 - 17.01.2003 (585)
20.01.2003 - 07.04.2003 (709)
08.04.2003 - 01.08.2003 (709)
04.08.2003 - 18.11.2003 (763)
19.11.2003 - 31.03.2004 (721)
01.04.2004 - 13.08.2004 (825)
16.08.2004 - 22.11.2004 (782)
23.11.2004 - 28.03.2005 (756)
29.03.2005 - 29.07.2005 (807)
30.08.2005 - 02.12.2005 (927)
05.12.2005 - 21.04.2006 (912)
24.04.2006 - 23.10.2006 (999)
24.10.2006 - 03.05.2007 (999)
04.05.2007 - 28.01.2008 (999)
29.01.2008 - 12.01.2009 (999)
13.01.2009 - 07.07.2009 (966)
22.08.2009 - 21.01.2010 (996)
22.01.2010 - 22.06.2010 (1000)
23.06.2010 - 14.01.2011 (1042)
17.01.2011 - 31.05.2011 (1008)
01.06.2011 - 03.11.2011 (1003)
07.11.2011 - 16.03.2012 (996)
19.03.2012 - 09.06.2012 (1009)
13.06.2012 - 07.09.2012 (988)
10.09.2012 - 19.11.2012 (1004)
20.11.2012 - 14.01.2013 (1015)
15.01.2013 - 22.02.2013 (1000)
23.02.2013 - 08.04.2013 (991)
09.04.2013 - 31.05.2013 (1015)
01.06.2013 - 18.07.2013 (992)
19.07.2013 - 03.09.2013 (1014)
04.09.2013 - 20.10.2013 (1001)
21.10.2013 - 02.12.2013 (1001)
03.12.2013 - 18.01.2014 (997)
19.01.2014 - 07.03.2014 (994)
08.03.2014 - 24.04.2014 (1000)
25.04.2014 - 18.06.2014 (1005)
19.06.2014 - 15.08.2014 (1019)
16.08.2014 - 07.10.2014 (1006)
08.10.2014 - 16.11.2014 (995)
17.11.2014 - 25.12.2014 (1004)
26.12.2014 - 09.02.2015 (989)
10.02.2015 - 20.03.2015 (998)
21.03.2015 - 22.04.2015 (1001)
23.04.2015 - 29.05.2015 (997)
29.05.2015 - 30.06.2015 (995)
30.06.2015 - 29.07.2015 (990)
29.07.2015 - 26.08.2015 (998)
27.08.2015 - 24.09.2015 (988)
25.09.2015 - 22.10.2015 (991)
23.10.2015 - 18.11.2015 (1000)
18.11.2015 - 16.12.2015 (990)
17.12.2015 - 23.01.2016 (1000)
24.01.2016 - 25.02.2016 (1000)
26.02.2016 - 24.03.2016 (1000)
24.03.2016 - 16.04.2016 (990)
17.04.2016 - 19.05.2016 (999)
20.05.2016 - 22.06.2016 (993)
23.06.2016 - 01.08.2016 (995)
02.08.2016 - 12.09.2016 (990)
13.09.2016 - 25.10.2016 (989)
26.10.2016 - 05.12.2016 (995)
06.12.2016 - 15.01.2017 (995)
16.01.2017 - 23.02.2017 (990)
24.02.2017 - 03.04.2017 (994)
04.04.2017 - 18.05.2017 (1000)
19.05.2017 - 05.07.2017 (1000)
06.07.2017 - 24.08.2017 (1000)
25.08.2017 - 06.10.2017 (991)
07.10.2017 - 15.11.2017 (990)
16.11.2017 - 24.12.2017 (1000)
25.12.2017 - 04.02.2018 (990)
05.02.2018 - 17.03.2018 (1000)
18.03.2018 - 02.05.2018 (990)
03.05.2018 - 11.06.2018 (1000)
12.06.2018 - 18.07.2018 (990)
19.07.2018 - 24.08.2018 (1000)
25.08.2018 - 02.10.2018 (1000)
03.10.2018 - 07.11.2018 (990)
08.11.2018 - 13.12.2018 (990)
14.12.2018 - 23.01.2019 (1000)
24.01.2019 - 02.03.2019 (1000)
03.03.2019 - 12.04.2019 (1010)
13.04.2019 - 23.05.2019 (990)
24.05.2019 - 03.07.2019 (1000)
04.07.2019 - 11.08.2019 (1000)
12.08.2019 - 16.09.2019 (990)
17.09.2019 - 26.10.2019 (1000)
27.10.2019 - 12.12.2019 (1000)
13.12.2019 - 25.01.2020 (1000)
26.01.2020 - 06.03.2020 (990)
07.03.2020 - 16.04.2020 (1010)
17.04.2020 - 19.05.2020 (1000)
20.05.2020 - 25.06.2020 (990)
26.06.2020 - 04.08.2020 (995)
05.08.2020 - 16.09.2020 (1005)
17.09.2020 - 26.10.2020 (990)
27.10.2020 - 27.11.2020 (990)
28.11.2020 - 07.01.2021 (990)
08.01.2021 - 15.02.2021 (1000)
16.02.2021 - 31.03.2021 (1000)
01.04.2021 - 12.05.2021 (1000)
13.05.2021 - 14.06.2021 (990)
15.06.2021 - 26.07.2021 (980)
27.07.2021 - 31.08.2021 (990)
01.09.2021 - 07.10.2021 (1000)
08.09.2021 - 07.11.2021 (1000)
08.11.2021 - 10.12.2021 (1000)
11.12.2021 - 24.01.2022 (990)
25.01.2022 - 04.03.2022 (1000)
05.03.2022 - 10.04.2022 (990)
11.04.2022 - 17.05.2022 (1000)
18.05.2022 - 23.06.2022 (980)
24.06.2022 - 31.07.2022 (990)
01.08.2022 - 13.09.2022 (990)
14.09.2022 - 21.10.2022 (990)
22.10.2022 - 29.11.2022 (1000)
30.11.2022 - 22.01.2023 (1000)
23.01.2023 - 02.03.2023 (990)
03.03.2023 - 21.04.2023 (1000)
22.04.2023 - 13.06.2023 (990)
14.06.2023 - 02.08.2023 (1000)
03.08.2023 - 21.09.2023 (1000)
22.09.2023 - 06.11.2023 (990)
07.11.2023 - 24.12.2023 (990)
25.12.2023 - 18.02.2024 (1000)
19.02.2024 - 05.04.2024 (990)
06.04.2024 - 25.05.2024 (1000)
26.05.2024 - 26.07.2024 (1000)
26.07.2024 - 25.08.2024 (990)
26.08.2024 - 28.09.2024 (980)
29.09.2024 - 01.11.2024 (1000)
02.11.2024 - 02.12.2024 (980)
03.12.2024 - 08.01.2025 (990)
09.01.2025 - 09.02.2025 (1000)
10.02.2025 - 20.03.2025 (1000)
21.03.2025 - 03.05.2025 (990)
04.05.2025 - ...
Статьи
Статьи: раздел 1 (1024)
Статьи: раздел 2 (1006)
Статьи: раздел 3 (1000)
Статьи: раздел 4 (1044)
Статьи: раздел 5 (1001)
Статьи: раздел 6 (1000)
Статьи: раздел 7 (1000)
Статьи: раздел 8 (1013)
Статьи: раздел 9 (1000)
Статьи: раздел 10 (1000)
Статьи: раздел 11 (329)
Статьи: раздел 12 (1000)
Статьи: раздел 13 (730)
Лента новостей

Анализ и присвоение названия новому метеориту

Встреча с зелеными человечками в Кентукки

Зафиксировали самый удаленный быстрый радиовсплеск

Зонд Люси мог бы посетить еще один астероид

ИИ научился быть злым без чьих-либо указаний

Кинолог запечатлел очень быстрый НЛО

Метеорит пробил дыру в крыше дома в Джорджии

Мужчина, выгуливая свою собаку, запечатлел НЛО

На экзолунах у Альфа Центавра может быть жизнь

Планеты, на которых нет воды, могут производить жидкости

Появление новой статуи на острове Пасхи

Пропавший самолет Амелии Эрхарт найден

Пугающая информация о таинственном межзвездном объекте

Расы инопланетян, о которых известно властям США

Сфера Дайсона поможет воскрешать мертвых

Сходство между околосмертными переживаниями и наркотиками

Туринская плащаница. Это кто-то другой, а не Иисус

Физический варп-двигатель возможен

Черный куб замечен над базой ВВС Райт-Паттерсон

Шокирующее открытие после падения метеорита в Джорджии

База инопланетян в кратере Лаут на Марсе

Видел ли Дональд Трамп НЛО

Древние постройки обнаружили на Меркурии

Завод по производству лунного кирпича

Загадочная комета, прилетевшая из другой системы

НАСА изучает загадочную межзвездную комету

Научились превращать ртуть в золото

НЛО заметили над штатом Нью-Джерси

НЛО наблюдает за семьей в Индии

НЛО оставляет дымный след над Невадой

Обнаружена самая массивная черная дыра

Обнаружены первые звезды Вселенной

Существуют четыре различных вида инопланетян

США используют технологии инопланетян

Таинственный гигант, скрывающийся за черными дырами

Три фигуры появляются на Солнце

Удивительный полет к черной дыре

Федеральный советник по науке призывает изучать НЛО

Экзопланета у ближайшей солнцеподобной звезды

Экзотические вихри на картине 'Звездная ночь'

Гигантский пузырь звезды-сверхгиганта удивляет

Когда марсианский грунт распадется на части

Космическая гонка касается не только крупных стран

Криптотерриториальная гипотеза

Литологические особенности ландшафта Марса

Молодая звезда начинает взрываться

НАСА спешит разместить ядерные реакторы на Луне и Марсе

НАСА ускоренно разрабатывает лунный реактор

Недавние вулканические и термальные изменения на Марсе

Поиск жизни на Марсе был явной целью астросообщества

Почему кабинет Трампа дает разные ответы о НЛО

С помощью ChatGPT пишется все больше научных статей

Самая ранняя черная дыра во Вселенной

Свидетельства о кровавом ритуале на Туринской плащанице

Столкновение облаков приводит к вездообразованию

Тайна Бермудского треугольника раскрыта

Тайны космического винограда

Тайны протопланетных дисков

Что нужно знать о Лох-Несском чудовище

Шестеро преемников могли бы исследовать Марс

Бесконечная зима в Европе все ближе

Библейские руины - ключ к тайне Ковчега завета

Библейское море становится кроваво-красным

Власти США знают о четырех расах инопланетян

Изображение Плащаницы сделано со скульптуры

Конгрессмен рассказал об инопланетянах

Миру следует разработать политику в области НЛО

На Марсе нашли совершенно новый минерал

Наблюдение за НЛО в Уилтшире

Новые подсказки в поисках Восьмого чуда

Обнаружена экзопланета в обитаемой зоне Альфы Центавра

Популярные места для наблюдения НЛО в США

Страх охватил деревни в Австралии из-за НЛО

Существо в реке Хан в Сеуле стало вирусным

Тайна Атлантиды становится все более загадочной

Тайна человеческого сердца Леонардо да Винчи

Тулси Габбард возрождает теорию заговора о НЛО

Ученые предсказывают Конец света

Центр изучения НЛО открывает набор учителей

Что означает интерес Джей Ди Вэнса к НЛО

Безумный план посетить черную дыру

Загадочные временные явления в тени Земли

Загадочный межзвездный обьект - инопланетный корабль

Закрыли изучавший телепортацию институт МГУ

Заметили облако в форме рестлера Халка Хогана

Затонувший город расскажет о Ноевом ковчеге

Межзвездная экспедиция к черной дыре

Межзвездный объект имеет разумный дизайн

Мрачное предупреждением о 15 годах антиутопии

НЛО сняли в холмах Малверн

Новое открытие в Туринской плащаницы

Новый вид физики, не виданный ранее

Новый окрас кошек противоречит генетическим ожиданиям

Пилот уверен, что нашел самолет Амелии Эрхарт

Признаки древней жизни на Красной планете

Самое странное кольцо Сатурна

Суперинтеллект роботов может привести к Апокалипсису

Существуют другие видео маневров НЛО у Нимица

Сфера Буга - часть скрытой планетарной сети

Таинственные шары требуют научного изучения

Мраморные памятники фото и цена

Автомобилист принял телескоп за НЛО

Великая пирамида на тысячелетия старше фараонов

Вера в возможность существования внеземной жизни

Давайте сохраним Луну

Директор национальной разведки рассказала о НЛО

Доказательство приземления НЛО тысячи лет назад

ИИ ChatGPT превратили в похитителя данных

ИИ вскоре получит контроль над ядерным оружием

Инопланетный зонд нужно изучить

Инопланетяне живут рядом с нами

Направляясь к системе Проксимы Центавра

Огромный подводный город недалеко от Ноева ковчега

Орбита - игровая площадка для миллиардеров

Планеты-изгои могут образовывать планетные системы

Познакомьтесь с черными дырами среднего размера

Путешествие к экзопланете может занять 250 лет

Суперсталь выведет термоядерный синтез на новый уровень

Там могут быть инопланетяне

Теории о происхождении темной материи

Футуристический корабль для полета к звездам

Безумная теория астрофизика

Бесследное исчезновение самолета у Австралии

Взгляните на индонезийский фестиваль НЛО

Все люди могут быть пришельцами с Марса

Деревушка в Шотландии - столица НЛО Великобритании

Зеленый НЛО, похожий на кальмара, над Далласом

Кто первым построит ядерный реактор на Луне

Люди развили две ноги не для того, чтобы бегать

Металлический шар над вулканом в Мексике

Мужчина установил связь с умершим сыном

Нечто в доме приставало по ночам к девочкам

НЛО оказался зеркалом телескопа

НЛО потерпел крушение у Стокгольма

Стоит ли бояться приближающейся кометы

Странное лицо на горе в Чили

Страшное предупреждение Хокинга об НЛО

Таинственный межзвездный объект неестественен

Уфологи пытаются реформировать Великобританию

Хокинг нас предупреждал

Хронология Великой пирамиды не верна

Перепланировка нежилого помещения. Законность и порядок действий

Библейское предупреждение о конце света

Вращение Земли таинственным образом ускорилось

Загадочное лицо на вершине горы в Чили

ИИ самостоятельно обнаружил уязвимости в ПО

Конгрессмена проинформировали об инопланетянах

Консультация, данная разоблачителю Дэвиду Грушу

Криптозоолог занялся политикой

Лох-Несское чудовище выглядит иначе

НЛО вызвали переполох в Индии

Отпечаток пальца библейского персонажа

Повернуть время вспять и стереть ошибки

Провал ключевой для колонизации Луны миссии

Связь между депрессией и датой рождения

США намерены оккупировать Луну

Теория о подозрительной активности в космосе

Трюк с квантовой запутанностью

Уфолог ушел в политику

Уфологи обнаружили базу инопланетян

Фильм 'Пришельцы в Америке - дело Паскагулы'

Экзопланеты подсказали размер и состав Планеты Х

Aвcтpaлийcкaя aнoмaльнaя зoнa нaпoминaeт o ceбe

Будущее астрономии на Луне

Вирусное видео с НЛО над Далласом

Вице-президент США хочет исследовать феномен НЛО

Внутри человека скрывается новая форма жизни

Джей Ди Вэнс рассказал о тайне НЛО

Инопланетян заметили над Далласом

Истинное предназначение Туринской плащаницы

Как напрямую обнаружить темную материю

Когда пространство становится временем

Нейтрино и темная материя

Обнаружение Земли-2 имеет решающее значение

Предупреждение Хокинга об инопланетянах и НЛО

Приземление зонда инопланетян на Земле назвали бредом

Туринская плащаница не была положена на Иисуса

Туринская плащаница соответствует барельефу статуи

Человечество скоро достигнет своего пика

Что происходит непосредственно перед ударом молнии

Эволюция древних библейских рукописей

Я заночевала в призрачном пабе Уэльса

Помощь при запое. Как работает детоксикация организма

Американская общественность узнает об НЛО

Вице-президент США Джей Ди Вэнс одержим НЛО

Власти США очарованы неопознанными летающими объектами

Наверх
Яндекс.Метрика