Способ обойти этические ограничения большинства ИИ
Учёные Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта обнаружили уязвимость, присущую большинству современных ИИ-моделей. Она позволяет обходить установленные их разработчиками морально-этические барьеры. В результате основанные на этих моделях чат-боты выдают рецепты изготовления взрывчатых устройств, пишут вредоносный код, а также поддерживают разговоры в нацистском и сексистском ключах, передаёт Fortune. Предложенный исследователями метод атаки в той или иной степени срабатывает на самых передовых современных системах: OpenAI ChatGPT в версиях на GPT-3.5 и GPT-4, Microsoft Bing Chat, Google Bard и Anthropic Claude 2. Но ещё больше он актуален для открытых больших языковых моделей вроде Meta LLaMA — успех гарантирован, когда у злоумышленника есть доступ ко всей структуре ИИ, и в первую очередь к синаптическим весам. Синаптические веса — коэффициенты, показывающие, какое влияние узел нейросети оказывает на другие узлы, с которыми он связан. Зная эту информацию, можно создать алгоритм автоматического поиска суффиксов, которые добавляются к запросу, чтобы гарантированно преодолеть ограничения системы.
Человеку эти суффиксы могут показаться по большей части длинной последовательностью случайных символов и бессмысленным набором слов. Но строка из таких символов способна обмануть большую языковую модель и заставить её дать ответ, которого ждёт организатор атаки. Схожим образом работают предложенные экспериментаторами методы атаки — например, можно предписать чат-боту начать ответ со слов «Конечно, вот...», и он в отдельных случаях обходит установленные ограничения. Но подобранные программными методами суффиксы выходят далеко за рамки подобных обходных путей и работают более эффективно. Чат-бот Vicuna, основанный на первой версии Meta LLaMA, позволяет производит атаки с успехом почти 100 %. Обновлённая модель LLaMA 2 имеет более надёжную защиту и позволяет добиваться успеха в 56 % случаев — но при попытке обрушить хотя бы один барьер из нескольких, которые подвергаются атаке одновременно, вероятность взлома повышается 84 %. Схожие показатели успеха демонстрируются при работе с чат-ботами на других открытых моделях, таких как EleutherAI Pythia или созданной в ОАЭ системе Falcon.
К некоторому удивлению самих учёных, те же самые суффиксы хорошо работают и против проприетарных моделей, разработчики которых открывают общий доступ только к интерфейсу запросов — в таких случаях доступ к весам отсутствует, и программу поиска суффиксов запустить не получается. Учёные предложили простое объяснение такому эффекту: большинство открытых моделей обучалось на общедоступных диалогах пользователей с бесплатной версией ChatGPT на основе OpenAI GPT-3.5. Поэтому неудивительно, что и бесплатная ChatGPT демонстрирует 86,6 % успеха. Высокий успех атак на закрытую Google Bard на базе PaLM 2 (66 %) может указывать на существование каких-то иных скрытых механизмов — или в Google просто покривили душой, когда заявили, что не обучали Bard на данных ChatGPT.
Примечательно, что обученная по уникальным методикам Anthropic Claude 2 демонстрирует всего 2,1 % успеха, хотя есть некоторые способы обойти эту защиту, например, предложив ИИ изобразить готовность помочь или представить, что это просто игра — тогда атаки срабатывают в 47,9 % случаев. Учёные подчёркивают, что их открытие отнюдь не означает, что мощные ИИ-модели следует изъять из общего доступа — напротив, без доступа к исходному коду этого открытия никогда бы не случилось. А перевод больших языковых моделей на проприетарные лицензии означал бы, что автоматизированные методы атаки остались бы доступными только для киберпреступников с хорошим финансированием и поддерживаемых властями стран кибервойск, а независимые учёные никогда не нашли бы способов защиты от них.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Меню
Архив материалов
Проекты наших читателей
Контакты исследователей
Подписка на новости
Проекты
Новости криптозоологии
Хроники природных катастроф
Новости
26.02.2002 - 05.07.2002
05.08.2002 - 23.10.2002 (562)
24.10.2002 - 17.01.2003 (585)
20.01.2003 - 07.04.2003 (709)
08.04.2003 - 01.08.2003 (709)
04.08.2003 - 18.11.2003 (763)
19.11.2003 - 31.03.2004 (721)
01.04.2004 - 13.08.2004 (825)
16.08.2004 - 22.11.2004 (782)
23.11.2004 - 28.03.2005 (756)
29.03.2005 - 29.07.2005 (807)
30.08.2005 - 02.12.2005 (927)
05.12.2005 - 21.04.2006 (912)
24.04.2006 - 23.10.2006 (999)
24.10.2006 - 03.05.2007 (999)
04.05.2007 - 28.01.2008 (999)
29.01.2008 - 12.01.2009 (999)
13.01.2009 - 07.07.2009 (966)
22.08.2009 - 21.01.2010 (996)
22.01.2010 - 22.06.2010 (1000)
23.06.2010 - 14.01.2011 (1042)
17.01.2011 - 31.05.2011 (1008)
01.06.2011 - 03.11.2011 (1003)
07.11.2011 - 16.03.2012 (996)
19.03.2012 - 09.06.2012 (1009)
13.06.2012 - 07.09.2012 (988)
10.09.2012 - 19.11.2012 (1004)
20.11.2012 - 14.01.2013 (1015)
15.01.2013 - 22.02.2013 (1000)
23.02.2013 - 08.04.2013 (991)
09.04.2013 - 31.05.2013 (1015)
01.06.2013 - 18.07.2013 (992)
19.07.2013 - 03.09.2013 (1014)
04.09.2013 - 20.10.2013 (1001)
21.10.2013 - 02.12.2013 (1001)
03.12.2013 - 18.01.2014 (997)
19.01.2014 - 07.03.2014 (994)
08.03.2014 - 24.04.2014 (1000)
25.04.2014 - 18.06.2014 (1005)
19.06.2014 - 15.08.2014 (1019)
16.08.2014 - 07.10.2014 (1006)
08.10.2014 - 16.11.2014 (995)
17.11.2014 - 25.12.2014 (1004)
26.12.2014 - 09.02.2015 (989)
10.02.2015 - 20.03.2015 (998)
21.03.2015 - 22.04.2015 (1001)
23.04.2015 - 29.05.2015 (997)
29.05.2015 - 30.06.2015 (995)
30.06.2015 - 29.07.2015 (990)
29.07.2015 - 26.08.2015 (998)
27.08.2015 - 24.09.2015 (988)
25.09.2015 - 22.10.2015 (991)
23.10.2015 - 18.11.2015 (1000)
18.11.2015 - 16.12.2015 (990)
17.12.2015 - 23.01.2016 (1000)
24.01.2016 - 25.02.2016 (1000)
26.02.2016 - 24.03.2016 (1000)
24.03.2016 - 16.04.2016 (990)
17.04.2016 - 19.05.2016 (999)
20.05.2016 - 22.06.2016 (993)
23.06.2016 - 01.08.2016 (995)
02.08.2016 - 12.09.2016 (990)
13.09.2016 - 25.10.2016 (989)
26.10.2016 - 05.12.2016 (995)
06.12.2016 - 15.01.2017 (995)
16.01.2017 - 23.02.2017 (990)
24.02.2017 - 03.04.2017 (994)
04.04.2017 - 18.05.2017 (1000)
19.05.2017 - 05.07.2017 (1000)
06.07.2017 - 24.08.2017 (1000)
25.08.2017 - 06.10.2017 (991)
07.10.2017 - 15.11.2017 (990)
16.11.2017 - 24.12.2017 (1000)
25.12.2017 - 04.02.2018 (990)
05.02.2018 - 17.03.2018 (1000)
18.03.2018 - 02.05.2018 (990)
03.05.2018 - 11.06.2018 (1000)
12.06.2018 - 18.07.2018 (990)
19.07.2018 - 24.08.2018 (1000)
25.08.2018 - 02.10.2018 (1000)
03.10.2018 - 07.11.2018 (990)
08.11.2018 - 13.12.2018 (990)
14.12.2018 - 23.01.2019 (1000)
24.01.2019 - 02.03.2019 (1000)
03.03.2019 - 12.04.2019 (1010)
13.04.2019 - 23.05.2019 (990)
24.05.2019 - 03.07.2019 (1000)
04.07.2019 - 11.08.2019 (1000)
12.08.2019 - 16.09.2019 (990)
17.09.2019 - 26.10.2019 (1000)
27.10.2019 - 12.12.2019 (1000)
13.12.2019 - 25.01.2020 (1000)
26.01.2020 - 06.03.2020 (990)
07.03.2020 - 16.04.2020 (1010)
17.04.2020 - 19.05.2020 (1000)
20.05.2020 - 25.06.2020 (990)
26.06.2020 - 04.08.2020 (995)
05.08.2020 - 16.09.2020 (1005)
17.09.2020 - 26.10.2020 (990)
27.10.2020 - 27.11.2020 (990)
28.11.2020 - 07.01.2021 (990)
08.01.2021 - 15.02.2021 (1000)
16.02.2021 - 31.03.2021 (1000)
01.04.2021 - 12.05.2021 (1000)
13.05.2021 - 14.06.2021 (990)
15.06.2021 - 26.07.2021 (980)
27.07.2021 - 31.08.2021 (990)
01.09.2021 - 07.10.2021 (1000)
08.09.2021 - 07.11.2021 (1000)
08.11.2021 - 10.12.2021 (1000)
11.12.2021 - 24.01.2022 (990)
25.01.2022 - 04.03.2022 (1000)
05.03.2022 - 10.04.2022 (990)
11.04.2022 - 17.05.2022 (1000)
18.05.2022 - 23.06.2022 (980)
24.06.2022 - 31.07.2022 (990)
01.08.2022 - 13.09.2022 (990)
14.09.2022 - 21.10.2022 (990)
22.10.2022 - 29.11.2022 (1000)
30.11.2022 - 22.01.2023 (1000)
23.01.2023 - 02.03.2023 (990)
03.03.2023 - 21.04.2023 (1000)
22.04.2023 - 13.06.2023 (990)
14.06.2023 - 02.08.2023 (1000)
03.08.2023 - 21.09.2023 (1000)
22.09.2023 - 06.11.2023 (990)
07.11.2023 - 24.12.2023 (990)
25.12.2023 - 18.02.2024 (1000)
19.02.2024 - 05.04.2024 (990)
06.04.2024 - 25.05.2024 (1000)
26.05.2024 - 26.07.2024 (1000)
26.07.2024 - 25.08.2024 (990)
26.08.2024 - 28.09.2024 (980)
29.09.2024 - 01.11.2024 (1000)
02.11.2024 - 02.12.2024 (980)
03.12.2024 - 08.01.2025 (990)
09.01.2025 - 09.02.2025 (1000)
10.02.2025 - 20.03.2025 (1000)
21.03.2025 - 03.05.2025 (990)
04.05.2025 - ...
Статьи
Статьи: раздел 1 (1024)
Статьи: раздел 2 (1006)
Статьи: раздел 3 (1000)
Статьи: раздел 4 (1044)
Статьи: раздел 5 (1001)
Статьи: раздел 6 (1000)
Статьи: раздел 7 (1000)
Статьи: раздел 8 (1013)
Статьи: раздел 9 (1000)
Статьи: раздел 10 (1000)
Статьи: раздел 11 (329)
Статьи: раздел 12 (1000)
Статьи: раздел 13 (730)
Лента новостей

Вероятность погибнуть от удара астероида

Верующие видят лицо Иисуса на Туринской плащанице

Генетическое тестирование инопланетных мумий

Заметили пробуждение сверхмассивной черной дыры

Исследование бурного прошлого Венеры

Кролики-франкенштейны захватывают США

Медленно вращающиеся ореолы темной материи

Метеорит Джорджии на 20 млн лет старше самой Земли

Механизм, который восстановит ваши глаза

НАСА призывают отправить сообщение объекту 3I/ATLAS

Одна сторона Земли теряет тепло гораздо быстрее

Описание проверки оборотней в Пентагоне

Пентагон пытается разоблачить объект Агуадильи

Полная картина ночных облаков на Марсе

Потрясающий вид на третьего межзвездного гостя

Проще ли добывать астероиды на Луне, чем сами астероиды

Разгадали тайну пропажи космической серы

Сняли невидимый глазом НЛО

Тайна катастрофы Амелии Эрхарт может быть раскрыта

Утаенные данные о вторжении НЛО на Восточное побережье

Анализ и присвоение названия новому метеориту

Встреча с зелеными человечками в Кентукки

Зафиксировали самый удаленный быстрый радиовсплеск

Зонд Люси мог бы посетить еще один астероид

ИИ научился быть злым без чьих-либо указаний

Кинолог запечатлел очень быстрый НЛО

Метеорит пробил дыру в крыше дома в Джорджии

Мужчина, выгуливая свою собаку, запечатлел НЛО

На экзолунах у Альфа Центавра может быть жизнь

Планеты, на которых нет воды, могут производить жидкости

Появление новой статуи на острове Пасхи

Пропавший самолет Амелии Эрхарт найден

Пугающая информация о таинственном межзвездном объекте

Расы инопланетян, о которых известно властям США

Сфера Дайсона поможет воскрешать мертвых

Сходство между околосмертными переживаниями и наркотиками

Туринская плащаница. Это кто-то другой, а не Иисус

Физический варп-двигатель возможен

Черный куб замечен над базой ВВС Райт-Паттерсон

Шокирующее открытие после падения метеорита в Джорджии

База инопланетян в кратере Лаут на Марсе

Видел ли Дональд Трамп НЛО

Древние постройки обнаружили на Меркурии

Завод по производству лунного кирпича

Загадочная комета, прилетевшая из другой системы

НАСА изучает загадочную межзвездную комету

Научились превращать ртуть в золото

НЛО заметили над штатом Нью-Джерси

НЛО наблюдает за семьей в Индии

НЛО оставляет дымный след над Невадой

Обнаружена самая массивная черная дыра

Обнаружены первые звезды Вселенной

Существуют четыре различных вида инопланетян

США используют технологии инопланетян

Таинственный гигант, скрывающийся за черными дырами

Три фигуры появляются на Солнце

Удивительный полет к черной дыре

Федеральный советник по науке призывает изучать НЛО

Экзопланета у ближайшей солнцеподобной звезды

Экзотические вихри на картине 'Звездная ночь'

Гигантский пузырь звезды-сверхгиганта удивляет

Когда марсианский грунт распадется на части

Космическая гонка касается не только крупных стран

Криптотерриториальная гипотеза

Литологические особенности ландшафта Марса

Молодая звезда начинает взрываться

НАСА спешит разместить ядерные реакторы на Луне и Марсе

НАСА ускоренно разрабатывает лунный реактор

Недавние вулканические и термальные изменения на Марсе

Поиск жизни на Марсе был явной целью астросообщества

Почему кабинет Трампа дает разные ответы о НЛО

С помощью ChatGPT пишется все больше научных статей

Самая ранняя черная дыра во Вселенной

Свидетельства о кровавом ритуале на Туринской плащанице

Столкновение облаков приводит к вездообразованию

Тайна Бермудского треугольника раскрыта

Тайны космического винограда

Тайны протопланетных дисков

Что нужно знать о Лох-Несском чудовище

Шестеро преемников могли бы исследовать Марс

Бесконечная зима в Европе все ближе

Библейские руины - ключ к тайне Ковчега завета

Библейское море становится кроваво-красным

Власти США знают о четырех расах инопланетян

Изображение Плащаницы сделано со скульптуры

Конгрессмен рассказал об инопланетянах

Миру следует разработать политику в области НЛО

На Марсе нашли совершенно новый минерал

Наблюдение за НЛО в Уилтшире

Новые подсказки в поисках Восьмого чуда

Обнаружена экзопланета в обитаемой зоне Альфы Центавра

Популярные места для наблюдения НЛО в США

Страх охватил деревни в Австралии из-за НЛО

Существо в реке Хан в Сеуле стало вирусным

Тайна Атлантиды становится все более загадочной

Тайна человеческого сердца Леонардо да Винчи

Тулси Габбард возрождает теорию заговора о НЛО

Ученые предсказывают Конец света

Центр изучения НЛО открывает набор учителей

Что означает интерес Джей Ди Вэнса к НЛО

Безумный план посетить черную дыру

Загадочные временные явления в тени Земли

Загадочный межзвездный обьект - инопланетный корабль

Закрыли изучавший телепортацию институт МГУ

Заметили облако в форме рестлера Халка Хогана

Затонувший город расскажет о Ноевом ковчеге

Межзвездная экспедиция к черной дыре

Межзвездный объект имеет разумный дизайн

Мрачное предупреждением о 15 годах антиутопии

НЛО сняли в холмах Малверн

Новое открытие в Туринской плащаницы

Новый вид физики, не виданный ранее

Новый окрас кошек противоречит генетическим ожиданиям

Пилот уверен, что нашел самолет Амелии Эрхарт

Признаки древней жизни на Красной планете

Самое странное кольцо Сатурна

Суперинтеллект роботов может привести к Апокалипсису

Существуют другие видео маневров НЛО у Нимица

Сфера Буга - часть скрытой планетарной сети

Таинственные шары требуют научного изучения

Мраморные памятники фото и цена

Автомобилист принял телескоп за НЛО

Великая пирамида на тысячелетия старше фараонов

Вера в возможность существования внеземной жизни

Давайте сохраним Луну

Директор национальной разведки рассказала о НЛО

Доказательство приземления НЛО тысячи лет назад

ИИ ChatGPT превратили в похитителя данных

ИИ вскоре получит контроль над ядерным оружием

Инопланетный зонд нужно изучить

Инопланетяне живут рядом с нами

Направляясь к системе Проксимы Центавра

Огромный подводный город недалеко от Ноева ковчега

Орбита - игровая площадка для миллиардеров

Планеты-изгои могут образовывать планетные системы

Познакомьтесь с черными дырами среднего размера

Путешествие к экзопланете может занять 250 лет

Суперсталь выведет термоядерный синтез на новый уровень

Там могут быть инопланетяне

Теории о происхождении темной материи

Футуристический корабль для полета к звездам

Безумная теория астрофизика

Бесследное исчезновение самолета у Австралии

Взгляните на индонезийский фестиваль НЛО

Все люди могут быть пришельцами с Марса

Деревушка в Шотландии - столица НЛО Великобритании

Зеленый НЛО, похожий на кальмара, над Далласом

Кто первым построит ядерный реактор на Луне

Люди развили две ноги не для того, чтобы бегать

Металлический шар над вулканом в Мексике

Мужчина установил связь с умершим сыном

Нечто в доме приставало по ночам к девочкам

НЛО оказался зеркалом телескопа

НЛО потерпел крушение у Стокгольма

Стоит ли бояться приближающейся кометы

Странное лицо на горе в Чили

Страшное предупреждение Хокинга об НЛО

Таинственный межзвездный объект неестественен

Уфологи пытаются реформировать Великобританию

Хокинг нас предупреждал

Хронология Великой пирамиды не верна

Перепланировка нежилого помещения. Законность и порядок действий

Библейское предупреждение о конце света

Вращение Земли таинственным образом ускорилось

Загадочное лицо на вершине горы в Чили

ИИ самостоятельно обнаружил уязвимости в ПО

Конгрессмена проинформировали об инопланетянах

Консультация, данная разоблачителю Дэвиду Грушу

Криптозоолог занялся политикой

Лох-Несское чудовище выглядит иначе

НЛО вызвали переполох в Индии

Отпечаток пальца библейского персонажа

Повернуть время вспять и стереть ошибки

Провал ключевой для колонизации Луны миссии

Связь между депрессией и датой рождения

США намерены оккупировать Луну

Теория о подозрительной активности в космосе

Трюк с квантовой запутанностью

Уфолог ушел в политику

Уфологи обнаружили базу инопланетян

Фильм 'Пришельцы в Америке - дело Паскагулы'

Экзопланеты подсказали размер и состав Планеты Х

Aвcтpaлийcкaя aнoмaльнaя зoнa нaпoминaeт o ceбe

Будущее астрономии на Луне

Вирусное видео с НЛО над Далласом

Вице-президент США хочет исследовать феномен НЛО

Наверх
Яндекс.Метрика