ИИ научили создавать карту собственных мыслей
Команда исследователей из Т-Технологий, Московского физико-технического института (МФТИ) и Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ) разработала новаторский метод, позволяющий проследить «жизненный цикл» отдельных концепций внутри сложных нейронных сетей. Подход получил название SAE Match. Он работает как своего рода магнитно-резонансная томография для искусственного интеллекта, создавая детальную карту того, как абстрактные признаки — «пушистый», «историческое событие» или «радость» — зарождаются, трансформируются и передаются между слоями нейросети. Это фундаментальный прорыв в области интерпретируемости искусственного интеллекта, открывающий путь к созданию более прозрачных, надежных и управляемых систем.
Современные большие языковые модели подобны «черным ящикам». Мы можем восхищаться их способностью писать стихи или программный код, но до недавнего времени практически не понимали, как именно они приходят к своим выводам. Этот недостаток прозрачности — главное препятствие на пути создания по-настоящему безопасного искусственного интеллекта, ведь в глубинах нейронной сети могут скрываться нежелательные предубеждения или опасные логические цепочки. Проблема усугубляется двумя фундаментальными явлениями: полисемантичностью, когда один и тот же нейрон отвечает за несколько несвязанных понятий, и суперпозицией — множество различных признаков «упакованы» в одно и то же математическое пространство. Это похоже на попытку понять смысл романа, в котором каждое слово имеет десяток значений, а предложения могут описывать несколько событий одновременно.
Одним из ключей к расшифровке этого сложного кода стали разреженные автоэнкодеры (SAE) — специальные нейросетевые «словари», которые способны извлекать из активности нейронов отдельные, осмысленные концепции, так называемые моносемантичные признаки. Однако у этого подхода было серьезное ограничение: он позволял заглянуть лишь в один-единственный слой нейросети. Связи между этими концепциями на разных уровнях обработки информации оставались загадкой. Было неясно, является ли понятие «король» на пятом слое тем же самым, что и «король» на двадцатом, или же оно претерпело значительные изменения.
Именно эту задачу — построить мост между отдельными «этажами» нейронной сети — и решили исследователи. Их целью было создать универсальный метод, который мог бы без привлечения огромных массивов данных, лишь анализируя внутреннюю структуру модели, сопоставить признаки на разных слоях и отследить их эволюцию. Команда представила результаты работы на международной конференции ICLR 2025. Статью также опубликовали в виде препринта на научном портале arXiv.
Коллектив ученых разработал алгоритм SAE Match, решающий сложнейшую комбинаторную задачу. Представьте, что у вас есть два словаря для разных языков (два слоя нейросети), в каждом из которых тысячи понятий (признаков). Алгоритм должен найти соответствия, определив, какое понятие из первого словаря наиболее близко по смыслу понятию из второго. SAE Match делает это, минимизируя математическое расстояние между представлениями признаков. Главная сложность — на разных слоях нейросети одни и те же концепции могут иметь разный «масштаб» или «яркость». Решение этой проблемы стало ключевым нововведением. Исследователи разработали технику «свертки параметров» — элегантный математический прием, который учитывает пороги активации признаков и приводит их к единому масштабу перед сравнением. Это позволило добиться очень высокой точности сопоставления.
Результаты экспериментов, проведенных на языковой модели Gemma 2, превзошли все ожидания. Метод не только успешно сопоставлял семантически близкие признаки, что команда подтвердила с помощью внешней большой языковой модели, но и выявил фундаментальные закономерности. Оказалось, большинство концепций в нейросети «живут» и сохраняют свою смысловую стабильность на протяжении примерно пяти слоев, после чего либо исчезают, либо трансформируются во что-то новое. Самым поразительным доказательством эффективности метода стала возможность «хирургического вмешательства» в работу нейросети. Используя созданную карту связей, ученые смогли полностью «вырезать» один из слоев модели, а затем, с помощью своего алгоритма, «перебросить» информацию через образовавшуюся пропасть, соединив предыдущий слой со следующим. Языковая модель практически не потеряла производительность.
Никита Балаганский, руководитель научной группы LLM Foundations, T-Bank AI Research, аспирант Московского физико-технического института, пояснил: «С помощью нашего метода можно понять, каким образом концепции образуются и изменяются внутри языковых моделей. В дальнейшем мы сможем более точно изучать и контролировать поведение внутри модели. Возможность пропускать некоторые слои и подставлять нашу «карту» вместо них без потери качества, показывает, что мы верно представляем механизмы внутри».
Главное отличие и преимущество разработанного подхода — его полная независимость от данных. Для построения карты связей не нужно прогонять через модель терабайты текстов. Исследователи анализируют исключительно веса и параметры модели. Это делает метод чрезвычайно эффективным и универсальным. Он не просто описывает, что происходит внутри нейросети, но и позволяет предсказывать ее поведение и даже целенаправленно его изменять.
Во-первых, это мощный инструмент для обеспечения безопасности искусственного интеллекта. Анализируя пути эволюции концепций, можно выявлять и нейтрализовывать скрытые вредоносные или предвзятые логические цепочки. Во-вторых, это путь к оптимизации. Понимая, какие слои или признаки являются избыточными, можно «упрощать» модели, делая их более быстрыми и менее ресурсоемкими без потери производительности. В-третьих, это открывает двери для создания гибридных моделей, где части одной нейросети можно будет эффективно комбинировать с частями другой. В конечном счете, это исследование закладывает основу для перехода от «черных ящиков» к понятным и контролируемым системам искусственного интеллекта.
В будущем это позволит нам не только находить и исправлять ошибки в существующих моделях, но и проектировать новые архитектуры, которые будут более эффективными и безопасными.
В будущем команда планирует составить полные «генеалогические древа» для ключевых концепций в самых больших языковых моделях, а также исследовать более сложные, нелинейные взаимодействия между признаками. Разработанный инструмент может стать стандартом в новой области — механистической интерпретируемости, которая стремится превратить загадочное искусство создания искусственный интеллект в точную науку.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Отправить донат на поддержку проекта "Аномальные новости"
Меню
Архив материалов
Проекты наших читателей
Контакты исследователей
Подписка на новости
Проекты
Новости криптозоологии
Хроники природных катастроф
Новости
26.02.2002 - 05.07.2002
05.08.2002 - 23.10.2002 (562)
24.10.2002 - 17.01.2003 (585)
20.01.2003 - 07.04.2003 (709)
08.04.2003 - 01.08.2003 (709)
04.08.2003 - 18.11.2003 (763)
19.11.2003 - 31.03.2004 (721)
01.04.2004 - 13.08.2004 (825)
16.08.2004 - 22.11.2004 (782)
23.11.2004 - 28.03.2005 (756)
29.03.2005 - 29.07.2005 (807)
30.08.2005 - 02.12.2005 (927)
05.12.2005 - 21.04.2006 (912)
24.04.2006 - 23.10.2006 (999)
24.10.2006 - 03.05.2007 (999)
04.05.2007 - 28.01.2008 (999)
29.01.2008 - 12.01.2009 (999)
13.01.2009 - 07.07.2009 (966)
22.08.2009 - 21.01.2010 (996)
22.01.2010 - 22.06.2010 (1000)
23.06.2010 - 14.01.2011 (1042)
17.01.2011 - 31.05.2011 (1008)
01.06.2011 - 03.11.2011 (1003)
07.11.2011 - 16.03.2012 (996)
19.03.2012 - 09.06.2012 (1009)
13.06.2012 - 07.09.2012 (988)
10.09.2012 - 19.11.2012 (1004)
20.11.2012 - 14.01.2013 (1015)
15.01.2013 - 22.02.2013 (1000)
23.02.2013 - 08.04.2013 (991)
09.04.2013 - 31.05.2013 (1015)
01.06.2013 - 18.07.2013 (992)
19.07.2013 - 03.09.2013 (1014)
04.09.2013 - 20.10.2013 (1001)
21.10.2013 - 02.12.2013 (1001)
03.12.2013 - 18.01.2014 (997)
19.01.2014 - 07.03.2014 (994)
08.03.2014 - 24.04.2014 (1000)
25.04.2014 - 18.06.2014 (1005)
19.06.2014 - 15.08.2014 (1019)
16.08.2014 - 07.10.2014 (1006)
08.10.2014 - 16.11.2014 (995)
17.11.2014 - 25.12.2014 (1004)
26.12.2014 - 09.02.2015 (989)
10.02.2015 - 20.03.2015 (998)
21.03.2015 - 22.04.2015 (1001)
23.04.2015 - 29.05.2015 (997)
29.05.2015 - 30.06.2015 (995)
30.06.2015 - 29.07.2015 (990)
29.07.2015 - 26.08.2015 (998)
27.08.2015 - 24.09.2015 (988)
25.09.2015 - 22.10.2015 (991)
23.10.2015 - 18.11.2015 (1000)
18.11.2015 - 16.12.2015 (990)
17.12.2015 - 23.01.2016 (1000)
24.01.2016 - 25.02.2016 (1000)
26.02.2016 - 24.03.2016 (1000)
24.03.2016 - 16.04.2016 (990)
17.04.2016 - 19.05.2016 (999)
20.05.2016 - 22.06.2016 (993)
23.06.2016 - 01.08.2016 (995)
02.08.2016 - 12.09.2016 (990)
13.09.2016 - 25.10.2016 (989)
26.10.2016 - 05.12.2016 (995)
06.12.2016 - 15.01.2017 (995)
16.01.2017 - 23.02.2017 (990)
24.02.2017 - 03.04.2017 (994)
04.04.2017 - 18.05.2017 (1000)
19.05.2017 - 05.07.2017 (1000)
06.07.2017 - 24.08.2017 (1000)
25.08.2017 - 06.10.2017 (991)
07.10.2017 - 15.11.2017 (990)
16.11.2017 - 24.12.2017 (1000)
25.12.2017 - 04.02.2018 (990)
05.02.2018 - 17.03.2018 (1000)
18.03.2018 - 02.05.2018 (990)
03.05.2018 - 11.06.2018 (1000)
12.06.2018 - 18.07.2018 (990)
19.07.2018 - 24.08.2018 (1000)
25.08.2018 - 02.10.2018 (1000)
03.10.2018 - 07.11.2018 (990)
08.11.2018 - 13.12.2018 (990)
14.12.2018 - 23.01.2019 (1000)
24.01.2019 - 02.03.2019 (1000)
03.03.2019 - 12.04.2019 (1010)
13.04.2019 - 23.05.2019 (990)
24.05.2019 - 03.07.2019 (1000)
04.07.2019 - 11.08.2019 (1000)
12.08.2019 - 16.09.2019 (990)
17.09.2019 - 26.10.2019 (1000)
27.10.2019 - 12.12.2019 (1000)
13.12.2019 - 25.01.2020 (1000)
26.01.2020 - 06.03.2020 (990)
07.03.2020 - 16.04.2020 (1010)
17.04.2020 - 19.05.2020 (1000)
20.05.2020 - 25.06.2020 (990)
26.06.2020 - 04.08.2020 (995)
05.08.2020 - 16.09.2020 (1005)
17.09.2020 - 26.10.2020 (990)
27.10.2020 - 27.11.2020 (990)
28.11.2020 - 07.01.2021 (990)
08.01.2021 - 15.02.2021 (1000)
16.02.2021 - 31.03.2021 (1000)
01.04.2021 - 12.05.2021 (1000)
13.05.2021 - 14.06.2021 (990)
15.06.2021 - 26.07.2021 (980)
27.07.2021 - 31.08.2021 (990)
01.09.2021 - 07.10.2021 (1000)
08.09.2021 - 07.11.2021 (1000)
08.11.2021 - 10.12.2021 (1000)
11.12.2021 - 24.01.2022 (990)
25.01.2022 - 04.03.2022 (1000)
05.03.2022 - 10.04.2022 (990)
11.04.2022 - 17.05.2022 (1000)
18.05.2022 - 23.06.2022 (980)
24.06.2022 - 31.07.2022 (990)
01.08.2022 - 13.09.2022 (990)
14.09.2022 - 21.10.2022 (990)
22.10.2022 - 29.11.2022 (1000)
30.11.2022 - 22.01.2023 (1000)
23.01.2023 - 02.03.2023 (990)
03.03.2023 - 21.04.2023 (1000)
22.04.2023 - 13.06.2023 (990)
14.06.2023 - 02.08.2023 (1000)
03.08.2023 - 21.09.2023 (1000)
22.09.2023 - 06.11.2023 (990)
07.11.2023 - 24.12.2023 (990)
25.12.2023 - 18.02.2024 (1000)
19.02.2024 - 05.04.2024 (990)
06.04.2024 - 25.05.2024 (1000)
26.05.2024 - 26.07.2024 (1000)
26.07.2024 - 25.08.2024 (990)
26.08.2024 - 28.09.2024 (980)
29.09.2024 - 01.11.2024 (1000)
02.11.2024 - 02.12.2024 (980)
03.12.2024 - 08.01.2025 (990)
09.01.2025 - 09.02.2025 (1000)
10.02.2025 - 20.03.2025 (1000)
21.03.2025 - 03.05.2025 (990)
04.05.2025 - ...
Статьи
Статьи: раздел 1 (1024)
Статьи: раздел 2 (1006)
Статьи: раздел 3 (1000)
Статьи: раздел 4 (1044)
Статьи: раздел 5 (1001)
Статьи: раздел 6 (1000)
Статьи: раздел 7 (1000)
Статьи: раздел 8 (1013)
Статьи: раздел 9 (1000)
Статьи: раздел 10 (1000)
Статьи: раздел 11 (329)
Статьи: раздел 12 (1000)
Статьи: раздел 13 (730)
Лента новостей

Влияние химиотрасс на климат

Два солнца лучше, чем одно

Какие наиболее распространенные экзопланеты

Космическое командование США создает НЛО

Кусок металла выпал из самолета Амелии Эрхарт

Марсоходы раскрывают две стороны Марса

Межпланетный маршрут может ускорить полеты на Марс

Мощный двигатель на литиевом топливе для полетов на Марс

НЛО обманывают американских военных

Обнаружено скрытое состояние воды

Опубликуйте файлы об НЛО, если они есть

Осваиваем Солнечную систему, чтобы построить новый мир

Охота за двойниками Земля-Луна в обитаемой зоне

Поиск экзопланет, который меняет все

Помощь в поисках воды на Марсе

Потенциальные признаки жизни на далеких планетах

Прогнозы извержений вулканов на Земле и Венере

Проектирование электростанций для миссий на Марс

Создали огромное количество виртуальных вселенных

Трамп дразнит публикацией очень интересных файлов

Атомные часы нового поколения

Богатая металлами точка марсианского озера

В районе Зоны 51 произошло 17 землетрясений за день

Вся жизнь на Земле произошла от одного предка

Дональд Трамп дразнит очень интересными файлами об НЛО

Информация о зарождении Вселенной

Инфразвук снова обвинили в создании привидений

Какие типы внеземных цивилизаций вымирают

Крушение НЛО в Уайт-Сэндс до сих пор вызывает споры

Люди могут строить за пределами Земли

На комете 3I-ATLAS очень много полутяжелой воды

Обнаружил ли марсоход признаки древней жизни

Обнаружили экзо-Юпитер с похожими облаками

Предел ускорения частиц в пульсарных туманностях

Представлен телескоп для обнаружения экзопланет

Работа и жизнь в открытом космосе

Таинственные облака вблизи черной дыры

Трамп держит нас в напряжении

ФБР расследует смерти и исчезновения ученых

Что будет в новой партии файлов об НЛО

Богатая серой ртутная магма ведет себя иначе

ВВС США создали истории об инопланетянах в Зоне 51

Вспоминая уфолога Ника Поупа

Грибы могут выжить на Марсе и в космосе

Грунт пригоден для строительства дорог на Луне

Заброшенная парковка для НЛО

Лазер, вдохновленный черными дырами

Межпространственные существа существуют

Место рождения космических бакиболов

Мистические места Кировской области

Настоящая причина смерти Ника Поупа

Невиданные ранее органические соединения Марса

Пределы самовзаимодействия бозона Хиггса

Пригодные для жизни зоны вокруг маленьких звезд

Проблема космологической постоянной

Сверхактивный источник быстрых радиовсплесков

Сообщения об НЛО могут поступать волнами

Странная серия землетрясений вблизи Зоны 51

США вывезли архивы об охоте СССР на НЛО

Что заставляет магнитный хвост Марса колебаться

Администрация Трампа опубликует записи об НЛО

Два внешних кольца Урана имеют разное происхождение

Джей Ди Вэнсу нужно быть аккуратней с высказываниями

Заменит ли ИИ людей-ученых

Заявления родителей Чандры Леви об НЛО

Зона 51 сотрясается от таинственных землетрясений

Инопланетяне прибыли из обреченного будущего Земли

Лучший способ поиска внеземного разума

Люди могут вырастить новые зубы всего за 4 года

Могла ли Чандра Леви быть убитой из-за НЛО

НЛО обгоняет истребители F-18

Пилоты видели очень странные вещи

Программа исследования НЛО - 'Space Tiger Team'

Разгадали главную тайну обоняния

Разоблачения НЛО и исследования паранормальных явлений

Республиканец делится мыслями о Зоне 51

Скоро будут опубликованы очень интересные файлы об НЛО

Струи черной дыры демонстрируют огромную мощь

Что мы знаем о пропавших и погибших ученых

Эффект домино от солнечных вспышек

Вещи, в которые вы не поверите

Демонические НЛО могут спровоцировать глобальную панику

Загадочные землетрясения вблизи Зоны 51

Закономерность, стоящая за землетрясениями

Комиссия никогда не общалась с пилотами по делу GOFAST

Люди созданы для того, чтобы жить намного дольше

Невероятные наблюдения пилотов привлекают политиков

Пилоты видели такое, во что вы бы не поверили

Полное раскрытие информации об НЛО близко

Призрачные частицы сохраняют массу в скрытом измерении

Разоблачители НЛО заявляют о кампаниях запугивания

Самопроизвольное возгорание человека. Факты и теории

Создан идеальный сценарий для фиксации НЛО

США в ближайшее время опубликуют файлы об НЛО

Тайна Рендлшемского леса

Трамп дразнит публикацией файлов об НЛО

Файлы об НЛО будут опубликованы в ближайшем будущем

Что представляет собой программа ВВС США 'Янки Блю'

Элизондо принимает участие в поиске пропавших ученых

Ярко-оранжевый шар замечен над Сассексом

Администрация США планирует опубликовать данные НЛО

В сообществе футурологов бытует противоречивая идея

Генерала обвиняют в предвзятом отношении к НЛО

Дональд Трамп обещает скорое обнародование файлов НЛО

Загадочный проект 'Янки Блю'

Загадочный случай самовозгорания

Инопланетяне уже живут среди нас

Историк восстановил утраченный отрывок Библии

Как образовались гигантские черные дыры

Количество поддельных сайтов об НЛО растет

НЛО - отвлекающий маневр

НЛО - это не пустяк

Пилот королевских ВВС видит будущее

Погиб очередной военный специалист по НЛО

Президент США дразнит общественность

Президент Трамп раскроет материалы о НЛО

Размышляя о тайне гравитационной постоянной

Трамп в ближайшее время раскроет файлы об НЛО

Ученые ищут внеземную жизнь со времен Аристотеля

Что на самом деле скрывается под Антарктидой

Геймпад Xbox не подключается к приставке или компьютеру

Генерал ВМС называет бывшего шефа AARO лжецом

Глава Anthropic предрёк исчезновение инженерных профессий

Дементор замечен над Астаной

Еврей из НЛО

Загадочное исчезновение экипажа корабля

Инопланетяне, кровь и Белый дом

Кем был уфолог Дэвид Уилкок

Несмотря на конфликт, Белый дом ведёт переговоры с Anthropic

НЛО выводят из строя ядерное оружие с 1960-х годов

Новые откровения о НЛО и почему это не случайность

Общественник предложил создать музей уфологии

Он знал много ядерных секретов

Они маскируются под дроны

Они нашли черную живую слизь внутри корабля

Пентагон купил ИИ Гугла

Сущности предупредили чиновников о начале их войны с Богом

У американцев с инопланетянами всё давно на мази

Уфолог Ник Поуп скончался в возрасте 60 лет

Частое использование ИИ влияет на мозг

Чешуя дракона обнаружена на Марсе

Время может двигаться и быстро, и медленно одновременно

Галактики растут вокруг черных дыр

Древний марсианский океан существовал

Зафиксировано изменение состава кометы 3I-ATLAS

Инопланетная жизнь может скрываться у всех на виду

Камера запечатлела Существо во время ограбления

Крах майя был вызван климатическими колебаниями

Метан выделяется из межзвездной кометы 3I-ATLAS

Метан обнаружен на гигантской экзопланете

Новая группа крови, которая есть только у трех человек

Опасения по поводу сокрытия информации об НЛО

Пентагон согласовывал позиции с Луисом Элизондо

Постоянно меняющаяся многопланетная система

Путешественник во времени прибыл из 2582 года

США десятилетиями проводили эксперименты с НЛО

Тайна НЛО в Уайт-Маунтинс

Темный вулканический пепел Марса

Трехмерная карта меняет представление о Вселенной

Человечество упускает что-то важное об НЛО

Я единственный человек в постапокалиптическом мире

Американская лаборатория изучала НЛО

Гигантская жуткая тень на Марсе сильно выросла

Гравитация подчиняется законам Ньютона и Эйнштейна

Доказательства существования магнетизма в звездах

Дональд Трамп приказал обнародовать досье об НЛО

Инопланетяне могут подтвердить свое существование

Информатор об НЛО умер от передозировки

Источник загадочной дымки в атмосфере Венеры

Как газ превращается в диски, формирующие планеты

Может ли темная материя образоваться из черных дыр

НАСА подтвердило дату сближения с Апофисом

Открытие на острове Пасхи может переписать историю

Планетам требуется больше воды для поддержания жизни

Разоблачитель НЛО скончался накануне дачи показаний

Темная материя объясняет появление ранних черных дыр

Теория заговора привлекает внимание законодателей

Теперь 13 погибших или пропавших без вести

Трамп обещает расследовать гибель ученых-уфологов

Федералы встречались по поводу НЛО в 1990-х годах

Черные дыры вызывают вспышки в триллионы солнц

Бытовки в Москве и модульное строительство. Оперативные решения для бизнеса и частного сектора

Давать показания в Конгрессе США опасно для жизни

Загадочная смерть информатора об НЛО

Изучала ли американская лаборатория НЛО

Информатор конгресса умер от наркотической смеси

Наверх
Яндекс.Метрика