12.11.2025. - Математика может раскрыть возможности ИИ

Математика может раскрыть возможности ИИ

Искусственный интеллект (ИИ) становится все более распространенным, он интегрируется в приложения для телефонов, поисковые системы и платформы социальных сетей, а также поддерживает множество исследовательских приложений. Особый интерес в последние десятилетия вызывает тип машинного обучения с использованием искусственного интеллекта, называемый глубоким обучением, структура которого основана на нейронных сетях человеческого мозга.

Глубокое обучение лежит в основе больших языковых моделей, используемых, например, в OpenAI ChatGPT и Microsoft Copilot. Более специализированные модели глубокого обучения помогли провести широкий спектр научных исследований, в том числе исследование, получившее Нобелевскую премию по химии в 2024 году, для предсказания структуры сложного белка.

Одним из преимуществ глубокого обучения является его способность распознавать шаблоны или особенности без явного программирования человеком, но этот процесс может быть непрозрачным. Такое качество глубокого обучения, как "черный ящик", вызывает вопросы о том, как именно работают модели, и затрудняет их проверку и оптимизацию.

В следующих вопросах и ответах профессор математики университета Пенсильвании Леонид Берлянд и аспирант Алексей Крупчицкий расскажут о том, как они применяют математические принципы для объяснения природы глубокого обучения по принципу "черного ящика".

Что такое глубокое обучение?

Берлянд: Глубокое обучение - это тип машинного обучения, который использует искусственные нейронные сети для изучения данных, подобно тому, как учатся люди. Эти сети, также называемые ANNS, были первоначально разработаны компьютерщиками и основаны на структуре человеческого мозга. ANN состоит из узлов, соединенных ребрами, которые обычно расположены слоями.

Грубо говоря, эти узлы являются "искусственными нейронами", а ребра имитируют синапсы, соединяющие нейроны в мозге. Обучение происходит в процессе обучения, в ходе которого данные вводятся в сеть, а ANN итеративно корректирует веса соединений, чтобы уменьшить ошибки в своих прогнозах.

Для чего используется глубокое обучение?

Берлянд: Глубокое обучение радикально изменило многие области науки и техники, включая распознавание речи, компьютерное зрение и обработку естественного языка. Простым примером может служить проблема классификации, например, когда ваш телефон решает, является ли лицо вами или нет, или классифицирует изображения, например, написанные от руки цифры от 0 до 9. В последнем случае входными данными является изображение, а его пиксели преобразуются в вектор, компонентами которого являются интенсивность каждого пикселя. На выходе изображение цифры классифицируется как 0, 1, 2 и так далее.

В последнее время модели больших языков, основанные на ANN, стали повсеместно популярны благодаря своей превосходной производительности в самых разных областях применения, включая образование, здравоохранение и научные исследования. На самом деле, в этом году ChatGPT еженедельно посещают около 700 миллионов пользователей.

Крупчицкий: Сети глубокого обучения особенно хороши при анализе больших объемов неструктурированных данных, таких как изображения и текст. Они широко используются в чат-ботах, системах распознавания изображений, которые требуются для беспилотных автомобилей, и рекомендательных сервисах, которые используются платформами потокового видео.

Что делает его "глубоким"?

Берлянд: Между входным и выходным уровнями искусственных нейронных сетей есть много скрытых слоев. Например, если у вас есть модель, которая классифицирует цифры от 0 до 9, один слой может фокусироваться на краях изображения, другой - на затемнении определенных пикселей, причем каждый слой определяет все более сложные объекты. Эмпирически было обнаружено, что добавление все большего количества слоев повышает точность ANNS и позволяет нам отвечать на более сложные вопросы. Модель с большим количеством слоев считается "более глубокой", следовательно, "углубленным обучением".

Крупчицкий: Модели глубокого обучения могут содержать сотни таких слоев и миллионы и триллионы параметров. При глубоком обучении люди не программируют явно каждую связь между слоями — модель сама устанавливает эти функции, автоматически обнаруживая соответствующие особенности. Этот тип моделей часто называют "черным ящиком", потому что мы не знаем точно, что происходит. Одна из наших целей - применить математические инструменты для лучшего понимания того, что на самом деле делают эти модели, чтобы обеспечить их надежность и, в конечном счете, повысить производительность.

Что мы можем получить, применяя математические основы для глубокого обучения?

Берлянд: Глубокое обучение было создано и развито в основном компьютерщиками и инженерами. Мы с моим коллегой из Пенсильванского университета Пьером-Эммануэлем Жабеном, заслуженным профессором математики, хотели дать строгое математическое обоснование различным критериям эффективности ANNS, таким как стабильность и сходимость обучающих алгоритмов, или когда алгоритмы можно считать "обученными". Эта мотивация побудила нас написать простой вводный учебник для студентов-математиков старших курсов, в котором определения и концепции глубокого обучения представлены в четкой математической форме.

Я говорю своим студентам, что вы можете быть гонщиком и знать, как управлять автомобилем, но если вы не знаете, что находится внутри, вы не сможете улучшить его или спроектировать новый. Аналогичным образом, математическое понимание глубокого обучения приведет к повышению точности прогнозирования и производительности ANNS.

Крупчицкий: Существует очень много различных вариантов использования глубокого обучения, но лежащая в их основе математика одинакова для всех. Фундаментальное понимание принципов глубокого обучения важно для создания надежных, поддающихся интерпретации и устойчивых сетей.

Специалисты по информатике и инженеры располагают множеством инструментов для повышения производительности ANNS, которые в значительной степени основаны на эмпирических наблюдениях. Мы предлагаем обширные математические теории, которые разрабатывались десятилетиями или даже столетиями и применялись в различных областях, таких как физика, материаловедение и науки о жизни. Использование математики в глубоком обучении помогает нам понять, какие типы задач наиболее подходят для ANNS, как наилучшим образом структурировать сети, как долго они должны обучаться и, в целом, может помочь повысить стабильность.

Источник