Сколько данных нужно для искусственного интеллекта
Одна из фундаментальных проблем при создании эффективных моделей машинного обучения — определение необходимого и достаточного количества данных для их обучения. Слишком мало данных — модель будет неточной, слишком много — неоправданные затраты времени и ресурсов на сбор и обработку информации. Ученые из МФТИ предложили два новых метода для решения этой задачи, основанных на анализе функции правдоподобия с использованием техники бутстрэпа.
Работа опубликована в журнале Computational Mathematics and Mathematical Physics. Правдоподобием называют функцию, которая показывает, насколько вероятны наблюдаемые данные при заданных параметрах модели. В машинном обучении часто максимизируют эту функцию (или ее логарифм – логарифмическую функцию правдоподобия), чтобы найти наилучшие параметры модели.
Вопрос «сколько данных достаточно?» стар как само машинное обучение. От ответа на него напрямую зависит качество прогнозов модели, ее способность обобщать информацию и корректно работать на новых, ранее не просмотренных ею данных, а также экономическая целесообразность всего проекта.
Исторически сложилось несколько подходов к определению достаточного размера выборки. Во-первых, это классические статистические методы. Такие подходы часто опираются на проверку конкретных статистических гипотез о параметрах модели. Например, исследователи могут потребовать, чтобы модель достигала определенной статистической мощности (способности обнаружить эффект, если он есть) при заданном уровне ошибки первого рода (вероятности ложноположительного срабатывания). К таким методам относятся тест множителей Лагранжа, тест отношения правдоподобия, статистика Вальда. Основной их недостаток – они требуют сильных предположений о распределении данных и часто привязаны к конкретным гипотезам, что не всегда удобно на практике.
Во-вторых, это байесовские методы. В них размер выборки определяется, например, путем максимизации ожидаемой “полезности” модели, которая может учитывать как точность оценки параметров, так и штрафы за увеличение выборки. Используются различные критерии, такие как минимизация средней апостериорной дисперсии параметров, критерий среднего покрытия и другие. Эти методы гибки, но могут быть сложны в реализации и интерпретации, а также требуют задания априорных распределений для параметров модели, которые не всегда адекватно можно оценить.
В-третьих, используют множество эвристических методов, которые основаны на практическом опыте, эмпирических правилах (например, «10 объектов на каждую переменную») или методах вроде кросс-валидации (перекрестной проверки). Они просты, но не имеют строгого теоретического обоснования и не всегда гарантируют оптимальный результат.
Несмотря на разнообразие подходов, универсального, простого в применении и теоретически обоснованного метода для широкого класса задач до сих пор не существовало. Многие существующие техники либо сложны, либо требуют априорной информации, которой у исследователя может не быть на этапе планирования эксперимента. И все они не всегда гарантируют результат.
Именно проблему разработки более универсальных и практически применимых методов определения достаточного размера выборки решали исследователи из МФТИ. Их идея основана на интуитивном предположении: если данных уже достаточно, то добавление еще нескольких объектов не должно сильно менять ни саму модель, ни ее «уверенность» в данных, выраженную через функцию правдоподобия. Целью исследования ученых Физтеха была разработка критериев достаточности выборки, которые основаны на поведении функции правдоподобия при изменении размера обучающей подвыборки, и оценка их работоспособности в теории и на практике.
Авторы статьи предложили два критерия, основанных на анализе значений функции правдоподобия, вычисленной на подвыборках разного размера k, полученных с помощью бутстрэпа из исходной выборки некоторого размера m.
Первый критерий они назвали D-достаточностью, от слова “дисперсия”. Этот критерий проверяет, стабильны ли результаты при использовании разных подмножеств данных одного размера. Он заключается в том, чтобы считать выборку достаточной в том случае, если разброс значений правдоподобия между моделями, которые обучены на разных случайных подвыборках размера k, достаточно мал.
Второй критерий они назвали M-достаточностью, от «математическое ожидание». M-критерий проверяет, перестала ли модель существенно улучшаться при добавлении еще одного объекта данных. Если средний показатель правдоподобия при добавлении одного элемента данных почти не улучшился, то это значит, что выборка уже является достаточной.
Оба подхода используют бутстрэп для получения надежных оценок этой стабильности или улучшения. Бутстрэп — это статистический метод, позволяющий оценить различные характеристики некоторой статистики путем многократного извлечения подвыборок с возвращением из исходной выборки. Проще говоря, мы много раз «вытаскиваем наугад» объекты из нашего набора данных (причем один и тот же объект может быть выбран несколько раз в одну подвыборку), формируя множество «псевдо-выборок», и на них оцениваем интересующие нас величины.
Важным результатом работы является теоретическое доказательство корректности критерия M-достаточности для модели линейной регрессии при определенных условиях сходимости оценок параметров модели. Это придает методу дополнительную строгость, хотя бы для одного важного класса моделей.
Ученые провели вычислительные эксперименты как на синтетических данных (сгенерированных из моделей линейной и логистической регрессии), так и на реальных наборах данных (включая известный набор Liver Disorders и множество других).
Эмпирические результаты в виде численного моделирования использования метода подтвердили работоспособность обоих подходов. На практике оказалось, что предложенный подход можно эвристически применять даже в тех случаях, когда оптимизируется не функция правдоподобия, а некоторая другая функция потерь, что часто встречается в современном машинном обучении.
Эксперименты показали, что методы успешно применимы к разным типам данных и моделей (регрессия, классификация).
Хотя бутстрэп сам по себе известен, его применение для оценки именно стабильности правдоподобия как критерия достаточности выборки является новым. Предложенный учеными подход является универсальным, так как он не привязан к конкретным статистическим гипотезам и может быть применен к широкому кругу моделей, включая те, где оптимизируется произвольная функция потерь.
«Определение правильного объема данных — это вечный компромисс между затратами на сбор информации и качеством модели, – рассказал Андрей Грабовой, доцент кафедры интеллектуальных систем МФТИ. – Существующие методы часто либо слишком сложны в применении, либо опираются на специфические допущения о данных или модели, которые не всегда выполняются. Мы хотели предложить простой, но при этом имеющий под собой основания подход. Идея в том, чтобы посмотреть, насколько ‘устаканивается’ правдоподобие модели по мере добавления данных, используя для оценки этой стабильности бутстрэп. Наши эксперименты на синтетических и реальных данных показывают, что предложенные критерии D- и M-достаточности действительно сходятся к нулю при увеличении выборки, что подтверждает их адекватность. Мы надеемся, это поможет исследователям и практикам более уверенно планировать свои эксперименты и эффективнее использовать имеющиеся ресурсы».
Никита Киселев, студент 5-го курса МФТИ, добавил: «Наше исследование было вдохновлено эмпирическими наблюдениями: мы обнаружили, что в наших экспериментах функция правдоподобия переставала значимо изменяться при достижении определенного размера выборки. Это наблюдение побудило нас к глубокому теоретическому анализу проблемы, результаты которого представлены в данной статье. Наши выводы имеют широкое применение для различных моделей, хотя для современных нейронных сетей, включая генеративные модели, мы уже разработали более эффективные и выразительные методы, которые планируем подробно осветить в будущих работах».
Предложенные методы могут найти применение во множестве областей, где используется машинное обучение и остро стоит вопрос стоимости или возможности сбора данных. Такими являются, например, медицинские исследования, где крайне важно определить достаточное количество пациентов для клинических испытаний новых лекарств; финансовый анализ, для которого необходима оценка достаточного объема исторических данных для построения моделей кредитного скоринга, прогнозирования рынков или обнаружения мошенничества. Также предложенные методы могут иметь применения в обработке данных в социологии, маркетинге, промышленности, биоинформатике, в разработке систем искусственного интеллекта.
Работа ученых из МФТИ открывает несколько направлений для будущих исследований. Это и более углубленный теоретический анализ предложенных методов с целью строго доказать их корректность, и использование других метрик стабильности, разработка других похожих алгоритмов, сравнение с другими методами, исследование влияния гиперпараметров – как на эффективность метода влияют выбор порога и число используемых подвыборок для бутстрэпа.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Отправить донат на поддержку проекта "Аномальные новости"
Меню
Архив материалов
Проекты наших читателей
Контакты исследователей
Подписка на новости
Проекты
Новости криптозоологии
Хроники природных катастроф
Новости
26.02.2002 - 05.07.2002
05.08.2002 - 23.10.2002 (562)
24.10.2002 - 17.01.2003 (585)
20.01.2003 - 07.04.2003 (709)
08.04.2003 - 01.08.2003 (709)
04.08.2003 - 18.11.2003 (763)
19.11.2003 - 31.03.2004 (721)
01.04.2004 - 13.08.2004 (825)
16.08.2004 - 22.11.2004 (782)
23.11.2004 - 28.03.2005 (756)
29.03.2005 - 29.07.2005 (807)
30.08.2005 - 02.12.2005 (927)
05.12.2005 - 21.04.2006 (912)
24.04.2006 - 23.10.2006 (999)
24.10.2006 - 03.05.2007 (999)
04.05.2007 - 28.01.2008 (999)
29.01.2008 - 12.01.2009 (999)
13.01.2009 - 07.07.2009 (966)
22.08.2009 - 21.01.2010 (996)
22.01.2010 - 22.06.2010 (1000)
23.06.2010 - 14.01.2011 (1042)
17.01.2011 - 31.05.2011 (1008)
01.06.2011 - 03.11.2011 (1003)
07.11.2011 - 16.03.2012 (996)
19.03.2012 - 09.06.2012 (1009)
13.06.2012 - 07.09.2012 (988)
10.09.2012 - 19.11.2012 (1004)
20.11.2012 - 14.01.2013 (1015)
15.01.2013 - 22.02.2013 (1000)
23.02.2013 - 08.04.2013 (991)
09.04.2013 - 31.05.2013 (1015)
01.06.2013 - 18.07.2013 (992)
19.07.2013 - 03.09.2013 (1014)
04.09.2013 - 20.10.2013 (1001)
21.10.2013 - 02.12.2013 (1001)
03.12.2013 - 18.01.2014 (997)
19.01.2014 - 07.03.2014 (994)
08.03.2014 - 24.04.2014 (1000)
25.04.2014 - 18.06.2014 (1005)
19.06.2014 - 15.08.2014 (1019)
16.08.2014 - 07.10.2014 (1006)
08.10.2014 - 16.11.2014 (995)
17.11.2014 - 25.12.2014 (1004)
26.12.2014 - 09.02.2015 (989)
10.02.2015 - 20.03.2015 (998)
21.03.2015 - 22.04.2015 (1001)
23.04.2015 - 29.05.2015 (997)
29.05.2015 - 30.06.2015 (995)
30.06.2015 - 29.07.2015 (990)
29.07.2015 - 26.08.2015 (998)
27.08.2015 - 24.09.2015 (988)
25.09.2015 - 22.10.2015 (991)
23.10.2015 - 18.11.2015 (1000)
18.11.2015 - 16.12.2015 (990)
17.12.2015 - 23.01.2016 (1000)
24.01.2016 - 25.02.2016 (1000)
26.02.2016 - 24.03.2016 (1000)
24.03.2016 - 16.04.2016 (990)
17.04.2016 - 19.05.2016 (999)
20.05.2016 - 22.06.2016 (993)
23.06.2016 - 01.08.2016 (995)
02.08.2016 - 12.09.2016 (990)
13.09.2016 - 25.10.2016 (989)
26.10.2016 - 05.12.2016 (995)
06.12.2016 - 15.01.2017 (995)
16.01.2017 - 23.02.2017 (990)
24.02.2017 - 03.04.2017 (994)
04.04.2017 - 18.05.2017 (1000)
19.05.2017 - 05.07.2017 (1000)
06.07.2017 - 24.08.2017 (1000)
25.08.2017 - 06.10.2017 (991)
07.10.2017 - 15.11.2017 (990)
16.11.2017 - 24.12.2017 (1000)
25.12.2017 - 04.02.2018 (990)
05.02.2018 - 17.03.2018 (1000)
18.03.2018 - 02.05.2018 (990)
03.05.2018 - 11.06.2018 (1000)
12.06.2018 - 18.07.2018 (990)
19.07.2018 - 24.08.2018 (1000)
25.08.2018 - 02.10.2018 (1000)
03.10.2018 - 07.11.2018 (990)
08.11.2018 - 13.12.2018 (990)
14.12.2018 - 23.01.2019 (1000)
24.01.2019 - 02.03.2019 (1000)
03.03.2019 - 12.04.2019 (1010)
13.04.2019 - 23.05.2019 (990)
24.05.2019 - 03.07.2019 (1000)
04.07.2019 - 11.08.2019 (1000)
12.08.2019 - 16.09.2019 (990)
17.09.2019 - 26.10.2019 (1000)
27.10.2019 - 12.12.2019 (1000)
13.12.2019 - 25.01.2020 (1000)
26.01.2020 - 06.03.2020 (990)
07.03.2020 - 16.04.2020 (1010)
17.04.2020 - 19.05.2020 (1000)
20.05.2020 - 25.06.2020 (990)
26.06.2020 - 04.08.2020 (995)
05.08.2020 - 16.09.2020 (1005)
17.09.2020 - 26.10.2020 (990)
27.10.2020 - 27.11.2020 (990)
28.11.2020 - 07.01.2021 (990)
08.01.2021 - 15.02.2021 (1000)
16.02.2021 - 31.03.2021 (1000)
01.04.2021 - 12.05.2021 (1000)
13.05.2021 - 14.06.2021 (990)
15.06.2021 - 26.07.2021 (980)
27.07.2021 - 31.08.2021 (990)
01.09.2021 - 07.10.2021 (1000)
08.09.2021 - 07.11.2021 (1000)
08.11.2021 - 10.12.2021 (1000)
11.12.2021 - 24.01.2022 (990)
25.01.2022 - 04.03.2022 (1000)
05.03.2022 - 10.04.2022 (990)
11.04.2022 - 17.05.2022 (1000)
18.05.2022 - 23.06.2022 (980)
24.06.2022 - 31.07.2022 (990)
01.08.2022 - 13.09.2022 (990)
14.09.2022 - 21.10.2022 (990)
22.10.2022 - 29.11.2022 (1000)
30.11.2022 - 22.01.2023 (1000)
23.01.2023 - 02.03.2023 (990)
03.03.2023 - 21.04.2023 (1000)
22.04.2023 - 13.06.2023 (990)
14.06.2023 - 02.08.2023 (1000)
03.08.2023 - 21.09.2023 (1000)
22.09.2023 - 06.11.2023 (990)
07.11.2023 - 24.12.2023 (990)
25.12.2023 - 18.02.2024 (1000)
19.02.2024 - 05.04.2024 (990)
06.04.2024 - 25.05.2024 (1000)
26.05.2024 - 26.07.2024 (1000)
26.07.2024 - 25.08.2024 (990)
26.08.2024 - 28.09.2024 (980)
29.09.2024 - 01.11.2024 (1000)
02.11.2024 - 02.12.2024 (980)
03.12.2024 - 08.01.2025 (990)
09.01.2025 - 09.02.2025 (1000)
10.02.2025 - 20.03.2025 (1000)
21.03.2025 - 03.05.2025 (990)
04.05.2025 - ...
Статьи
Статьи: раздел 1 (1024)
Статьи: раздел 2 (1006)
Статьи: раздел 3 (1000)
Статьи: раздел 4 (1044)
Статьи: раздел 5 (1001)
Статьи: раздел 6 (1000)
Статьи: раздел 7 (1000)
Статьи: раздел 8 (1013)
Статьи: раздел 9 (1000)
Статьи: раздел 10 (1000)
Статьи: раздел 11 (329)
Статьи: раздел 12 (1000)
Статьи: раздел 13 (730)
Лента новостей

Белый дом формирует научную группу по изучению НЛО

Добыча кислорода из лунной почвы

Заявления Спилберга о присутствии инопланетян

Как рассмотреть нашу Вселенную

Лаборатория естественной химии у протозвезд

Медицинские системы для Луны и Марса

Министерство обороны скрывает детали об НЛО

Мощный НЛО обнаружен в далекой черной дыре

Наблюдение НЛО в форме гигантской картофелины

Наше представление о календаре майя

Неразгаданные тайны Стоунхенджа

От морского дна до Марса

Сверхмассивные чёрные дыры - крупнейшие колыбели планет

Способ оценки масс новорожденных планет

Стремиться ли к Луне

Суперконтинент сделал из Земли снежный ком

Ученые обновляют план первого контакта

Фильм Спилберга об НЛО основан на достоверных данных

Хронология древних океанов Марса

Черная дыра образовалась раньше своей галактики

Артефакты на фотографии марсохода Кьюриосити

Белый дом опубликовал новые файлы с НЛО

Брифинг НАСА о инопланетной звездной базе

В архивах Ватикана нет записей об НЛО

В куклу вселился призрак собаки

Внутри особняка с привидениями в Денвере

Военные отслеживали антигравитационные технологии

Все cвидетельства путешествий во времени

Инопланетяне уже посещали Землю

НЛО над главным аэропортом Зимбабве

НЛО отслеживается самолетом ВВС США

НЛО пролетел по небу над Индией

Оранжевая сфера повергла рыбака в шок

Пентагон опубликовал 72 новых файла об НЛО

Путешественник во времени времен Второй мировой войны

Режиссер Стивен Спилберг заявляет, что мы не одиноки

Светящийся шар запустил рой загадочных объектов

Существование путешествий во времени

Убедитесь в реальности путешествий во времени

Черный шар засеивает облака дронами

Брифинг НАСА о инопланетной звездной базе на Луне

Где же все черные дыры промежуточной массы

Давно скрытые секреты выходят на свет

Диски, светящиеся шары и картофелина

Древние изменения климата Марса

Замечен всплеск наблюдений красных шаров

Исключение темной энергии из уравнения

Китай и Россия обладают сбитыми НЛО

Конференция по НЛО пройдет в Канаде

Красные карлики пожирают планеты, похожие на Землю

Лунные базы сталкиваются с невидимой угрозой

Новый телескоп может обнаружить 100 000 миров

Окончательная перепись близких звёздных систем

Почему первые галактики прекратили звездообразование

Размытые видеозаписи и никаких фактов

Странное квантовое свойство изолятора будущего

Триллер Стивена Спилберга об НЛО всех покорил

Туристы запечатлели яркий треугольный НЛО

Файлы об НЛО разжигают панику на Земле

Фильм Стивена Спилберга об НЛО бьёт рекорды

Эволюция городской мобильности. Все об электросамокатах

Встреча с инопланетянами в Розуэлле

За кулисами печально известного интервью Груша

Загадочная картофелина над Колорадо

Инопланетный корабль был всего лишь светом

Инопланетян по-прежнему нет

Наблюдения таинственных шаров

Недавно опубликованное досье Пентагона об НЛО

Новое внимание к исчезновению генерал-майора

Новые файлы НЛО могут содержать угрозу безопасности

Последние мгновения перед исчезновением генерала

Правительства скрывают правду об инопланетянах

Прозрачный НЛО искривил пространство

Разоблачитель НЛО заявляет о секретных расходах

Рецензия на фильм Стивена Спилберга

Сообщения о светящихся красных шарах

Странные огни, но мало неопровержимых фактов

США публикуют третью порцию файлов об НЛО

Трамп обнародовал третью порцию файлов об НЛО

Угрожает ли Вере раскрытие НЛО

Шкала сообщений об НЛО, заслуживающих изучения

Большинство американцев верят в НЛО

Вращающиеся диски и светящиеся шары

Время существует не везде

Инопланетяне могут существовать

Инопланетяне на чемпионате мира

Опубликованы новые файлы об НЛО

Официальные лица США приблизились к тайне НЛО

Пентагон опубликовал третью партию файлов об НЛО

Плазменные шары в центре внимания

Появление НЛО над Зимбабве летом 2008 года

Публичное раскрытие администрации Трампа

Пять сообщений правоохранительных органов о НЛО

Светящиеся шары на северо-востоке США

Создали ядерные шаровые молнии в лаборатории

США публикуют третью партию файлов об НЛО

Третья партия файлов об НЛО

Уфологические файлы Пентагона содержат видеозаписи

Фильм, который стоит посмотреть перед Днем раскрытия

Христианство совместимо с концепцией НЛО

Шаровые НЛО над северо-востоком США

Реальные истории, которые легли в основу фильмов ужасов

Артефакт обнаружен на фото марсохода

База инопланетян в районе северного полюса Луны

Восемь инопланетных существ, описанных властями

Грибы на Марсе сделают реголит плодородным

Загадочный водяной лед Меркурия

Замаскированный НЛО направляется к району ранчо Скинуокер

Инвестор ищет возможности, связанные с НЛО

Инопланетяне как никогда близки

Кладезь данных о гравитационных волнах

Марс может помочь нам понять маргинальные экзопланеты

Невероятный научно-фантастический мини-сериал

Новый опрос проливает свет на убеждения американцев

Обнаружена трижды затменная система звёзд

Одержимость Стивена Спилберга инопланетянами

Пилот видел НЛО размером больше авианосца

Правительственные секреты об инопланетянах

Привел ли инцидент в Варгинье к обнаружению инопланетян

Реальные доказательства или мистификация

Светящийся шар завис над городом

Умирающая звезда создала Хрустальный Шар

Величайшее сокрытие информации в истории США

День раскрытия информации хочет, чтобы вы поверили

Доказательство реальности путешествий во времени

Как использовать лунные ресурсы

Миллиарды секретных расходов, скрытых от Конгресса

Многие фильмы Спилберга об инопланетянах глубокие

Многомиллиардный секрет американских военных

Не верьте ажиотажу вокруг искусственного интеллекта

НЛО увеличивает число подписчиков блогеров

Определили физические признаки нашего Сознания

Отвечать на сигналы инопланетян запрещено

План на день, когда инопланетяне вступят в контакт

Почему размер популяции не спасает ее от вымирания

Связи ЦРУ с инопланетными технологиями

Скрытый порядок в многомерной случайности

Странные огни, бесшумные корабли и близкие встречи

США изучали комаров как биологическое оружие

ЦРУ собирает инопланетные технологии

Черные дыры делают экзопланеты непригодными для жизни

Эмили Блант изучала реальные истории о похищениях

Берегитесь Малдеров и Скалли

В файлах об НЛО христиане видят демонов

Внеземная жизнь может ускользать от зондов

Законодатели хотят, чтобы уфо-инсайдеры имели иммунитет

Как Великая пирамида пережила землетрясения

Конгрессмен осуждает препятствия на пути к правде

На острове Пасхи появилась новая статуя

Недалеко от Юпитера наши рой метеоритов

Нужно принять меры по обеспечению прозрачности

Обнаружили сверхземлю у близлежащего красного карлика

Писать письма инопланетянам нестоит

Правительство США вербовало детей-экстрасенсов

Правительству США известно об инопланетянах

Сильно покрасневшие загадочные квазары

Скептик посетил ранчо Скинуокер

Стивен Спилберг вызвал возмущение из-за НЛО

Стремление к раскрытию тайн НЛО

Уфо-инсайдеры штурмуют Капитолийский холм

Участники сообщества конспирологов на Reddit

Экзопланета размером с Сатурн и земной температурой

Адские планеты более распространены, чем экзоземли

Вот 15 лучших фильмов об НЛО

Встречи с инопланетянами. Факт или вымысел

Жанна д’Арк - девушка, которая определила будущее мира

Жуткий НЛО замечен в Бразилии

Инопланетяне - самозванцы

Испытали управляемый снаряд для рельсотрона

Как инопланетянам достичь Земли

Картина доказывает, что путешествия во времени реальны

Кристаллы пространства и времени

Людей отправляют в Ад чаще, чем в Рай

Обреченные экспедиции - почва для теорий заговора

Они прилетели из чужих миров

Откуда Земля получила фосфор и азот

Под водами озера Шамплейн скрывается чудовище

Правительству США известно о расах инопланетян

Решение проблемы Кардашева

Секретные программы обратного инжиниринга НЛО

Сотрудник ЦРУ рассекретил сеть инопланетных хабов

Что бы почитать про НЛО

Грузовики с КМУ от «Грузовик-ДВ»

Администрация Байдена стреляла ракетами по шарам

Архиепархия Вашингтона разошлась во мнениях о НЛО

Все предсказания Ванги на 2026 год

Наверх
Яндекс.Метрика