Исследователи Массачусетского технологического института выяснили, как использование концепции симметрии в наборах данных позволяет сократить объем данных, необходимых для обучения моделей.
Это открытие, зафиксированное в исследовании извлекается через ArXiv Бехруз Тахмасеби, аспирант Массачусетского технологического института, и его советник Стефани Джегелька, доцент Массачусетского технологического института, коренится в математическом понимании закона столетней давности, известного как закон Вейля.
Закон Вейля, первоначально сформулированный немецким математиком Германом Вейлем более 110 лет назад, был разработан для измерения сложности спектральной информации, например, колебаний музыкальных инструментов.
Вдохновившись этим законом во время изучения дифференциальных уравнений, Тахмасеби увидел в нем потенциал для снижения сложности ввода данных в нейронные сети. Понимая симметрии, присущие набору данных, можно сделать модель машинного обучения более эффективной и быстрой без численного добавления дополнительных данных.
В статье Тахмасеби и Джегелки объясняется, как использование симметрий, или "инвариантов", в наборах данных может упростить задачи машинного обучения, в свою очередь требуя меньшего количества обучающих данных.
Звучит очень сложно, но принцип относительно прост. Например, вспомните букву "X" - как ее ни поворачивай, как ни переворачивай, она все равно выглядит как "X". В машинном обучении, когда модели понимают эту идею, они могут обучаться более эффективно. Они понимают, что даже если изображение кошки перевернуть вверх ногами или отразить в зеркальном отражении, на нем все равно будет кошка.
Это помогает модели лучше использовать данные, обучаясь на каждом примере множеством способов и уменьшая потребность в огромном количестве данных для достижения точных результатов.
Однако данное исследование выходит за рамки симметрии в обычном понимании. Инвариантность ядерной гребневой регрессии (KRR) включает в себя симметричные преобразования, такие как вращение, отражение и другие характеристики данных, которые остаются неизменными при определенных операциях.
"Насколько мне известно, это первый случай использования закона Вейля для определения того, как машинное обучение может быть улучшено за счет симметрии", - заявил Тахмасеби.
Исследование было первоначально представлено на конференции Neural Information Processing Systems в декабре 2023 года.
Это особенно важно в таких областях, как вычислительная химия и космология, где качество данных ограничено. Неполные данные - обычное явление в областях, где наборы данных исключительно велики, но на самом деле полезных данных в этих наборах очень мало.
Например, в необъятном космосе среди непостижимо огромного моря небытия вы можете найти крошечную крупицу полезных данных. - Поэтому вам нужно заставить это пятнышко данных работать, и симметрия - полезный инструмент для достижения этой цели.
Соледад Виллар, прикладной математик из Университета Джона Хопкинса, отметила по поводу исследования: "Модели, удовлетворяющие симметрии задачи, не только корректны, но и могут давать предсказания с меньшими ошибками, используя небольшое количество обучающих точек".
Преимущества и результаты
Исследователи выявили два типа улучшений от использования симметрий: линейное увеличение, когда эффективность возрастает пропорционально симметрии, и экспоненциальное увеличение, которое дает непропорционально большую выгоду, когда речь идет о симметриях, охватывающих несколько измерений.
"Это новый вклад, который, по сути, говорит нам, что симметрии более высокой размерности более важны, потому что они могут дать нам экспоненциальный выигрыш", - уточнил Тахмасеби.
Давайте разберем это подробнее:
- Использование симметрий для улучшения данных: Распознавая закономерности или симметрии в данных (например, как объект выглядит одинаково даже при повороте или переворачивании), модель машинного обучения может обучаться так, как будто у нее больше данных, чем есть на самом деле. Такой подход повышает эффективность модели, позволяя ей учиться большему на меньшем количестве данных.
- Упрощение учебной задачи: Второй вывод, к которому они пришли, касается облегчения работы модели за счет фокусировки на этих симметриях. Поскольку модель учится игнорировать изменения, которые не имеют значения (например, положение или ориентацию объекта), ей приходится иметь дело с менее сложной информацией. Это означает, что модель может достичь хороших результатов на меньшем количестве примеров, что ускоряет процесс обучения и повышает производительность.
Хаггай Марон (Haggai Maron), специалист по компьютерным технологиям из Technion и NVIDIA, высоко оценил работу за новаторский подход, рассказывает Массачусетский технологический институт"Этот теоретический вклад дает математическую поддержку зарождающейся области "геометрического глубокого обучения".
Исследователи непосредственно подчеркивают потенциальное влияние на вычислительную химию, где принципы их исследования могут, например, ускорить процесс открытия лекарств.
Используя симметрии в молекулярных структурах, модели машинного обучения могут предсказывать взаимодействия и свойства, используя меньшее количество данных, что делает скрининг потенциальных лекарственных соединений более быстрым и эффективным.
Симметрии также могут помочь в анализе космических явлений, где наборы данных чрезвычайно велики и при этом мало полезных данных.
В качестве примера можно привести использование симметрий для изучения космического микроволнового фонового излучения или структуры галактик, чтобы получить больше информации из ограниченных данных.