Скрытые измерения: как новый метод оценивает внутреннюю сложность нейросетей
Современные нейронные сети работают в пространствах с тысячами измерений, но данные внутри них часто занимают лишь малую часть этого объёма. Новый метод, основанный на размерности Патнаика-Пирсона, позволяет точнее измерить «скрытую геометрию» этих представлений и связать её с теориями обучения.
Исследователи из Naked Science представили новый подход к оценке внутренней размерности данных, формируемых нейронными сетями. В работе, посвящённой разработке Patnaik-Pearson intrinsic dimension for internal representations of neural networks, предложен показатель — размерность Патнаика-Пирсона. Он служит мерой внутренней размерности многообразий данных, применяемой к внутренним представлениям, в частности трансформеров.
Скрытая геометрия высоких измерений
Глубокие нейронные сети оперируют в пространствах с огромным количеством измерений (например, d ≈ 1000). Однако гипотеза многообразия предполагает, что данные в таких пространствах сосредоточены на поверхностях значительно меньшей размерности. Расчёт размерности Патнаика-Пирсона для α=2 показал, что при d ≈ 1000 она составляет около 0,6 — то есть фактическая сложность данных близка к двумерной. Это существенно упрощает задачу обучения и анализа моделей.
Традиционные методы определения внутренней размерности, такие как анализ ближайших соседей, часто ненадёжны из-за локальных особенностей данных. Предложенный метод основан на сопоставлении статистических моментов и свойств распределения Парето, что обеспечивает повышенную точность и устойчивость. Исследователи выявили фундаментальную связь между новым показателем и концепцией саморегуляризации для тяжелохвостых распределений (Heavy-Tailed Self Regularization, HTSR). Параметр размерности напрямую связан с параметром, используемым в HTSR, что указывает на глубокую взаимосвязь между геометрией данных и их статистическими свойствами.
Трансформеры: от сложности к эффективности
Архитектура трансформеров, лежащая в основе современных языковых моделей, опирается на ресурсоёмкий механизм самовнимания. Хотя нормализация слоёв повышает стабильность обучения, она не решает проблему масштабируемости при высокой размерности данных. Анализ моделей BERT-base и DeepSeek-R1-Distill-Qwen-1 показал, что внутренняя размерность данных может уменьшаться по мере прохождения информации через слои. Это открывает путь к созданию более эффективных архитектур: снижая вычислительную сложность и потребление ресурсов без потери качества обработки.
Полуэмпирическая теория обучения в сочетании с анализом внутренних размерностей открывает новые горизонты. Ключевым инструментом становится показатель StableRank и подобные метрики, позволяющие оценить, сколько действительно важных параметров используется при обучении. Дальнейшие разработки направлены на создание архитектур, сознательно использующих эти теоретические основы для достижения оптимальной производительности и способности к обобщению.
Предложенный показатель — размерность Патнаика-Пирсона — не столько готовое решение, сколько приглашение к дальнейшим исследованиям. Остаётся вопрос о его применимости за пределами архитектур на основе трансформеров. Подобные измерения, описывающие внутреннюю геометрию представления данных, требуют проверки на более широком круге моделей.
Комментарии
0 всего