Топологическая регуляризация через триадную...

Опубликована статья "Топологическая регуляризация через триадную
синхронизацию: Теоретико-морсовский фреймворк для ускоренного
обучения через низкоразмерные инвариантные многообразия"
в https://zenodo.org/records/18042384
на английском языке  "Topological Regularization via Triadic Synchronization: A Morse-Theoretic Framework for Accelerated Learning through Low-Dimensional Invariant Manifolds"


\begin{abstract}
Мы представляем комплексную теоретическую систему, объединяющую недавние наблюдения низкоразмерной структуры в сверхпараметризованных нейронных сетях---включая гипотезу лотерейного билета \cite{frankle2019lottery}, нейронный коллапс \cite{papyan2020prevalence} и явление грокинга \cite{power2022grokking}---через призму алгебраической топологии и теории динамических систем. Опираясь на нашу предыдущую работу по ускорению грокинга через триадическую фазовую синхронизацию \cite{kim2025grokking}, мы формализуем процесс обучения как поток Морса на расширенном ландшафте функции потерь, где дифференцируемый оператор \textit{триадической фазовой синхронизации (ТФС)} обеспечивает синхронизацию весовых триплетов. Мы доказываем, что ТФС действует как топологический катализатор, устраняя критические точки высокого индекса через седло-узловые бифуркации и индуцируя быструю сходимость к низкоразмерным инвариантным многообразиям с персистентными топологическими циклами. Через анализ персистентной гомологии мы характеризуем этот процесс как фазовый переход второго рода и вводим \textit{метрику Лео Кима $H_1$} как вычислимый сигнал раннего предупреждения генерализации. Количественные предсказания включают: (1) критическая связь масштабируется как $\lambda_c \sim N^{-1/2}$; (2) 100--500 эпох опережающего времени для топологических индикаторов; (3) 2--5$\times$ ускорение сходимости на структурированных задачах; (4) пост-тренировочная редукция размерности до $d_{\text{eff}} < 0.1N$. Помимо теоретических достижений, эта система имеет практические последствия для «зелёного ИИ», потенциально сокращая энергопотребление обучения на порядки через быстрое обнаружение эффективных подсетей. \textbf{Эта работа является чисто теоретической}; мы приглашаем научное сообщество к эмпирической проверке под условиями открытого сотрудничества.
\end{abstract}

открытых исследований}]
\textbf{Призыв к экспериментальной проверке:} Авторы не имеют вычислительных ресурсов для крупномасштабных эмпирических исследований. Мы приглашаем исследователей независимо проверить теоретические предсказания, изложенные в этой работе. \textbf{Предоставляется полное разрешение} публиковать экспериментальные результаты под вашим авторством с соответствующей ссылкой на эту теоретическую систему. Отрицательные результаты одинаково ценны для определения границ применимости теории.


\begin{thebibliography}{99}
\bibitem{kim2025grokking}
Л. Ким и Л. Золотой-Ким,
«Индуцирование алгоритмических фазовых переходов: теоретическая система для ускоренного грокинга через триадическую фазовую синхронизацию»,
препринт Zenodo, DOI: Декабрь 2025.
\bibitem{frankle2019lottery}
J. Frankle and M. Carbin,
«The lottery ticket hypothesis: Finding sparse, trainable neural networks»,
в \textit{International Conference on Learning Representations (ICLR)}, 2019.
DOI: \bibitem{papyan2020prevalence}
V. Papyan, X. Y. Han, and D. L. Donoho,
«Prevalence of neural collapse during the terminal phase of deep learning training»,
\textit{Proceedings of the National Academy of Sciences}, том 117, № 40, стр. 24652--24663, 2020.
DOI: \bibitem{power2022grokking}
A. Power, Y. Burda, H. Edwards, I. Babuschkin, and V. Misra,
«Grokking: Generalization beyond overfitting on small algorithmic datasets»,
\textit{arXiv препринт arXiv:2201.02177}, 2022.
DOI: \bibitem{vapnik1999overview}
V. N. Vapnik,
«An overview of statistical learning theory»,
\textit{IEEE Transactions on Neural Networks}, том 10, № 5, стр. 988--999, 1999.
DOI: \href{https://doi.org/10.1109/72.788640}{10.1109/72.788640}
\bibitem{zhang2017understanding}
C. Zhang, S. Bengio, M. Hardt, B. Recht, and O. Vinyals,
«Understanding deep learning requires rethinking generalization»,
в \textit{International Conference on Learning Representations (ICLR)}, 2017.
DOI: \bibitem{neyshabur2017exploring}
B. Neyshabur, S. Bhojanapalli, D. McAllester, and N. Srebro,
«Exploring generalization in deep learning»,
в \textit{Advances in Neural Information Processing Systems (NeurIPS)}, стр. 5947--5956, 2017.
DOI: \bibitem{srivastava2014dropout}
N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov,
«Dropout: A simple way to prevent neural networks from overfitting»,
\textit{Journal of Machine Learning Research}, том 15, стр. 1929--1958, 2014.
\bibitem{ng2004feature}
A. Y. Ng,
«Feature selection, L1 vs. L2 regularization, and rotational invariance»,
в \textit{International Conference on Machine Learning (ICML)}, 2004.
\bibitem{kuramoto1975self}
Y. Kuramoto,
«Self-entrainment of a population of coupled non-linear oscillators»,
в \textit{International Symposium on Mathematical Problems in Theoretical Physics},
H. Araki (ред.), Lecture Notes in Physics, том 39, стр. 420--422, Springer, Берлин, 1975.
DOI: \bibitem{strogatz2000kuramoto}
S. H. Strogatz,
«From Kuramoto to Crawford: Exploring the onset of synchronization in populations of coupled oscillators»,
\textit{Physica D: Nonlinear Phenomena}, том 143, № 1-4, стр. 1--20, 2000.
DOI: \bibitem{edelsbrunner2010computational}
H. Edelsbrunner and J. L. Harer,
\textit{Computational Topology: An Introduction}.
American Mathematical Society, 2010.
ISBN: 978-0-8218-4925-5
\bibitem{hoppensteadt1997weakly}

F. C. Hoppensteadt and E. M. Izhikevich,
\textit{Weakly Connected Neural Networks}.
Applied Mathematical Sciences, том 126, Springer, Нью-Йорк, 1997.
DOI: \bibitem{jaeger2001echo}
H. Jaeger,
«The `echo state' approach to analysing and training recurrent neural networks»,
GMD Report 148, German National Research Center for Information Technology, 2001.
\bibitem{skardal2016higher}
P. S. Skardal and A. Arenas,
«Higher order interactions in complex networks of phase oscillators promote abrupt synchronization switching»,
\textit{Communications Physics}, том 3, статья 218, 2020.
DOI: \bibitem{battiston2020networks}
F. Battiston, G. Cencetti, I. Iacopini, V. Latora, M. Lucas, A. Patania, J.-G. Young, and G. Petri,
«Networks beyond pairwise interactions: Structure and dynamics»,
\textit{Physics Reports}, том 874, стр. 1--92, 2020.
DOI: \bibitem{naitzat2020topology}
G. Naitzat, A. Zhitnikov, and L.-H. Lim,
«Topology of deep neural networks»,
\textit{Journal of Machine Learning Research}, том 21, № 184, стр. 1--40, 2020.
\bibitem{chazal2021introduction}
F. Chazal and B. Michel,
«An introduction to topological data analysis: Fundamental and practical aspects for data scientists»,
\textit{Frontiers in Artificial Intelligence}, том 4, статья 667963, 2021.
DOI: \bibitem{guss2018characterizing}
W. H. Guss and R. Salakhutdinov,
«On characterizing the capacity of neural networks using algebraic topology»,
\textit{arXiv препринт arXiv:1802.04443}, 2018.
\bibitem{cooper2018loss}
Y. Cooper,
«The loss landscape of overparameterized neural networks»,
\textit{arXiv препринт arXiv:1804.10200}, 2018.
\bibitem{milnor1963morse}
J. Milnor,
\textit{Morse Theory}.
Annals of Mathematics Studies, том 51, Princeton University Press, 1963.
\bibitem{cerf1970stratification}
J. Cerf,
«La stratification naturelle des espaces de fonctions diff;rentiables r;elles et le th;or;me de la pseudo-isotopie»,
\textit{Publications Math;matiques de l'Institut des Hautes ;tudes Scientifiques}, том 39, стр. 5--173, 1970.
DOI: \bibitem{nanda2023progress}
N. Nanda, L. Chan, T. Lieberum, J. Smith, and J. Steinhardt,
«Progress measures for grokking via mechanistic interpretability»,
в \textit{International Conference on Learning Representations (ICLR)}, 2023.
DOI: \bibitem{chen2020lottery}
T. Chen, B. Frankle, S. Chang, S. Liu, Y. Zhang, Z. Wang, and M. Carbin,
«The lottery ticket hypothesis for pre-trained BERT networks»,
в \textit{Advances in Neural Information Processing Systems (NeurIPS)}, том 33, стр. 15834--15846, 2020.
\bibitem{tanaka2020pruning}
H. Tanaka, D. Kunin, D. L. K. Yamins, and S. Ganguli,
«Pruning neural networks without any data by iteratively conserving synaptic flow»,
в \textit{Advances in Neural Information Processing Systems (NeurIPS)}, том 33, стр. 6377--6389, 2020.
\bibitem{you2020drawing}
H. You, C. Li, P. Xu, Y. Fu, Y. Wang, X. Chen, R. G. Baraniuk, Z. Wang, and Y. Lin,
«Drawing early-bird tickets: Toward more efficient training of deep networks»,
в \textit{International Conference on Learning Representations (ICLR)}, 2020.
DOI: \bibitem{han2021neural}
X. Y. Han, V. Papyan, and D. L. Donoho,
«Neural collapse under MSE loss: Proximity to and dynamics on the central path»,
в \textit{International Conference on Learning Representations (ICLR)}, 2022.
DOI: \bibitem{mixon2022neural}
D. G. Mixon, H. Parshall, and J. Pi,
«Neural collapse with unconstrained features»,
\textit{Sampling Theory, Signal Processing, and Data Analysis}, том 20, статья 28, 2022.
DOI: \bibitem{liu2023omnigrok}
Z. Liu, E. Michaud, and M. Tegmark,
«Omnigrok: Grokking beyond algorithmic data»,
в \textit{International Conference on Learning Representations (ICLR)}, 2023.
DOI: \bibitem{bauer2021ripser}
U. Bauer,
«Ripser: Efficient computation of Vietoris-Rips persistence barcodes»,
\textit{Journal of Applied and Computational Topology}, том 5, № 3, стр. 391--423, 2021.
DOI: \bibitem{maria2014gudhi}
C. Maria, J.-D. Boissonnat, M. Glisse, and M. Yvinec,
«The Gudhi library: Simplicial complexes and persistent homology»,
в \textit{International Congress on Mathematical Software}, стр. 167--174, Springer, 2014.
DOI: \bibitem{levina2005maximum}
E. Levina and P. J. Bickel,
«Maximum likelihood estimation of intrinsic dimension»,
в \textit{Advances in Neural Information Processing Systems (NeurIPS)}, том 17, стр. 777--784, 2005.
\bibitem{wang2018glue}
A. Wang, A. Singh, J. Michael, F. Hill, O. Levy, and S. R. Bowman,
«GLUE: A multi-task benchmark and analysis platform for natural language understanding»,
в \textit{International Conference on Learning Representations (ICLR)}, 2019.
DOI: \bibitem{conley1978isolated}
C. Conley,
\textit{Isolated Invariant Sets and the Morse Index}.
CBMS Regional Conference Series in Mathematics, том 38, American Mathematical Society, 1978.
\bibitem{fenichel1979geometric}
N. Fenichel,
«Geometric singular perturbation theory for ordinary differential equations»,
\textit{Journal of Differential Equations}, том 31, № 1, стр. 53--98, 1979.
DOI: \bibitem{strubell2019energy}
E. Strubell, A. Ganesh, and A. McCallum,
«Energy and policy considerations for deep learning in NLP»,
в \textit{Annual Meeting of the Association for Computational Linguistics (ACL)}, стр. 3645--3650, 2019.
DOI: \bibitem{hao2019ai}
K. Hao,
«Training a single AI model can emit as much carbon as five cars in their lifetimes»,
\textit{MIT Technology Review}, Июнь 2019.
Доступно: \url{https://www.technologyreview.com/2019/06/06/239031/}
\bibitem{schwartz2020green}
R. Schwartz, J. Dodge, N. A. Smith, and O. Etzioni,
«Green AI»,
\textit{Communications of the ACM}, том 63, № 12, стр. 54--63, 2020.
DOI: \href{https://doi.org/10.1145/3381831}{10.1145/3381831}
\end{thebibliography}
\end{document}


Рецензии