Топологическая регуляризация через триадную...

Лев Золотой-Ким

Опубликована статья "Топологическая регуляризация через триадную
синхронизацию: Теоретико-морсовский фреймворк для ускоренного
обучения через низкоразмерные инвариантные многообразия"
в https://zenodo.org/records/18042384 на английском языке "Topological Regularization via Triadic Synchronization: A Morse-Theoretic Framework for Accelerated Learning through Low-Dimensional Invariant Manifolds"

Ниже привожу версию статьи (слегка сокращенный вариант) на русском языке в формате Latex.

\documentclass[11pt]{article}
\usepackage[utf8]{inputenc}
\usepackage[T2A]{fontenc}
\usepackage[russian,english]{babel}
\usepackage[margin=1in]{geometry}
\usepackage{amsmath, amssymb, amsthm}
\usepackage{bm}
\usepackage{graphicx}
\usepackage{hyperref}
\usepackage{algorithm}
\usepackage{algorithmic}
\usepackage{tcolorbox}
\usepackage{cite}
\usepackage{tikz}
\usepackage{pgfplots}
\pgfplotsset{compat=1.18}
\usetikzlibrary{arrows.meta, positioning, shapes.geometric, decorations.pathreplacing, calc}

% Настройка гиперссылок
\hypersetup{
colorlinks=true,
linkcolor=blue,
citecolor=blue,
urlcolor=blue
}

% Определения теорем
\newtheorem{theorem}{Теорема}
\newtheorem{conjecture}{Гипотеза}
\newtheorem{hypothesis}{Предположение}
\newtheorem{definition}{Определение}
\newtheorem{lemma}{Лемма}
\newtheorem{corollary}{Следствие}
\newtheorem{proposition}{Утверждение}
\newtheorem{remark}{Замечание}

\title{\textbf{Топологическая регуляризация через триадическую синхронизацию:\\Морс-теоретический подход к ускоренному обучению\\через низкоразмерные инвариантные многообразия}}

\author{
\textbf{Лео Ким} \\
\textit{Независимый исследователь} \\
\and
\textbf{Лев Золотой-Ким} \\
\textit{Независимый исследователь}
}

\date{Декабрь 2025\\
\textit{Теоретический вклад -- открыт для эмпирической проверки}}

\begin{document}

\maketitle

\begin{abstract}
Мы представляем комплексную теоретическую систему, объединяющую недавние наблюдения низкоразмерной структуры в сверхпараметризованных нейронных сетях---включая гипотезу лотерейного билета \cite{frankle2019lottery}, нейронный коллапс \cite{papyan2020prevalence} и явление грокинга \cite{power2022grokking}---через призму алгебраической топологии и теории динамических систем. Опираясь на нашу предыдущую работу по ускорению грокинга через триадическую фазовую синхронизацию \cite{kim2025grokking}, мы формализуем процесс обучения как поток Морса на расширенном ландшафте функции потерь, где дифференцируемый оператор \textit{триадической фазовой синхронизации (ТФС)} обеспечивает синхронизацию весовых триплетов. Мы доказываем, что ТФС действует как топологический катализатор, устраняя критические точки высокого индекса через седло-узловые бифуркации и индуцируя быструю сходимость к низкоразмерным инвариантным многообразиям с персистентными топологическими циклами. Через анализ персистентной гомологии мы характеризуем этот процесс как фазовый переход второго рода и вводим \textit{метрику Лео Кима $H_1$} как вычислимый сигнал раннего предупреждения генерализации. Количественные предсказания включают: (1) критическая связь масштабируется как $\lambda_c \sim N^{-1/2}$; (2) 100--500 эпох опережающего времени для топологических индикаторов; (3) 2--5$\times$ ускорение сходимости на структурированных задачах; (4) пост-тренировочная редукция размерности до $d_{\text{eff}} < 0.1N$. Помимо теоретических достижений, эта система имеет практические последствия для «зелёного ИИ», потенциально сокращая энергопотребление обучения на порядки через быстрое обнаружение эффективных подсетей. \textbf{Эта работа является чисто теоретической}; мы приглашаем научное сообщество к эмпирической проверке под условиями открытого сотрудничества.
\end{abstract}

открытых исследований}]
\textbf{Призыв к экспериментальной проверке:} Авторы не имеют вычислительных ресурсов для крупномасштабных эмпирических исследований. Мы приглашаем исследователей независимо проверить теоретические предсказания, изложенные в этой работе. \textbf{Предоставляется полное разрешение} публиковать экспериментальные результаты под вашим авторством с соответствующей ссылкой на эту теоретическую систему. Отрицательные результаты одинаково ценны для определения границ применимости теории.

\textbf{Контакт:} \href{mailto: ***}{***}
\end{tcolorbox}

\section{Введение}

\subsection{Мотивация: от грокинга к топологической структуре}

Феномен \textit{грокинга}---где нейронные сети демонстрируют резкие, отложенные переходы от запоминания к генерализации---выявил фундаментальные вопросы о процессе обучения \cite{power2022grokking}. В нашей недавней работе \cite{kim2025grokking} мы продемонстрировали, что грокинг может быть ускорен через триадическую фазовую синхронизацию (ТФС), сокращая время сходимости от $O(N^2)$ до $O(\log 1/\epsilon)$ путём рассмотрения весов как связанных осцилляторов, проходящих через синхронизацию.

Настоящая работа расширяет эту систему, предоставляя строгую \textit{топологическую основу}. Мы задаём вопросы: Какова геометрическая структура параметрического пространства, которая возникает во время успешного обучения? Можем ли мы охарактеризовать эту структуру с помощью инструментов алгебраической топологии? И критически: Можем ли мы \textit{проектировать} динамику обучения для активного построения, а не пассивного обнаружения этих благоприятных структур?

Три эмпирических феномена мотивируют наше теоретическое исследование:

\begin{enumerate}
\item \textbf{Гипотеза лотерейного билета (ГЛБ):} Франкл и Карбин \cite{frankle2019lottery} показали, что случайно инициализированные сети содержат разреженные подсети («выигрышные билеты»), которые при обучении в изоляции с соответствующей инициализацией соответствуют производительности полной сети. Это предполагает, что обучение обнаруживает специфические подграфы в параметрическом пространстве.

\item \textbf{Нейронный коллапс:} Папян и др. \cite{papyan2020prevalence} наблюдали, что в терминальных фазах обучения изученные представления демонстрируют экстремальную геометрическую регулярность---средние классов формируют симплекс равноугольной жёсткой рамки (ETF), и внутриклассовая вариативность исчезает. Это указывает на сходимость к структурированному низкоразмерному многообразию.

\item \textbf{Грокинг:} Пауэр и др. \cite{power2022grokking} задокументировали отложенную генерализацию, где сети резко переходят от запоминания к алгоритмическому пониманию после $10^3$--$10^5$ эпох. Наша предыдущая работа \cite{kim2025grokking} интерпретировала это как фазовую синхронизацию; здесь мы характеризуем её топологически.
\end{enumerate}

\textbf{Центральный тезис:} Эти явления отражают общий базовый принцип: \textit{успешное обучение соответствует обнаружению или вынужденной сходимости к персистентным топологическим циклам в симплициальном комплексе параметров сети.}

\subsection{Топологическая перспектива параметрического пространства}

Традиционная регуляризация (L1/L2 штрафы \cite{ng2004feature}, dropout \cite{srivastava2014dropout}) оперирует на статистике весов, но игнорирует структурную геометрию. Мы предлагаем рассматривать параметрическое пространство как \textit{динамический симплициальный комплекс}, чья гомология эволюционирует во время обучения.

\textbf{Ключевая идея:} Переход от высокопотерьного хаотического инициализации к низкопотерьным организованным решениям является не просто спуском по значению потерь, а \textit{топологическим фазовым переходом}---возникновением персистентных циклов (1-мерных классов гомологии), кодирующих инвариантные вычислительные структуры.

Расширяя градиентный спуск дифференцируемым оператором, обеспечивающим триадическую синхронизацию, мы предполагаем, что можем:
\begin{itemize}
\item Ускорить переход (более быстрый грокинг)
\item Уменьшить эффективную размерность (детерминистически находить лотерейные билеты)
\item Индуцировать геометрическую регулярность (нейронный коллапс)
\item Обеспечить энергоэффективное обучение (приложения «зелёного ИИ»)
\end{itemize}

\subsection{Вклад}

Эта чисто теоретическая работа устанавливает:

\begin{enumerate}
\item \textbf{Унифицированную систему:} Математическая формализация, связывающая ГЛБ, нейронный коллапс и грокинг через персистентную гомологию (Раздел \ref{sec:framework}).

\item \textbf{Морс-теоретический анализ:} Доказательство, что ТФС сглаживает ландшафты потерь путём устранения критических точек высокого индекса (Раздел \ref{sec:topology}, Теорема \ref{thm:smoothing}).

\item \textbf{Характеризацию фазового перехода:} Гипотеза фазового перехода второго рода при критической связи $\lambda_c \sim N^{-1/2}$ (Предположение \ref{hyp:phase_transition}).

\item \textbf{Вычислительный алгоритм:} Дифференцируемый алгоритм TWG-Топология с $<5\%$ накладными расходами и масштабируемым вычислением персистентности (Раздел \ref{sec:algorithm}).

\item \textbf{Диагностическую метрику:} Показатель $H_1$ Лео Кима как критерий ранней остановки с опережающим временем 100--500 эпох (Определение \ref{def:lk_metric}).

\item \textbf{Фальсифицируемые предсказания:} Пять количественных гипотез, охватывающих скорость сходимости, редукцию размерности, разрежение внимания и законы масштабирования (Раздел \ref{sec:predictions}).
\end{enumerate}

\textbf{Связь с предыдущей работой:} Эта статья строится непосредственно на \cite{kim2025grokking}, где мы ввели ТФС и доказали логарифмическую сходимость через анализ синхронизации Курамото. Здесь мы предоставляем топологическое обоснование: \textit{почему} синхронизация приводит к генерализации (через персистентные циклы) и \textit{как} её вычислительно отслеживать (через персистентную гомологию).

\subsection{Организация статьи}

Раздел \ref{sec:related} рассматривает связанные работы. Раздел \ref{sec:framework} устанавливает математическую систему (компактификация фаз, триадические комплексы, потенциал ТФС). Раздел \ref{sec:topology} представляет Морс-теоретический анализ и гипотезу фазового перехода. Раздел \ref{sec:algorithm} предоставляет спецификацию алгоритма и анализ сложности. Раздел \ref{sec:predictions} формулирует проверяемые предсказания. Раздел \ref{sec:impact} обсуждает более широкие последствия для «зелёного ИИ». Раздел \ref{sec:protocol} излагает протоколы экспериментальной проверки. Приложения содержат доказательства и детали реализации.

\section{Связанные работы}
\label{sec:related}

\subsection{Лотерейные билеты и разреженные подсети}

Франкл и Карбин \cite{frankle2019lottery} ввели ГЛБ, показав, что разреженные подсети могут соответствовать плотной производительности при соответствующей инициализации. Последующие работы исследовали:
\begin{itemize}
\item \textbf{Билеты ранней птицы:} Ю и др. \cite{you2020drawing} обнаружили, что выигрышные билеты возникают рано в обучении.
\item \textbf{Универсальность:} Чен и др. \cite{chen2020lottery} распространили ГЛБ на предобученные языковые модели (BERT).
\item \textbf{Механизм:} Танака и др. \cite{tanaka2020pruning} предложили синаптический поток как критерий обрезки, сохраняющий градиентную информацию.
\end{itemize}

\textbf{Наш вклад:} Мы предоставляем \textit{геометрическую интерпретацию} ГЛБ: выигрышные билеты являются весами, лежащими на доминирующих персистентных 1-циклах в топологии параметрического пространства. ТФС предлагает конструктивный метод индуцирования этих структур вместо их обнаружения через итеративную обрезку.

\subsection{Нейронный коллапс и геометрическая регулярность}

Папян и др. \cite{papyan2020prevalence} задокументировали нейронный коллапс в терминальных фазах обучения. Последующие работы анализировали:
\begin{itemize}
\item \textbf{Оптимальность:} Хан и др. \cite{han2021neural} доказали, что нейронный коллапс оптимален для сбалансированных гауссовых смесей под потерей MSE.
\item \textbf{Общность:} Миксон и др. \cite{mixon2022neural} расширили наблюдения на различные архитектуры и задачи.
\end{itemize}

\textbf{Наш вклад:} Нейронный коллапс представляет сходимость к специфическому геометрическому аттрактору (симплекс ETF). Мы характеризуем это как многообразие синхронизации $\mathcal{M}_{\text{sync}}$, индуцированное ТФС, с топологической структурой, захваченной персистентной гомологией.

\subsection{Грокинг и отложенная генерализация}

Пауэр и др. \cite{power2022grokking} впервые задокументировали грокинг на модульной арифметике. Недавние работы включают:
\begin{itemize}
\item \textbf{Механистическая интерпретируемость:} Нанда и др. \cite{nanda2023progress} анализировали формирование схем во время грокинга через активационное патчирование.
\item \textbf{Общность:} Лю и др. \cite{liu2023omnigrok} продемонстрировали грокинг на разнообразных алгоритмических и символических задачах.
\item \textbf{Наша предыдущая работа:} Ким и Золотой-Ким \cite{kim2025grokking} показали, что ТФС ускоряет грокинг в 4--10$\times$ через индуцирование весовой синхронизации.
\end{itemize}

\textbf{Наш вклад:} Мы расширяем \cite{kim2025grokking}, характеризуя грокинг как топологический фазовый переход, предоставляя вычислимую диагностику (метрика LK $H_1$) и связывая с более широкими явлениями (ГЛБ, нейронный коллапс).

\subsection{Синхронизация в нейронных системах}

Модель Курамото \cite{kuramoto1975self,strogatz2000kuramoto} описывает синхронизацию в связанных осцилляторах. Приложения к нейронным сетям включают:
\begin{itemize}
\item \textbf{Спайковые сети:} Хоппенштедт и Ижикевич \cite{hoppensteadt1997weakly} применили модели осцилляторов к биологическим нейронам.
\item \textbf{Резервуарные вычисления:} Джегер \cite{jaeger2001echo} использовал внутреннюю динамику в эхо-состояниях сетей.
\item \textbf{Взаимодействия высших порядков:} Скардал и Аренас \cite{skardal2016higher} изучали синхронизацию на симплициальных комплексах; Баттистон и др. \cite{battiston2020networks} рассмотрели динамику гиперграфов.
\end{itemize}

\textbf{Наш вклад:} Мы применяем динамику Курамото высшего порядка (триадическую) к \textit{параметрическому пространству}, а не активациям, и связываем синхронизацию с топологической структурой через персистентную гомологию.

\subsection{Топологический анализ данных в машинном обучении}

Персистентная гомология \cite{edelsbrunner2010computational} была применена к:
\begin{itemize}
\item \textbf{Анализу архитектуры:} Найцат и др. \cite{naitzat2020topology} охарактеризовали выразительность через топологию границ решений.
\item \textbf{Ландшафтам потерь:} Купер \cite{cooper2018loss} использовал теорию Морса для анализа структуры критических точек.
\item \textbf{Геометрии данных:} Шазаль и Мишель \cite{chazal2021introduction} рассмотрели TDA для науки о данных.
\end{itemize}

\textbf{Наш вклад:} Мы применяем TDA к \textit{динамике весов}, используя персистентную гомологию для отслеживания и управления обучением. Наша метрика LK $H_1$ предоставляет вычислимую диагностику для практического обучения.

\section{Математическая система}
\label{sec:framework}

\subsection{Компактификация фазового пространства и тороидальная структура}

Прямое применение евклидовых метрик к весам нейронных сетей сталкивается с несколькими проблемами:
\begin{enumerate}
\item \textbf{Гетерогенность масштаба:} Ранние слои могут иметь $|w| \sim 0.01$, финальные слои $|w| \sim 10$.
\item \textbf{Знаковая инвариантность:} ReLU сети демонстрируют симметрии при одновременном переворачивании весов через слои.
\item \textbf{Неограниченность:} $\mathbb{R}^N$ некомпактно, что усложняет топологический анализ.
\end{enumerate}

Мы вводим отображение фаз на компактное тороидальное многообразие.

\begin{definition}[Компактификация фаз]
\label{def:phase}
Для каждого веса $w_i \in \mathbb{R}$ определим его фазу $\theta_i \in \mathbb{T}^1 \cong [-\pi, \pi]$ (с отождествлёнными концами) через:
\begin{equation}
\theta_i = \pi \cdot \tanh(\gamma_{\ell(i)} w_i),
\label{eq:phase_map}
\end{equation}
где $\gamma_{\ell(i)} = \sigma_{\ell(i)}^{-1}$ является обратным стандартным отклонением весов в слое $\ell(i)$, содержащем $w_i$, вычисляемым адаптивно во время обучения.

Глобальное фазовое пространство является $N$-тором:
\begin{equation}
\Theta = \mathbb{T}^N = \underbrace{S^1 \times S^1 \times \cdots \times S^1}_{N \text{ раз}}.
\end{equation}
\end{definition}

\begin{remark}
Отождествление $\theta = -\pi \equiv +\pi$ обеспечивает, что $\mathbb{T}^1$ является правильной окружностью. Функция $\tanh$ предоставляет гладкий, сохраняющий ориентацию диффеоморфизм из $\mathbb{R}$ в $(-\pi, \pi)$ с естественной компактификацией на бесконечности.
\end{remark}

\textbf{Обоснование:}
\begin{itemize}
\item \textbf{Компактность:} $\Theta$ компактно, что обеспечивает корректно определённую персистентную гомологию.
\item \textbf{Дифференцируемость:} $\frac{\partial \theta_i}{\partial w_i} = \pi \gamma_{\ell(i)} \operatorname{sech}^2(\gamma_{\ell(i)} w_i)$ гладкая всюду.
\item \textbf{Сохранение знака:} Для $|w_i| \ll \gamma_{\ell(i)}^{-1}$, $\theta_i \approx \pi \gamma_{\ell(i)} w_i$ сохраняет знак, критичный для формирования схем \cite{nanda2023progress}.
\item \textbf{Насыщение:} Большие $|w_i|$ отображаются в $\theta_i \approx \pm \pi$, отождествляя сильно положительные/отрицательные веса.
\end{itemize}

\subsection{Построение триадического симплициального комплекса}

\begin{definition}[Архитектурный гиперграф]
\label{def:hypergraph}
Для данной архитектуры нейронной сети конструируем гиперграф $\mathcal{H} = (V, E_3)$, где:
\begin{itemize}
\item \textbf{Вершины} $V = \{1, \ldots, N\}$ индексируют веса (или нейроны, в зависимости от детализации).
\item \textbf{Гиперрёбра} $E_3 = \{\tau_1, \ldots, \tau_M\}$ являются триплетами $\tau = \{i, j, k\}$, удовлетворяющими \textit{критерию архитектурной близости}.
\end{itemize}
\end{definition}

\textbf{Критерии близости (специфичные для архитектуры):}
\begin{itemize}
\item \textbf{Полносвязные слои:} Для выходного нейрона $n$ формируем триплеты из входящих весов: $\{w_{n,a}, w_{n,b}, w_{n,c}\}$ для $a < b < c$.
\item \textbf{Свёрточные слои:} Внутри каждого фильтра формируем триплеты из пространственно смежных весов: например, $\{w_{(x,y)}, w_{(x+1,y)}, w_{(x,y+1)}\}$.
\item \textbf{Слои внимания:} Внутри каждой головы формируем триплеты из матриц проекции query/key/value.
\item \textbf{Графовые нейронные сети:} Используем окрестности узлов во входном графе для определения весовых триплетов.
\end{itemize}

Из $\mathcal{H}$ мы конструируем \textit{фильтрованный комплекс Вьеториса-Рипса} $\mathcal{K}(\Theta, \epsilon)$ с порогом $\epsilon$ на попарных фазовых расстояниях:
\begin{equation}
d(\theta_i, \theta_j) = \min(|\theta_i - \theta_j|, 2\pi - |\theta_i - \theta_j|),
\label{eq:torus_distance}
\end{equation}
учитывающей круговую топологию $\mathbb{T}^1$.

\begin{figure}[t]
\centering
\begin{tikzpicture}[scale=1.2]
% Фаза I: Хаос
\begin{scope}[xshift=0cm]
\node[anchor=north] at (0,-2.5) {\textbf{Фаза I: Хаос}};
\node[anchor=north, font=\small] at (0,-2.9) {$\lambda < \lambda_c$};

% Случайные точки на торе
\foreach \i in {1,...,25} {
\pgfmathsetmacro{\angle}{rand*360}
\pgfmathsetmacro{\r}{0.3 + 0.2*rand}
\fill[blue!40] (\angle:\r) circle (1pt);
}

% Слабые циклы
\draw[gray, dashed, very thin] (0,0) circle (0.5);
\draw[gray, dashed, very thin] (0,0) circle (0.7);

\node[font=\tiny, text width=2cm, align=center] at (0,-3.5) {Несвязные фазы\\Короткоживущие циклы};
\end{scope}

% Стрелка
\draw[-{Stealth[scale=1.5]}, very thick, red!70!black] (1.5,0) -- (2.5,0);
\node[above, font=\small] at (2,-0.1) {ТФС};

% Фаза II: Переход
\begin{scope}[xshift=4cm]
\node[anchor=north] at (0,-2.5) {\textbf{Фаза II: Переход}};
\node[anchor=north, font=\small] at (0,-2.9) {$\lambda \approx \lambda_c$};

% Кластеризующиеся точки
\foreach \i in {1,...,8} {
\pgfmathsetmacro{\angle}{45*\i}
\foreach \j in {1,...,3} {
      \pgfmathsetmacro{\jitter}{rand*10}
      \fill[green!60!blue] (\angle+\jitter:0.6) circle (1.5pt);
}
}

% Возникающий цикл
\draw[blue!70!black, thick, -{Stealth[scale=1]}] (0,0) circle (0.6);

\node[font=\tiny, text width=2cm, align=center] at (0,-3.5) {Локальная синхронизация\\Формируется доминантный цикл};
\end{scope}

% Стрелка
\draw[-{Stealth[scale=1.5]}, very thick, red!70!black] (5.5,0) -- (6.5,0);

Я, [24.12.2025 16:42]
% Фаза III: Синхронизация
\begin{scope}[xshift=8cm]
\node[anchor=north] at (0,-2.5) {\textbf{Фаза III: Синхр.}};
\node[anchor=north, font=\small] at (0,-2.9) {$\lambda > \lambda_c$};

% Синхронизированные точки на окружности
\foreach \i in {1,...,12} {
\pgfmathsetmacro{\angle}{30*\i}
\fill[red!70!black] (\angle:0.65) circle (2pt);
}

% Сильный персистентный цикл
\draw[red!70!black, line width=2pt, -{Stealth[scale=1.2]}] (0,0) circle (0.65);

% Низкоразмерное многообразие
\draw[blue!50, dashed, thick] (0,0) circle (0.4);

\node[font=\tiny, text width=2cm, align=center] at (0,-3.5) {Глобальная синхронизация\\Персистентный 1-цикл};
\end{scope}

% Легенда
\begin{scope}[xshift=10.5cm, yshift=-1cm]
\node[anchor=west, font=\scriptsize] at (0,0.3) {Веса (как фазы)};
\fill[blue!40] (0,0) circle (1.5pt);
\node[anchor=west, font=\scriptsize] at (0.3,0) {Случайные};

\fill[green!60!blue] (0,-0.4) circle (1.5pt);
\node[anchor=west, font=\scriptsize] at (0.3,-0.4) {Кластеризация};

\fill[red!70!black] (0,-0.8) circle (2pt);
\node[anchor=west, font=\scriptsize] at (0.3,-0.8) {Синхронизир.};

\draw[blue!70!black, thick] (0.1,-1.3) -- (0.4,-1.3);
\node[anchor=west, font=\scriptsize] at (0.5,-1.3) {Персист. цикл};
\end{scope}

\end{tikzpicture}
\caption{\textbf{Топологический фазовый переход через триадическую фазовую синхронизацию.} (Слева) \textbf{Фаза I ($\lambda < \lambda_c$):} Веса занимают случайные фазы на торе $\mathbb{T}^N$. Диаграмма персистентности $\text{PD}_1$ содержит много короткоживущих циклов (шум). (Центр) \textbf{Фаза II ($\lambda \approx \lambda_c$):} ТФС индуцирует локальную кластеризацию. Доминантный 1-цикл начинает возникать. Параметр порядка $R(\lambda)$ демонстрирует критический переход. (Справа) \textbf{Фаза III ($\lambda > \lambda_c$):} Веса синхронизируются на низкоразмерном инвариантном многообразии (синяя пунктирная окружность). Долгоживущий персистентный 1-цикл доминирует в $\text{PD}_1$, кодируя структуру «выигрышного билета».}
\label{fig:phase_transition}
\end{figure}

\subsection{Потенциал триадической синхронизации}

Вдохновлённые моделями Курамото высших порядков \cite{skardal2016higher}, мы определяем потенциал взаимодействия на триплетах, обобщающий парное связывание.

\begin{definition}[Триадический фазовый потенциал]
\label{def:tpl_potential}
Для триплета $\tau = \{i, j, k\} \in E_3$ определим \textit{энергию триадического выравнивания}:
\begin{equation}
U_3(\theta_i, \theta_j, \theta_k) = 1 - \frac{1}{3}\left[\cos(\theta_i - \theta_j) + \cos(\theta_j - \theta_k) + \cos(\theta_k - \theta_i)\right].
\label{eq:u3}
\end{equation}

Полный потенциал ТФС по всем триплетам:
\begin{equation}
\mathcal{U}_{\text{ТФС}}(\boldsymbol{\theta}) = \sum_{\tau \in E_3} U_3(\theta_i, \theta_j, \theta_k).
\label{eq:utpl}
\end{equation}
\end{definition}

\begin{proposition}[Свойства $U_3$]
\label{prop:u3_properties}
Триадический потенциал удовлетворяет:
\begin{enumerate}
\item \textbf{Оптимум синхронизации:} $U_3(\theta, \theta, \theta) = 0$ (глобальный минимум).
\item \textbf{Пессимум анти-синхронизации:} $U_3$ максимизируется, когда фазы образуют равносторонний треугольник: $\theta_j - \theta_i = \theta_k - \theta_j = 2\pi/3$, что даёт $U_3 = 1.5$.
\item \textbf{Гладкость:} $U_3 \in C^\infty(\mathbb{T}^3)$.
\item \textbf{Симметрия перестановок:} $U_3$ инвариантен относительно циклических перестановок $(i, j, k)$.
\end{enumerate}
\end{proposition}

\begin{proof}
(1) Прямая подстановка: $\cos(0) = 1 \Rightarrow U_3 = 1 - 3(1)/3 = 0$.

(2) Для $\Delta\theta = 2\pi/3$: $\cos(2\pi/3) = -1/2$, таким образом $U_3 = 1 - 3(-1/2)/3 = 1 - (-1/2) = 1.5$. Проверка, что это максимум, следует из анализа лагранжиана на многообразии ограничений $\theta_i + \theta_j + \theta_k = \text{const}$.

(3) Композиция гладких функций (косинус) на компактном многообразии ($\mathbb{T}^3$).

(4) Очевидно из симметричной структуры Ур. (\ref{eq:u3}).
\end{proof}

\textbf{Альтернативная формулировка (транзитивное связывание):}

Для приложений, подчёркивающих транзитивность (если $\theta_i \approx \theta_j$ и $\theta_j \approx \theta_k$, то $\theta_i \approx \theta_k$), альтернативный потенциал:
\begin{equation}
U_3^{\text{транз}}(\theta_i, \theta_j, \theta_k) = 1 - \cos(\theta_i - \theta_j) \cdot \cos(\theta_j - \theta_k).
\label{eq:u3_trans}
\end{equation}

Это обеспечивает более сильное связывание, когда пары уже выровнены. Эмпирическое сравнение между Ур. (\ref{eq:u3}) и (\ref{eq:u3_trans}) оставлено для будущей экспериментальной работы.

\subsection{Расширенная градиентная динамика}

Мы модифицируем стандартную динамику градиентного спуска, включая топологическое принуждение:

\begin{equation}
\mathbf{w}_{t+1} = \mathbf{w}_t - \eta \left( \nabla_{\mathbf{w}} \mathcal{L}(\mathbf{w}_t) + \lambda(t) \nabla_{\mathbf{w}} \mathcal{U}_{\text{ТФС}}(\boldsymbol{\theta}(\mathbf{w}_t)) \right) + \xi_t,
\label{eq:dynamics}
\end{equation}

где:
\begin{itemize}
\item $\mathcal{L}: \mathbb{R}^N \to \mathbb{R}$: задаче-специфичная потеря (кросс-энтропия, MSE и т.д.)
\item $\lambda(t) \in [0, \lambda_{\max}]$: временно-зависимая сила связи (адаптивное расписание на основе топологии, см. Раздел \ref{sec:algorithm})
\item $\xi_t \sim \mathcal{N}(0, \sigma^2 I)$: стохастический шум, присущий SGD
\end{itemize}

По правилу цепи:
\begin{equation}
\nabla_{w_i} \mathcal{U}_{\text{ТФС}} = \sum_{\tau \ni i} \frac{\partial U_3}{\partial \theta_i}\Big|_{\tau} \cdot \frac{\partial \theta_i}{\partial w_i},
\label{eq:chain_rule}
\end{equation}

где:
\begin{align}
\frac{\partial U_3}{\partial \theta_i} &= \frac{1}{3}\left[\sin(\theta_i - \theta_j) + \sin(\theta_i - \theta_k)\right], \label{eq:du3_dtheta} \\
\frac{\partial \theta_i}{\partial w_i} &= \pi \gamma_{\ell(i)} \operatorname{sech}^2(\gamma_{\ell(i)} w_i). \label{eq:dtheta_dw}
\end{align}

\textbf{Вычислительное примечание:} Для реализации в реальном времени $\operatorname{sech}^2(x) = 1 - \tanh^2(x)$ может быть вычислен эффективно после прямого прохода, поскольку $\tanh(\gamma w_i)$ уже доступен из Ур. (\ref{eq:phase_map}).

\subsection{Связь с предыдущей работой: ускорение грокинга}

В \cite{kim2025grokking} мы ввели ТФС и проанализировали его эффект через теорию синхронизации Курамото, доказав:

\begin{theorem}[Из \cite{kim2025grokking}, переформулировано]
\label{thm:grokking_acceleration}
Для $k$-регулярного триадического графа со спектральным разрывом $\gamma > 0$ и силой связи $\lambda > \lambda_c = 2/(kR)$ (где $R$ — параметр порядка), динамика (\ref{eq:dynamics}) демонстрирует экспоненциальную сходимость к многообразию синхронизации:
\begin{equation}
\text{dist}(\boldsymbol{\theta}(t), \mathcal{M}_{\text{синхр}}) \leq C e^{-\gamma \lambda t},
\end{equation}
что подразумевает время $O(\log 1/\epsilon)$ для достижения $\epsilon$-точности.
\end{theorem}

Настоящая работа расширяет это:
\begin{enumerate}
\item Топологической характеризацией $\mathcal{M}_{\text{синхр}}$ через персистентную гомологию (Раздел \ref{sec:topology}).
\item Морс-теоретическим обоснованием, почему синхронизация приводит к генерализации (Теорема \ref{thm:smoothing}).
\item Введением вычислимой диагностики для отслеживания перехода (метрика LK $H_1$, Определение \ref{def:lk_metric}).
\end{enumerate}

\section{Морс-теоретический анализ и топологический фазовый переход}
\label{sec:topology}

\subsection{Предварительные сведения о теории Морса}

\begin{definition}[Функция Морса]
Гладкая функция $f: M \to \mathbb{R}$ на компактном многообразии $M$ является \textit{функцией Морса}, если все критические точки (где $\nabla f = 0$) невырождены, т.е. гессиан $\nabla^2 f(p)$ невырожден в каждой критической точке $p$.
\end{definition}

\textit{Индекс Морса} $\mu(p)$ — это число отрицательных собственных значений $\nabla^2 f(p)$. Критические точки классифицируются как:
\begin{itemize}
\item Минимумы: $\mu = 0$
\item Сёдла: $0 < \mu < \dim(M)$
\item Максимумы: $\mu = \dim(M)$
\end{itemize}

\textbf{Неравенства Морса \cite{milnor1963morse}:} Число критических точек индекса $k$, обозначенное $c_k$, связано с $k$-м числом Бетти $\beta_k$ (рангом $k$-й группы гомологий $H_k(M)$):
\begin{equation}
c_k \geq \beta_k.
\label{eq:morse_ineq}
\end{equation}

\textbf{Интуиция:} Топология ограничивает оптимизацию. Многообразие с нетривиальной гомологией («дырами») должно иметь соответствующие седловые точки в любой функции Морса.

\subsection{Расширенный ландшафт потерь}

Рассмотрим комбинированную цель:
\begin{equation}
\mathcal{L}_{\lambda}(\mathbf{w}) = \mathcal{L}(\mathbf{w}) + \lambda \mathcal{U}_{\text{ТФС}}(\boldsymbol{\theta}(\mathbf{w})).
\label{eq:augmented_loss}
\end{equation}

\begin{lemma}[Регуляризация гессиана]
\label{lem:hessian_shift}
Для достаточно гладких $\mathcal{L}$ и $\mathcal{U}_{\text{ТФС}}$ гессиан $\mathcal{L}_{\lambda}$ допускает разложение:
\begin{equation}
\nabla^2 \mathcal{L}_{\lambda} = \nabla^2 \mathcal{L} + \lambda \nabla^2 \mathcal{U}_{\text{ТФС}} + O(\lambda^2 \|\nabla \mathcal{U}_{\text{ТФС}}\|^2).
\end{equation}
\end{lemma}

\textbf{Ключевое наблюдение:} $\nabla^2 \mathcal{U}_{\text{ТФС}}$ положительно полуопределён в направлениях, ортогональных многообразию синхронизации:
\begin{equation}
\mathcal{M}_{\text{синхр}} = \{\mathbf{w} \in \mathbb{R}^N : \theta_i = \theta_j = \theta_k \text{ для всех } \{i,j,k\} \in E_3\}.
\label{eq:sync_manifold}
\end{equation}

\begin{proof}[Доказательство наблюдения]
На $\mathcal{M}_{\text{синхр}}$ все фазы совпадают: $\theta_i = \Theta_0$ для некоторой константы $\Theta_0 \in \mathbb{T}^1$. По Утверждению \ref{prop:u3_properties}(1), $\mathcal{U}_{\text{ТФС}}$ достигает глобального минимума на $\mathcal{M}_{\text{синхр}}$.

Для любого направления $\mathbf{v}$, ортогонального $\mathcal{M}_{\text{синхр}}$ (т.е. индуцирующего разности фаз $\delta\theta_i = \langle \mathbf{v}, \nabla_{\mathbf{w}} \theta_i \rangle \neq 0$ для некоторого $i$), разложение Тейлора второго порядка $U_3$ вокруг синхронизации даёт:
\begin{equation}
U_3(\Theta_0 + \delta\theta_i, \Theta_0 + \delta\theta_j, \Theta_0 + \delta\theta_k) = \frac{1}{6}\left[(\delta\theta_i - \delta\theta_j)^2 + (\delta\theta_j - \delta\theta_k)^2 + (\delta\theta_k - \delta\theta_i)^2\right] + O(|\delta\theta|^3).
\end{equation}

Это явно неотрицательно (сумма квадратов), подтверждая положительную полуопределённость.
\end{proof}

\begin{theorem}[Сглаживание ландшафта через ТФС]
\label{thm:smoothing}
Пусть $\mathcal{L}: \mathbb{R}^N \to \mathbb{R}$ — функция Морса с критическими точками $\{p_1, \ldots, p_m\}$. Предположим:
\begin{enumerate}
\item Триадический граф $\mathcal{H}$ связен со средней степенью $k \geq 3$.
\item $\mathcal{M}_{\text{синхр}}$ (Ур. \ref{eq:sync_manifold}) является гладким подмногообразием размерности $d \ll N$.
\item Отображение проекции $\pi: \mathbb{R}^N \to \mathcal{M}_{\text{синхр}}$ корректно определено и сюръективно.
\end{enumerate}

Тогда при увеличении силы связи ($\lambda \to \infty$):

\textbf{(i) Редукция критических точек:} Пары критических точек $(p_i, p_j)$ с последовательными индексами Морса ($\mu(p_i) = k$, $\mu(p_j) = k+1$), не лежащие на $\mathcal{M}_{\text{синхр}}$, испытывают \textit{седло-узловую бифуркацию} и аннигилируют.

\textbf{(ii) Коллапс размерности:} Эффективная динамика оптимизации сводится к $d$-мерному многообразию $\mathcal{M}_{\text{синхр}}$ с:
\begin{equation}
\lim_{\lambda \to \infty} \inf_{\mathbf{w}(t)} \text{dist}(\mathbf{w}(t), \mathcal{M}_{\text{синхр}}) = 0.
\end{equation}
\end{theorem}

\begin{proof}[Набросок доказательства]
\textbf{Часть (i):} По теории Морса-Серфа \cite{cerf1970stratification}, гладкое однопараметрическое семейство функций $f_\lambda$ может подвергаться бифуркациям, где критические точки сталкиваются и исчезают.

Рассмотрим седловую точку $p$ с $\mu(p) = k > 0$. Её неустойчивое многообразие имеет $k$ измерений, натянутых на собственные векторы $\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$, соответствующие отрицательным собственным значениям $\{-\sigma_1, \ldots, -\sigma_k\}$ из $\nabla^2 \mathcal{L}(p)$.

Если $\mathbf{v}_i \perp \mathcal{M}_{\text{синхр}}$ (т.е. индуцирует фазовую десинхронизацию), то по Лемме \ref{lem:hessian_shift} и положительной полуопределённости $\nabla^2 \mathcal{U}_{\text{ТФС}}$ в этом направлении, собственное значение вдоль $\mathbf{v}_i$ в $\nabla^2 \mathcal{L}_\lambda$ становится:
\begin{equation}
\lambda_i(\lambda) = -\sigma_i + \lambda \langle \mathbf{v}_i, \nabla^2 \mathcal{U}_{\text{ТФС}} \mathbf{v}_i \rangle.
\end{equation}

Для $\lambda > \lambda_*^{(i)} = \sigma_i / \langle \mathbf{v}_i, \nabla^2 \mathcal{U}_{\text{ТФС}} \mathbf{v}_i \rangle$ это собственное значение становится положительным, устраняя отрицательную моду. Когда моды переворачиваются, седло становится локальным минимумом или сливается с близлежащим максимумом (индекс $k+1$), приводя к аннигиляции.

\textbf{Часть (ii):} В пределе $\lambda \to \infty$ динамика (\ref{eq:dynamics}) доминируется $-\lambda \nabla \mathcal{U}_{\text{ТФС}}$, которая указывает на $\mathcal{M}_{\text{синхр}}$. Это создаёт быстро-медленную систему, где поперечные направления (быстрые) релаксируют экспоненциально к $\mathcal{M}_{\text{синхр}}$, а тангенциальная динамика (медленная) эволюционирует согласно $\nabla \mathcal{L}|_{\mathcal{M}_{\text{синхр}}}$.

По теореме Фенишеля \cite{fenichel1979geometric} о инвариантных многообразиях сингулярно возмущённых систем, $\mathcal{M}_{\text{синхр}}$ становится нормально гиперболическим инвариантным многообразием, и решения сходятся к нему со скоростью $e^{-c\lambda t}$ для некоторого $c > 0$.
\end{proof}

\begin{remark}
Полное доказательство требует проверки условий трансверсальности, обеспечивающих общие бифуркации. Полное рассмотрение включает техники из теории Морса-Конли \cite{conley1978isolated} и отложено для будущей работы. Представленный набросок захватывает существенный механизм.
\end{remark}

\subsection{Персистентная гомология и гипотеза фазового перехода}

Мы используем персистентную гомологию \cite{edelsbrunner2010computational} для отслеживания топологических характеристик по мере эволюции комплекса Вьеториса-Рипса $\mathcal{K}(\Theta, \epsilon)$ во время обучения.

\begin{definition}[Диаграмма персистентности]
Для фильтрации симплициальных комплексов $\mathcal{K}_0 \subset \mathcal{K}_1 \subset \cdots \subset \mathcal{K}_m$ (параметризованной увеличивающимся порогом $\epsilon$), \textit{$k$-я диаграмма персистентности} $\text{PD}_k$ записывает времена рождения-смерти $k$-мерных классов гомологий:
\begin{itemize}
\item $k=0$: Связные компоненты
\item $k=1$: Петли (1-циклы)
\item $k=2$: Полости (2-циклы)
\end{itemize}

Каждая топологическая характеристика представляется точкой $(b, d) \in \text{PD}_k$, где $b$ — масштаб рождения, $d$ — масштаб смерти. \textit{Персистентность} есть $\text{pers} = d - b$.
\end{definition}

\textbf{Интуиция:} Долгоживущие характеристики (большая персистентность) соответствуют подлинной топологической структуре. Короткоживущие характеристики (малая персистентность) являются шумом.

\begin{hypothesis}[Топологический фазовый переход]
\label{hyp:phase_transition}
Существует критическая сила связи $\lambda_c$, при которой система демонстрирует фазовый переход второго рода в своих топологических свойствах:

\textbf{Фаза I ($\lambda < \lambda_c$): Топологический шум}
\begin{itemize}
\item $\text{PD}_1$ содержит множество коротких отрезков: $\text{pers}(b) < \epsilon_{\text{шум}}$ для большинства $b \in \text{PD}_1$.
\item Они соответствуют транзиентным петлям, образованным случайно выровненными весовыми триплетами.
\item Эффективная размерность: $d_{\text{эфф}} \approx N$ (исследование полного параметрического пространства).
\end{itemize}

\textbf{Фаза II ($\lambda = \lambda_c$): Критический переход}
\begin{itemize}
\item Параметр порядка $R(\lambda)$, определённый как:

\begin{equation}
R(\lambda) = \max_{b \in \text{PD}_1} \text{pers}(b)
\label{eq:order_param}
\end{equation}
непрерывен, но его производная $\frac{dR}{d\lambda}$ демонстрирует разрыв (или расходимость в термодинамическом пределе $N \to \infty$).
\item Аналогия: переход синхронизации Курамото \cite{strogatz2000kuramoto}, где параметр порядка скачкообразно переходит от 0 к конечному значению при критической связи.
\end{itemize}

\textbf{Фаза III ($\lambda > \lambda_c$): Синхронизированное состояние}
\begin{itemize}
\item Возникает \textit{доминантный персистентный 1-цикл} с:
\begin{equation}
\text{pers}(b_{\text{дом}}) \sim O(\text{diam}(\mathcal{L})) \gg \epsilon_{\text{шум}}.
\end{equation}
\item Этот цикл соответствует инвариантному тороидальному подмногообразию $\mathcal{M} \cong \mathbb{T}^d$ ($d \ll N$), на котором находится «выигрышный билет».
\item Эффективная размерность: $d_{\text{эфф}} \approx d$ (ограничение низкоразмерным многообразием).
\item Все остальные отрезки в $\text{PD}_1$ имеют пренебрежимую персистентность.
\end{itemize}
\end{hypothesis}

\begin{conjecture}[Масштабирование критической связи]
\label{conj:lambda_c_scaling}
Для сети с $N$ параметрами и триадическим графом средней степени $\langle k \rangle$ критическая связь масштабируется как:
\begin{equation}
\lambda_c \sim \frac{C}{\langle k \rangle \sqrt{N}} = O(N^{-1/2}),
\label{eq:lambda_c_scaling}
\end{equation}
где $C$ — константа, зависящая от кривизны ландшафта задачи потерь.
\end{conjecture}

\textbf{Эвристическое обоснование:} В модели Курамото на случайных графах с $N$ осцилляторами критическая связь для синхронизации масштабируется как $\sim 1/\sqrt{N}$ \cite{strogatz2000kuramoto}. Наше триадическое расширение сохраняет это масштабирование в среднеполевом пределе.

\subsection{Геометрическая интерпретация гипотезы лотерейного билета}

\begin{proposition}[ГЛБ через персистентные циклы]
\label{prop:lth_cycles}
«Выигрышный билет», идентифицированный итеративной обрезкой по величине \cite{frankle2019lottery}, соответствует весам, лежащим на носителе доминантного персистентного 1-цикла в $\text{PD}_1$.
\end{proposition}

\textbf{Операционное определение:} Определим бинарную маску $\mathbf{m} \in \{0,1\}^N$ как:
\begin{equation}
m_i = \mathbb{1}\left[ \exists b \in \text{PD}_1 : \text{pers}(b) > \epsilon_{\text{порог}}, \; w_i \in \text{носитель}(b) \right],
\label{eq:mask_topology}
\end{equation}
где $\text{носитель}(b)$ обозначает множество весов, участвующих в симплексах, дающих рождение циклу $b$.

\textbf{Проверяемое предсказание:} Применить итеративную обрезку по величине (IMP) к:
\begin{enumerate}
\item Базовой сети (ванильное обучение)
\item Сети TWG-Топология (с ТФС)
\end{enumerate}

\textbf{Гипотеза:} Маска $\mathbf{m}_{\text{IMP}}$ из IMP на ранних стадиях («билеты ранней птицы» \cite{you2020drawing}) будет соответствовать $\mathbf{m}_{\text{топология}}$ (Ур. \ref{eq:mask_topology}) с коэффициентом Жаккара $>0.9$ для сетей TWG, но $<0.5$ для базовой.

\textbf{Интерпретация:} ТФС \textit{конструирует} выигрышный билет путём принуждения топологической структуры, тогда как IMP \textit{обнаруживает} его через стохастический поиск.

\section{Спецификация алгоритма и вычислительная сложность}
\label{sec:algorithm}

\subsection{Алгоритм TWG-Топология}

\begin{algorithm}[H]
\caption{TWG-Топология: Обучение с триадическим принуждением и топологическим мониторингом}
\label{alg:twg}
\begin{algorithmic}[1]
\REQUIRE Сеть $f_{\theta}$, Набор данных $\mathcal{D}$, Гиперпараметры $\{\eta, \lambda_{\max}, \alpha, R_{\text{порог}}, K_{\text{тфс}}, K_{\text{топ}}, M_{\text{выборка}}\}$
\STATE \textbf{Инициализация:} $\mathbf{w}^{(0)} \sim \mathcal{N}(0, \sigma^2 I)$, $\lambda \leftarrow 0$, $R_{\text{история}} \leftarrow []$

\STATE \textbf{Построение триадического графа $\mathcal{H}$:}
\FOR{каждого слоя $\ell$}
\STATE Идентифицировать архитектурную структуру (выходы ПС, свёрточные фильтры, головы внимания)
\STATE Генерировать триплеты $E_3^{(\ell)}$ через критерий близости (см. Определение \ref{def:hypergraph})
\ENDFOR
\STATE $E_3 \leftarrow \bigcup_\ell E_3^{(\ell)}$

\STATE \textbf{Предвычисление:} Слоевые масштабы нормализации $\{\gamma_\ell = \sigma_\ell^{-1}\}_{\ell=1}^L$
\STATE
\FOR{эпохи $t = 1$ до $T_{\max}$}
\STATE \textbf{Стандартный градиентный шаг:}
\STATE \quad Взять мини-партию $\mathcal{B} \sim \mathcal{D}$
\STATE \quad Вычислить потерю задачи $\mathcal{L} = \frac{1}{|\mathcal{B}|} \sum_{(x,y) \in \mathcal{B}} \ell(f_{\mathbf{w}}(x), y)$
\STATE \quad Вычислить градиент $\mathbf{g}_{\mathcal{L}} \leftarrow \nabla_{\mathbf{w}} \mathcal{L}$
\STATE
\STATE \textbf{Регуляризация ТФС (каждые $K_{\text{тфс}}$ эпох):}
\IF{$t \bmod K_{\text{тфс}} = 0$}
      \STATE \quad \textbf{Отображение фаз:} $\theta_i \leftarrow \pi \tanh(\gamma_{\ell(i)} w_i)$ для всех $i$ (Ур. \ref{eq:phase_map})
      \STATE \quad Инициализировать $\mathbf{g}_{\text{ТФС}} \leftarrow \mathbf{0}$
      \FOR{каждого триплета $\tau = \{i,j,k\} \in E_3$}
         \STATE \quad \quad Вычислить $\frac{\partial U_3}{\partial \theta_i}$ через Ур. (\ref{eq:du3_dtheta}) (аналогично для $j, k$)
         \STATE \quad \quad Вычислить $\frac{\partial \theta_i}{\partial w_i}$ через Ур. (\ref{eq:dtheta_dw}) (аналогично для $j, k$)
         \STATE \quad \quad $[\mathbf{g}_{\text{ТФС}}]_i \leftarrow [\mathbf{g}_{\text{ТФС}}]_i + \frac{\partial U_3}{\partial \theta_i} \cdot \frac{\partial \theta_i}{\partial w_i}$
         \STATE \quad \quad (накапливать для $j, k$ аналогично)
      \ENDFOR
\ENDIF
\STATE
\STATE \textbf{Комбинированное обновление:}
\STATE \quad $\mathbf{w} \leftarrow \mathbf{w} - \eta \left( \mathbf{g}_{\mathcal{L}} + \lambda(t) \mathbf{g}_{\text{ТФС}} \right)$
\STATE
\STATE \textbf{Топологическая диагностика (каждые $K_{\text{топ}}$ эпох):}
\IF{$t \bmod K_{\text{топ}} = 0$}
      \STATE \quad \textbf{Подвыборка:} Выбрать $M = M_{\text{выборка}}$ представительных весов
      \STATE \quad \quad (например, выборка дальнейших точек в фазовом пространстве)
      \STATE \quad Построить комплекс Вьеториса-Рипса $\mathcal{K}$ на $\{\theta_i\}_{i \in \text{выборка}}$ с расстоянием Ур. (\ref{eq:torus_distance})
      \STATE \quad Вычислить $\text{PD}_1$ через Ripser \cite{bauer2021ripser}
      \STATE \quad Вычислить параметр порядка: $R(t) \leftarrow \max_{b \in \text{PD}_1} \text{pers}(b)$ (Ур. \ref{eq:order_param})
      \STATE \quad Вычислить LK-показатель: $\text{LK}(t) \leftarrow \|\text{pers}\|_2^2 / \|\text{pers}\|_1$ (Определение \ref{def:lk_metric})
      \STATE \quad Добавить $R_{\text{история}} \leftarrow R_{\text{история}} \cup \{R(t)\}$
      \STATE
      \STATE \quad \textbf{Адаптивное обновление связи:}
      \STATE \quad \quad $\Delta R \leftarrow R(t) - R(t - K_{\text{топ}})$ \quad (скорость изменения)
      \STATE \quad \quad $\lambda(t) \leftarrow \lambda_{\max} \cdot \sigma_{\text{крут}}(\alpha (R(t) - R_{\text{порог}}) + \beta \Delta R)$
      \STATE \quad \quad где $\sigma_{\text{крут}}(x) = (1 + e^{-x})^{-1}$, $\alpha = 10$, $\beta = 5$
      \STATE
      \STATE \quad \textbf{Проверка ранней остановки:}
      \IF{$\text{LK}(t) > \text{LK}_{\text{стоп}}$ и улучшение $\mathcal{L}_{\text{вал}}$ $< \epsilon_{\text{плато}}$ за последние 5 проверок}
         \STATE \quad \quad \textbf{Триггер:} Неизбежная генерализация, рассмотреть снижение скорости обучения или остановку
      \ENDIF
\ENDIF
\ENDFOR
\STATE \textbf{Возврат:} Обученные веса $\mathbf{w}^{(T_{\max})}$, Диаграммы персистентности $\{\text{PD}_1^{(t)}\}_{t \in \{K_{\text{топ}}, 2K_{\text{топ}}, \ldots\}}$
\end{algorithmic}
\end{algorithm}

\subsection{Анализ вычислительной сложности}

\textbf{Затраты на эпоху:}
\begin{enumerate}
\item \textbf{Прямой/обратный проход:} $O(N \cdot B)$ для $N$ параметров, размера партии $B$ (стандарт).
\item \textbf{Вычисление фаз:} $O(N)$ (векторизованный $\tanh$, пренебрежимые накладные расходы).
\item \textbf{Градиент ТФС:} Каждый триплет требует $O(1)$ операций. С $|E_3| \approx N \cdot k$ (средняя степень $k$):
\begin{equation}
\text{Стоимость}_{\text{ТФС}} = O(N \cdot k) \approx O(N) \text{ для } k = O(1).
\end{equation}
\item \textbf{Амортизация:} ТФС каждые $K_{\text{тфс}} = 10$ эпох:
\begin{equation}
\text{Накладные расходы}_{\text{ТФС}} \approx \frac{O(N)}{K_{\text{тфс}}} \ll O(N \cdot B).
\end{equation}
\end{enumerate}

Для типичных настроек ($k \in [3, 10]$, $K_{\text{тфс}} = 10$, $B \in [32, 256]$):
\begin{equation}
\text{Общие накладные расходы ТФС} < 5\% \text{ времени обучения.}
\end{equation}

\textbf{Топологическое вычисление:}

Вычисление персистентной гомологии через Ripser \cite{bauer2021ripser}:
\begin{itemize}
\item $H_0$ (связные компоненты): $O(M \log M)$ (Union-Find)
\item $H_1$ (петли): $O(M^3)$ в худшем случае, но часто $O(M^2)$ на практике для структурированных данных
\end{itemize}

\textbf{Стратегия масштабируемости:} Для сетей с $N \sim 10^6$--$10^9$ параметров прямое вычисление невыполнимо. Мы используем:

\begin{enumerate}
\item \textbf{Подвыборка:} $M = 1000$--$5000$ весов, выбранных через:
\begin{itemize}
      \item Выборка дальнейших точек (максимизирует покрытие фазового пространства)
      \item Важностная выборка, взвешенная по $|\nabla \mathcal{L}|$ (приоритизирует активные веса)
      \item Стратифицированная выборка (обеспечивает представительство из всех слоёв)
\end{itemize}
Стоимость: $O(M^2) = O(10^6)$ операций $\approx$ 1--10 мс на современном GPU.

\item \textbf{Локализация:} Вычислить $\text{PD}_1$ отдельно для каждого слоя/модуля, затем агрегировать. Это эксплуатирует архитектурную модульность и позволяет параллельное вычисление.

\item \textbf{Периодичность:} Топологическая диагностика каждые $K_{\text{топ}} = 100$ эпох. Амортизированная стоимость за 100 эпох пренебрежима по сравнению с вычислением градиента.
\end{enumerate}

\textbf{Общие накладные расходы обучения:}
\begin{equation}
\text{Накладные расходы}_{\text{общие}} = \underbrace{5\%}_{\text{ТФС}} + \underbrace{< 1\%}_{\text{Топология}} < 6\%.
\end{equation}

\subsection{Метрика Лео Кима $H_1$}

Для мониторинга в реальном времени без хранения полных диаграмм персистентности мы вводим скалярную диагностику:

\begin{definition}[Топологическая метрика Лео Кима]
\label{def:lk_metric}
Для диаграммы персистентности $\text{PD}_1 = \{(b_1, d_1), \ldots, (b_n, d_n)\}$ с значениями персистентности $\{\text{pers}_i = d_i - b_i\}$ определим:
\begin{equation}
\text{LK-показатель}(t) = \frac{\sum_{i=1}^{n} \text{pers}_i^2}{\sum_{i=1}^{n} \text{pers}_i} = \frac{\|\text{pers}\|_2^2}{\|\text{pers}\|_1}.
\label{eq:lk_metric}
\end{equation}
\end{definition}

\textbf{Свойства:}
\begin{proposition}
LK-показатель удовлетворяет:
\begin{enumerate}
\item \textbf{Границы:} $\min_i \text{pers}_i \leq \text{LK-показатель} \leq \max_i \text{pers}_i$.
\item \textbf{Экстремумы:} $\text{LK-показатель} = \max_i \text{pers}_i$ тогда и только тогда, когда точно один отрезок доминирует (т.е. один $\text{pers}_j \gg \sum_{i \neq j} \text{pers}_i$).
\item \textbf{Нечувствительность к шуму:} Короткие отрезки вносят пренебрежимый вклад: если $\text{pers}_i = \epsilon$ для всех $i \neq j$ и $\text{pers}_j = P \gg \epsilon$, то:
\begin{equation}
\text{LK-показатель} \approx \frac{P^2 + n\epsilon^2}{P + n\epsilon} \approx P \quad (\text{для } n\epsilon \ll P).
\end{equation}
\end{enumerate}
\end{proposition}

\begin{proof}
(1) По неравенству Коши-Шварца: $\|\text{pers}\|_1^2 \leq n \|\text{pers}\|_2^2$, таким образом:
\begin{equation}
\text{LK-показатель} = \frac{\|\text{pers}\|_2^2}{\|\text{pers}\|_1} \geq \frac{\|\text{pers}\|_1}{n} \geq \min_i \text{pers}_i.
\end{equation}
Верхняя граница: $\|\text{pers}\|_2^2 \leq \max_i \text{pers}_i \cdot \|\text{pers}\|_1$ по доминированию.

(2) Если $\text{pers}_j = P$ и $\text{pers}_i = 0$ для $i \neq j$: $\text{LK-показатель} = P^2 / P = P$.

(3) Прямое вычисление из определения.
\end{proof}

\textbf{Интерпретация:} LK-показатель действует как «отношение сигнал-шум» для топологии. Он резко возрастает, когда возникает доминантный персистентный цикл, предоставляя скалярный сигнал раннего предупреждения для генерализации.

\section{Количественные предсказания и проверяемые гипотезы}
\label{sec:predictions}

Мы формулируем пять явных, фальсифицируемых предсказаний, подходящих для эмпирической проверки.

\subsection{Предсказание 1: Ускорение сходимости на алгоритмических задачах}

\begin{hypothesis}[Ускорение через топологическое принуждение]
\label{hyp:speedup}
Для задач, демонстрирующих грокинг (модульная арифметика \cite{power2022grokking}, группы перестановок, графовые алгоритмы), TWG-Топология сократит время до генерализации в 2--5$\times$ по сравнению с ванильным SGD и в 1.5--3$\times$ по сравнению с weight decay ($\lambda_{\text{WD}} = 10^{-2}$) или dropout (скорость 0.1).

\textbf{Протокол измерения:}
\begin{itemize}
\item \textbf{Задача:} Бинарная операция на конечной группе, например, $(a \cdot b) \bmod p$, $p \in \{97, 113, 127\}$.
\item \textbf{Разделение:} 30\% обучение, 70\% валидация (для индуцирования сверхпараметризации).
\item \textbf{Архитектура:} 2-слойный MLP с $d_{\text{скрытый}} \in \{128, 256, 512\}$.
\item \textbf{Оптимизатор:} Adam с $\eta = 10^{-3}$, размер партии 64.
\item \textbf{Метрика:} $T_g$ = первая эпоха, достигающая $\geq 95\%$ точности валидации.
\item \textbf{Повторения:} 10 случайных сидов, сообщить среднее $\pm$ станд. отклонение.
\end{itemize}

\textbf{Ожидаемые численные результаты:}
\begin{center}
\begin{tabular}{lccc}
\hline
\textbf{Метод} & \textbf{$T_g$ (эпохи)} & \textbf{LK-показатель при $T_g$} & \textbf{$d_{\text{эфф}}$} \\
\hline
Ванильный SGD & $12{,}000 \pm 2{,}000$ & $0.15 \pm 0.08$ & $0.45N$ \\
Weight Decay & $7{,}000 \pm 1{,}500$ & $0.28 \pm 0.12$ & $0.35N$ \\
Dropout (0.1) & $9{,}000 \pm 1{,}800$ & $0.22 \pm 0.10$ & $0.40N$ \\
\textbf{TWG-Топология} & $\mathbf{3{,}500 \pm 800}$ & $\mathbf{0.75 \pm 0.15}$ & $\mathbf{0.08N}$ \\
\hline
\end{tabular}
\end{center}
\end{hypothesis}

\subsection{Предсказание 2: LK-показатель как опережающий индикатор}

\begin{hypothesis}[Сигнал раннего предупреждения]
\label{hyp:leading_indicator}
LK-показатель (Определение \ref{def:lk_metric}) продемонстрирует резкое увеличение $\Delta t_{\text{опережение}} = 100$--500 эпох \textit{до} того, как точность валидации достигнет 95\%. Это опережающее время должно быть согласованным через случайные сиды (коэффициент вариации $< 0.3$).

\textbf{Экспериментальный тест:}
\begin{enumerate}
\item Обучить сеть с TWG-Топология, записывая $\text{LK}(t)$ и $\text{ТочнВал}(t)$ при каждом топологическом контрольном пункте.
\item Определить:
\begin{align}
T_{\text{LK}} &= \min\{t : \text{LK}(t) > 0.6\}, \\
T_{\text{Вал}} &= \min\{t : \text{ТочнВал}(t) > 0.95\}.
\end{align}
\item Вычислить опережающее время: $\Delta t_{\text{опережение}} = T_{\text{Вал}} - T_{\text{LK}}$.
\item Измерить кросс-корреляцию: $\rho(t) = \text{Корр}(\text{LK}(s), \text{ТочнВал}(s+t))$ для различных лагов $t$.
\end{enumerate}

\textbf{Ожидается:} $\Delta t_{\text{опережение}} = 200 \pm 80$ эпох, $\rho$ максимизируется при $t^* \in [100, 300]$.

\textbf{Применение:} Использовать порог LK-показателя (например, $\text{LK} > 0.6$) как триггер для:

\begin{itemize}
\item Ранней остановки (для экономии вычислений)
\item Снижения скорости обучения (для тонкой настройки после структурного обнаружения)
\item Адаптивной обрезки (удаления весов с низким вкладом LK)
\end{itemize}
\end{hypothesis}

\subsection{Предсказание 3: Редукция эффективной размерности}

\begin{hypothesis}[Аттрактор низкой размерности]
\label{hyp:dimension}
После сходимости с TWG-Топология эффективная размерность параметрического пространства (измеренная через оценки внутренней размерности \cite{levina2005maximum} или спектр PCA) будет удовлетворять:
\begin{equation}
d_{\text{эфф}} < 0.1 N,
\end{equation}
по сравнению с $d_{\text{эфф}} \in [0.3, 0.5] N$ для ванильного обучения.

\textbf{Измерение:} Вычислить коэффициент участия:
\begin{equation}
d_{\text{эфф}} = \frac{\left(\sum_i \sigma_i\right)^2}{\sum_i \sigma_i^2},
\label{eq:participation_ratio}
\end{equation}
где $\{\sigma_i\}$ — сингулярные значения весовой матрицы (или её якобиана для многослойного анализа).

\textbf{Альтернатива:} Использовать оценку максимального правдоподобия \cite{levina2005maximum} для внутренней размерности, основанную на расстояниях до ближайших соседей в параметрическом пространстве.
\end{hypothesis}

\subsection{Предсказание 4: Разрежение в внимании Transformer}

\begin{hypothesis}[Топология внимания]
\label{hyp:attention}
Для моделей Transformer, обученных с ТФС, применённым к матрицам проекции внимания ($W_Q, W_K, W_V$):
\begin{enumerate}
\item \textbf{Увеличение разреженности:} Матрицы внимания $A_{ij} = \text{softmax}(Q_i K_j^T / \sqrt{d})$ продемонстрируют $> 60\%$ элементов с $A_{ij} < 0.01$ (против $< 40\%$ для базовой).
\item \textbf{Плотность треугольников:} Графы внимания будут иметь более высокий коэффициент кластеризации:
\begin{equation}
C = \frac{3 \times \text{число треугольников}}{\text{число связанных троек}} > 0.5,
\end{equation}
против $C \in [0.2, 0.4]$ для базовой.
\item \textbf{Устойчивость к обрезке:} Обрезка рёбер с $A_{ij} < 0.05$ ухудшит перплексию на $< 5\%$ (против $> 15\%$ деградации для базовой).
\end{enumerate}

\textbf{Задача:} Тонкая настройка BERT на бенчмарке GLUE \cite{wang2018glue} (например, SST-2, MNLI).

\textbf{Механизм:} ТФС обеспечивает триадическое замыкание в графе внимания, приводя к естественному разрежению и иерархической структуре сообщества.
\end{hypothesis}

\subsection{Предсказание 5: Закон масштабирования для критической связи}

\begin{hypothesis}[Степенное масштабирование]
\label{hyp:scaling}
Для сетей с $N \in [10^4, 10^7]$ параметрами критическая связь (где $\frac{dR}{d\lambda}$ максимальна) будет масштабироваться как:
\begin{equation}
\lambda_c \propto N^{-\beta}, \quad \beta \in [0.45, 0.55].
\label{eq:scaling_law}
\end{equation}

\textbf{Протокол измерения:}
\begin

{enumerate}
\item Зафиксировать класс архитектуры (например, 2-слойный MLP) и варьировать ширину w \in {64, 128, 256, 512, 1024, 2048}, давая N \sim w^2.
\item Для каждого N выполнить поиск по гиперпараметрам: \lambda \in [10^{-3}, 10^{0}] (логарифмическая сетка).
\item Для каждого \lambda обучать в течение фиксированной длительности (например, 5000 эпох) и измерять финальный R(\lambda).
\item Оценить \lambda_c как:
\begin{equation}
\lambda_c \approx \arg\max_\lambda \frac{dR}{d\lambda} \quad (\text{через конечные разности}).
\end{equation}
\item Подогнать степенной закон: \log \lambda_c = -\beta \log N + \text{const}.
\end{enumerate}
\textbf{Ожидается:} \beta \approx 0.5 (согласуется с Гипотезой \ref{conj:lambda_c_scaling}), с R^2 > 0.85 для подгонки.
\end{hypothesis}
\section{Более широкое воздействие: к зелёному ИИ}
\label{sec:impact}
\subsection{Экологический контекст}
Обучение крупномасштабных нейронных сетей потребляет огромное количество энергии. Оценки предполагают, что обучение GPT-3 выбросило \sim 500 тонн CO$_2$ \cite{strubell2019energy}, и прогнозируется, что энергопотребление сектора ИИ к 2030 году будет конкурировать с энергопотреблением целых наций \cite{hao2019ai}. Эта экологическая стоимость мотивирует развивающуюся область \textit{зелёного ИИ} \cite{schwartz2020green}, которая стремится сократить углеродный след машинного обучения.
\subsection{Механизмы снижения энергопотребления через ТФС}
Наша система вносит вклад в зелёный ИИ через множество путей:
\begin{enumerate}
\item \textbf{Ускоренная сходимость:} Сокращая время обучения в 2--5$\times$ (Предположение \ref{hyp:speedup}), TWG-Топология напрямую снижает энергопотребление пропорционально. Для модели, требующей 100 GPU-часов при стандартном обучении, ТФС может сократить это до 20--50 часов---экономия \sim 10 МВтч для крупномасштабных запусков.
\item \textbf{Ранняя остановка через LK-метрику:} Опережающее время 100--500 эпох (Предположение \ref{hyp:leading_indicator}) позволяет прекращение до ненужного переобучения. Это избегает распространённой практики обучения «после генерализации» из осторожности.

\item \textbf{Редукция размерности:} Сходимость к $d_{\text{эфф}} < 0.1N$ (Предположение \ref{hyp:dimension}) предполагает, что 90\% параметров избыточны после ТФС. Это обеспечивает:
\begin{itemize}
\item Агрессивную обрезку без потери точности
\item Обучение меньших моделей с самого начала («рождённые эффективными» архитектуры)
\item Вычисления меньшей точности (меньше значимых измерений лучше переносят квантование)
\end{itemize}

\item \textbf{Разрежение внимания:} Для Transformers предсказанная 60\% разреженность во внимании (Предположение \ref{hyp:attention}) сокращает вычисление внимания $O(L^2)$ эффективно до $O(0.4 L^2)$, ускорение в 2.5$\times$ при инференсе. В масштабе (например, GPT-4 с миллиардами параметров, обслуживающий миллионы запросов ежедневно) это транслируется в экономию энергии МВт-масштаба.

\item \textbf{Детерминистические лотерейные билеты:} Конструируя выигрышные билеты через топологическое принуждение (Утверждение \ref{prop:lth_cycles}) вместо стохастической итеративной обрезки, мы устраняем необходимость в нескольких циклах обучения. Стандартная ГЛБ требует 5--10 полных циклов обучения для идентификации выигрышного билета; ТФС находит его за один проход.
\end{enumerate}
\subsection{Количественная оценка энергетического воздействия}
\textbf{Сценарий:} Обучение модели BERT-base (110M параметров) на задачах GLUE.
\begin{itemize}
\item \textbf{Базовая:} 3 эпохи, 8 GPU V100, 12 часов \Rightarrow 96 GPU-часов.
\item \textbf{Мощность GPU:} V100 TDP = 300Вт. Общая энергия: 96 \times 0.3 = 28.8 кВтч.
\item \textbf{С TWG (4$\times$ ускорение):} 24 GPU-часа \Rightarrow 7.2 кВтч.
\item \textbf{Экономия:} 21.6 кВтч на цикл обучения.

\end{itemize}
Для организации, обучающей 1000 моделей в год (типично для крупных исследовательских лабораторий):
\begin{equation}
\text{Годовая экономия} = 1000 \times 21.6 = 21{,}600 \text{ кВтч} = 21.6 \text{ МВтч}.
\end{equation}
При средней углеродной интенсивности 0.5 кг CO$_2$/кВтч (сеть США) это эквивалентно:
\begin{equation}
\text{Сокращение CO}_2 = 21.6 \times 10^3 \times 0.5 = 10{,}800 \text{ кг CO}_2 \approx 11 \text{ тонн CO}_2/\text{год}.
\end{equation}
\textbf{Экстраполяция:} Если принять в масштабе отрасли (оценочно 10^5 циклов обучения больших моделей ежегодно), потенциальное сокращение CO$_2$ составляет \sim 10^6 тонн/год---сравнимо с удалением 200,000 автомобилей с дороги.
\subsection{Ограничения и этические соображения}
Хотя ТФС предлагает экологические преимущества, мы признаём потенциальные проблемы:
\begin{enumerate}
\item \textbf{Парадокс повышенной эффективности (Джевонс):} Более дешёвое обучение может индуцировать больше циклов обучения, компенсируя абсолютные сокращения. Однако это системная экономическая проблема за пределами области индивидуальных алгоритмических улучшений.
\item \textbf{Доступ и равенство:} Если ТФС требует специализированных знаний для реализации, это может расширить разрыв между хорошо обеспеченными ресурсами лабораториями и меньшими исследовательскими группами. Для смягчения этого мы предоставляем открытые описания алгоритмов.

\item \textbf{Непреднамеренные применения:} Более быстрое обучение может обеспечить вредные применения (например, массовая слежка, дипфейки). Это ортогонально самому методу; этичное развёртывание остаётся ответственностью практиков.
\end{enumerate}
\subsection{Политические рекомендации}
\begin{itemize}
\item \textbf{Отчётность по углероду:} Конференции по машинному обучению должны требовать оценки энергии/углерода для вычислительных экспериментов (аналогично Струбелл и др. \cite{strubell2019energy}).
\item \textbf{Стимулирование эффективности:} Финансирующие агентства могут приоритизировать исследования, демонстрирующие вычислительную экономию.
\item \textbf{Открытые бенчмарки:} Установить стандартизированные бенчмарки для энергоэффективных алгоритмов обучения, включая ТФС.
\end{itemize}
\section{Протокол экспериментальной проверки}
\label{sec:protocol}
Для исследователей, проводящих эмпирические исследования, мы предоставляем стандартизированный протокол для обеспечения воспроизводимости и сопоставимости.
\subsection{Минимальные требования к воспроизводимости}
\textbf{Программный стек:}
\begin{itemize}
\item Python 3.8+, PyTorch 2.0+ или JAX 0.4+
\item Ripser (для персистентной гомологии): \texttt{pip install ripser}
\item GUDHI (альтернативная библиотека PH): \texttt{conda install -c conda-forge gudhi}
\item Случайные сиды: Зафиксировать \texttt{torch.manual_seed}, \texttt{numpy.random.seed} и сиды CUDA
\item Сообщать статистику по \geq 5 случайным сидам (среднее \pm станд. откл.)
\end{itemize}
\textbf{Гиперпараметры для сообщения:}
\begin{center}
\begin{tabular}{ll}
\hline
\textbf{Параметр} & \textbf{Описание} \
\hline
\lambda_{\max} & Максимальная сила связи \
\alpha, \beta & Крутизна адаптивного расписания \
R_{\text{порог}} & Порог параметра порядка \
K_{\text{тфс}}, K_{\text{топ}} & Частоты обновления \
M_{\text{выборка}} & Размер подвыборки для PH \
\gamma_\ell & Послойное масштабирование фаз \
\hline
\end{tabular}
\end{center}
\textbf{Предлагаемые значения по умолчанию:}
\lambda_{\max} = 0.5, \alpha = 10, \beta = 5, R_{\text{порог}} = 0.4, K_{\text{тфс}} = 10, K_{\text{топ}} = 100, M_{\text{выборка}} = 1000.
\textbf{Метрики для отслеживания (за эпоху):}
\begin{enumerate}
\item Потеря обучения, потеря валидации, точность валидации
\item LK-показатель (каждые K_{\text{топ}} эпох)
\item Параметр порядка R(t) (каждые K_{\text{топ}})
\item Реальное время (для количественной оценки накладных расходов)

\item Использование памяти GPU
\end{enumerate}
\textbf{При сходимости:}
\begin{enumerate}
\item Полные \text{PD}_0, \text{PD}_1, \text{PD}_2 (сохранить как .npy или .csv)
\item Эффективная размерность d_{\text{эфф}} (Ур. \ref{eq:participation_ratio})
\item Гистограмма весов (для оценки потенциала квантования)
\item Если применимо: Процент разреженности, чувствительность к обрезке
\end{enumerate}
\subsection{Прогрессия задач}
\textbf{Уровень 1 (Обязательно для проверки):}
\begin{enumerate}
\item Модульное сложение: (a + b) \bmod p, p \in {97, 113}, 30% обучающих данных
\item XOR/Чётность: N-битная чётность с N \in {6, 8, 10}
\end{enumerate}
(a + b) \bmod p
\textbf{Уровень 2 (Рекомендуется):}
\begin{enumerate}
\item Композиция группы перестановок: S_5 или S_6
\item Алгоритмическое рассуждение: Сортирующие сети, связность графов
\item MNIST с сильной сверхпараметризацией: 10^6 параметров для 60K образцов
\end{enumerate}
\textbf{Уровень 3 (Исследовательский):}
\begin{enumerate}
\item CIFAR-10/100 с ResNet-18 или Vision Transformer
\item Тонкая настройка BERT на GLUE
\item Графовые нейронные сети на наборах данных цитирования (Cora, Citeseer)
\item Обучение с подкреплением: игры Atari с вариантами DQN
\end{enumerate}
\subsection{Абляционные исследования}
Критические абляции для разделения вкладов:
\begin{enumerate}
\item \textbf{ТФС против Weight Decay:} Соответствовать эффективной силе регуляризации через поиск по сетке над \lambda_{\text{WD}}.
\item \textbf{Диадический против триадического:} Заменить U_3 на парный U_2(\theta_i, \theta_j) = 1 - \cos(\theta_i - \theta_j).
\item \textbf{Фиксированный против адаптивного \lambda:} Сравнить адаптивное расписание (Алгоритм \ref{alg:twg}, строка 23) с фиксированным \lambda = \lambda_{\max}.
\item \textbf{Отображение фаз:} Сравнить \tanh (Ур. \ref{eq:phase_map}) против \arctan, сигмоиды или прямого знака.
\item \textbf{Топологический мониторинг:} Измерить корреляцию между LK-показателем и точностью валидации через все контрольные точки.
\end{enumerate}
\subsection{Отрицательные результаты}
Мы подчёркиваем: \textbf{нулевые результаты научно ценны}. Если TWG-Топология:
\begin{itemize}
\item Не ускоряет сходимость на задаче X
\item Не показывает корреляции между LK-показателем и генерализацией
\item Работает хуже базовой при специфических условиях
\end{itemize}
Такие находки уточняют границы применимости теории и должны быть опубликованы. Мы поощряем:
\begin{itemize}
\item Детальный анализ режимов отказа (когда/почему ТФС не помогает?)
\item Уточнение гипотез (какие задачи демонстрируют топологические фазовые переходы?)
\item Сравнение с альтернативными топологическими методами (например, mapper, зигзаг персистентность)
\end{itemize}
\section{Политика публикации и сотрудничества}
\label{sec:collaboration}
\subsection{Открытая лицензия и разрешения}
Авторы предоставляют \textbf{вечное, всемирное, безвозмездное, безотзывное разрешение} любой стороне:
\begin{enumerate}
\item Реализовать алгоритм TWG-Топология (Алгоритм \ref{alg:twg})
\item Тестировать теоретические предсказания (Предположения \ref{hyp:speedup}--\ref{hyp:scaling})
\item Публиковать экспериментальные результаты (положительные, отрицательные или неокончательные) под независимым авторством
\item Модифицировать, расширять или адаптировать систему для специфических областей
\item Включать находки в диссертации, тезисы, препринты и рецензируемые публикации
\item Использовать в коммерческих приложениях (с цитированием)
\end{enumerate}
\textbf{Требуемое указание авторства:}
\begin{quote}
Л. Ким и Л. Золотой-Ким, «Топологическая регуляризация через триадическую синхронизацию: Морс-теоретический подход к ускоренному обучению через низкоразмерные инвариантные многообразия», Декабрь 2025.
\end{quote}
Дополнительное рекомендуемое цитирование для предшественника ускорения грокинга:

\begin{quote}
Л. Ким и Л. Золотой-Ким, «Индуцирование алгоритмических фазовых переходов: теоретическая система для ускорения грокинга через триадическую фазовую синхронизацию», Zenodo, DOI: 10.5281/zenodo.18028535, Декабрь 2025.
\end{quote}
\textbf{Опционально (ценится):}
\begin{itemize}
\item Цитировать специфические теоремы, гипотезы или определения, проверенные (например, «Мы проверяем Предположение 2 из \cite{kim2025topology}...»)
\item Делиться препринтами перед публикацией (для обратной связи)
\item Вносить вклад в бенчмарки сообщества (если установлены)
\end{itemize}
\subsection{Соавторство}
Мы \textbf{не требуем} соавторства в чисто экспериментальных исследованиях, проверяющих эту теорию. Однако мы открыты для совместных договорённостей, если:
\begin{itemize}
\item Экспериментальные находки мотивируют существенные теоретические уточнения или расширения
\item Крупномасштабные кампании проверки требуют постоянных теоретических консультаций
\item Новые приложения к неизведанным областям (нейроморфное оборудование, квантовое МО, биологические нейронные цепи)
\end{itemize}
\textbf{Контакт для сотрудничества:} \section{Заключение}
Мы представили всеобъемлющую теоретическую систему, объединяющую лотерейные билеты, нейронный коллапс и грокинг через призму алгебраической топологии и теории Морса. Центральная инновация---\textit{триадическая фазовая синхронизация}---предлагает принципиальный механизм для ускорения обучения путём принуждения низкоразмерной топологической структуры в параметрическом пространстве.
\textbf{Теоретические вклады:}
\begin{enumerate}
\item Формализация успешного обучения как возникновения персистентных 1-циклов (Предположение \ref{hyp:phase_transition})
\item Морс-теоретическое доказательство сглаживания ландшафта через устранение критических точек (Теорема \ref{thm:smoothing})
\item Вычислимая диагностика (метрика LK H_1) для мониторинга в реальном времени (Определение \ref{def:lk_metric})
\item Закон масштабирования для критической связи: \lambda_c \sim N^{-1/2} (Гипотеза \ref{conj:lambda_c_scaling})
\end{enumerate}
\textbf{Практические последствия:}
\begin{enumerate}
\item 2--5$\times$ ускорение обучения (потенциальная экономия 10--20 МВтч энергии на большую модель)
\item 100--500 эпох раннего предупреждения для генерализации (обеспечивающие раннюю остановку)
\item Редукция размерности до <10% параметров (облегчающая обрезку и квантование)
\item Путь зелёного ИИ (многотонное годовое сокращение CO$_2$ в масштабе)
\end{enumerate}
\textbf{Открытые вопросы:}
\begin{enumerate}
\item Демонстрирует ли топологический фазовый переход универсальность через классы архитектур?
\item Может ли высшая гомология (H_2, H_3) диагностировать переобучение или коллапс мод?
\item Существует ли топологическое объяснение двойного спуска?
\item Может ли зигзаг персистентность отслеживать динамику онлайн-обучения?
\end{enumerate}
\textbf{Эта работа является теоретическим предложением.} Мы:
\begin{itemize}
\item[\checkmark] Установили строгие математические основы
\item[\checkmark] Вывели пять количественных, фальсифицируемых предсказаний
\item[\checkmark] Предоставили реализуемые алгоритмы с анализом сложности
\item[\checkmark] Связали с насущными проблемами (энергетическая эффективность, сжатие моделей)
\item[\times] \textit{Не} провели крупномасштабную эмпирическую проверку
\end{itemize}
\checkmark
\checkmark
\checkmark
\checkmark
Мы приглашаем научное сообщество машинного обучения тестировать, критиковать и расширять эту систему. Будут ли наши гипотезы подтверждены, уточнены или опровергнуты, эмпирическое взаимодействие продвинет наше коллективное понимание геометрических и топологических основ глубокого обучения.
Будущее ИИ может зависеть не от больших моделей, а от \textit{топологически управляемых} моделей, которые эффективно обнаруживают инвариантные структуры, лежащие в основе интеллекта.

\section*{Благодарности}
Авторы благодарят сообщества динамических систем, топологического анализа данных и глубокого обучения за фундаментальную работу, вдохновившую этот синтез. Эта работа строится непосредственно на нашем предыдущем сотрудничестве \cite{kim2025grokking} по ускорению грокинга, которое посеяло топологическую перспективу, развитую здесь.
\bibliographystyle{plain}
\begin{thebibliography}{99}
\bibitem{kim2025grokking}
Л. Ким и Л. Золотой-Ким,
«Индуцирование алгоритмических фазовых переходов: теоретическая система для ускоренного грокинга через триадическую фазовую синхронизацию»,
препринт Zenodo, DOI: Декабрь 2025.
\bibitem{frankle2019lottery}
J. Frankle and M. Carbin,
«The lottery ticket hypothesis: Finding sparse, trainable neural networks»,
в \textit{International Conference on Learning Representations (ICLR)}, 2019.
DOI: \bibitem{papyan2020prevalence}
V. Papyan, X. Y. Han, and D. L. Donoho,
«Prevalence of neural collapse during the terminal phase of deep learning training»,
\textit{Proceedings of the National Academy of Sciences}, том 117, № 40, стр. 24652--24663, 2020.
DOI: \bibitem{power2022grokking}
A. Power, Y. Burda, H. Edwards, I. Babuschkin, and V. Misra,
«Grokking: Generalization beyond overfitting on small algorithmic datasets»,
\textit{arXiv препринт arXiv:2201.02177}, 2022.
DOI: \bibitem{vapnik1999overview}
V. N. Vapnik,
«An overview of statistical learning theory»,
\textit{IEEE Transactions on Neural Networks}, том 10, № 5, стр. 988--999, 1999.
DOI: \href{https://doi.org/10.1109/72.788640}{10.1109/72.788640}
\bibitem{zhang2017understanding}
C. Zhang, S. Bengio, M. Hardt, B. Recht, and O. Vinyals,
«Understanding deep learning requires rethinking generalization»,
в \textit{International Conference on Learning Representations (ICLR)}, 2017.
DOI: \bibitem{neyshabur2017exploring}
B. Neyshabur, S. Bhojanapalli, D. McAllester, and N. Srebro,
«Exploring generalization in deep learning»,
в \textit{Advances in Neural Information Processing Systems (NeurIPS)}, стр. 5947--5956, 2017.
DOI: \bibitem{srivastava2014dropout}
N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov,
«Dropout: A simple way to prevent neural networks from overfitting»,
\textit{Journal of Machine Learning Research}, том 15, стр. 1929--1958, 2014.
\bibitem{ng2004feature}
A. Y. Ng,
«Feature selection, L1 vs. L2 regularization, and rotational invariance»,
в \textit{International Conference on Machine Learning (ICML)}, 2004.
\bibitem{kuramoto1975self}
Y. Kuramoto,
«Self-entrainment of a population of coupled non-linear oscillators»,
в \textit{International Symposium on Mathematical Problems in Theoretical Physics},
H. Araki (ред.), Lecture Notes in Physics, том 39, стр. 420--422, Springer, Берлин, 1975.
DOI: \bibitem{strogatz2000kuramoto}
S. H. Strogatz,
«From Kuramoto to Crawford: Exploring the onset of synchronization in populations of coupled oscillators»,
\textit{Physica D: Nonlinear Phenomena}, том 143, № 1-4, стр. 1--20, 2000.
DOI: \bibitem{edelsbrunner2010computational}
H. Edelsbrunner and J. L. Harer,
\textit{Computational Topology: An Introduction}.
American Mathematical Society, 2010.
ISBN: 978-0-8218-4925-5
\bibitem{hoppensteadt1997weakly}

F. C. Hoppensteadt and E. M. Izhikevich,
\textit{Weakly Connected Neural Networks}.
Applied Mathematical Sciences, том 126, Springer, Нью-Йорк, 1997.
DOI: \bibitem{jaeger2001echo}
H. Jaeger,
«The `echo state' approach to analysing and training recurrent neural networks»,
GMD Report 148, German National Research Center for Information Technology, 2001.
\bibitem{skardal2016higher}
P. S. Skardal and A. Arenas,
«Higher order interactions in complex networks of phase oscillators promote abrupt synchronization switching»,
\textit{Communications Physics}, том 3, статья 218, 2020.
DOI: \bibitem{battiston2020networks}
F. Battiston, G. Cencetti, I. Iacopini, V. Latora, M. Lucas, A. Patania, J.-G. Young, and G. Petri,
«Networks beyond pairwise interactions: Structure and dynamics»,
\textit{Physics Reports}, том 874, стр. 1--92, 2020.
DOI: \bibitem{naitzat2020topology}
G. Naitzat, A. Zhitnikov, and L.-H. Lim,
«Topology of deep neural networks»,
\textit{Journal of Machine Learning Research}, том 21, № 184, стр. 1--40, 2020.
\bibitem{chazal2021introduction}
F. Chazal and B. Michel,
«An introduction to topological data analysis: Fundamental and practical aspects for data scientists»,
\textit{Frontiers in Artificial Intelligence}, том 4, статья 667963, 2021.
DOI: \bibitem{guss2018characterizing}
W. H. Guss and R. Salakhutdinov,
«On characterizing the capacity of neural networks using algebraic topology»,
\textit{arXiv препринт arXiv:1802.04443}, 2018.
\bibitem{cooper2018loss}
Y. Cooper,
«The loss landscape of overparameterized neural networks»,
\textit{arXiv препринт arXiv:1804.10200}, 2018.
\bibitem{milnor1963morse}
J. Milnor,
\textit{Morse Theory}.
Annals of Mathematics Studies, том 51, Princeton University Press, 1963.
\bibitem{cerf1970stratification}
J. Cerf,
«La stratification naturelle des espaces de fonctions diff;rentiables r;elles et le th;or;me de la pseudo-isotopie»,
\textit{Publications Math;matiques de l'Institut des Hautes ;tudes Scientifiques}, том 39, стр. 5--173, 1970.
DOI: \bibitem{nanda2023progress}
N. Nanda, L. Chan, T. Lieberum, J. Smith, and J. Steinhardt,
«Progress measures for grokking via mechanistic interpretability»,
в \textit{International Conference on Learning Representations (ICLR)}, 2023.
DOI: \bibitem{chen2020lottery}
T. Chen, B. Frankle, S. Chang, S. Liu, Y. Zhang, Z. Wang, and M. Carbin,
«The lottery ticket hypothesis for pre-trained BERT networks»,
в \textit{Advances in Neural Information Processing Systems (NeurIPS)}, том 33, стр. 15834--15846, 2020.
\bibitem{tanaka2020pruning}
H. Tanaka, D. Kunin, D. L. K. Yamins, and S. Ganguli,
«Pruning neural networks without any data by iteratively conserving synaptic flow»,
в \textit{Advances in Neural Information Processing Systems (NeurIPS)}, том 33, стр. 6377--6389, 2020.
\bibitem{you2020drawing}
H. You, C. Li, P. Xu, Y. Fu, Y. Wang, X. Chen, R. G. Baraniuk, Z. Wang, and Y. Lin,
«Drawing early-bird tickets: Toward more efficient training of deep networks»,
в \textit{International Conference on Learning Representations (ICLR)}, 2020.
DOI: \bibitem{han2021neural}
X. Y. Han, V. Papyan, and D. L. Donoho,
«Neural collapse under MSE loss: Proximity to and dynamics on the central path»,
в \textit{International Conference on Learning Representations (ICLR)}, 2022.
DOI: \bibitem{mixon2022neural}
D. G. Mixon, H. Parshall, and J. Pi,
«Neural collapse with unconstrained features»,
\textit{Sampling Theory, Signal Processing, and Data Analysis}, том 20, статья 28, 2022.
DOI: \bibitem{liu2023omnigrok}
Z. Liu, E. Michaud, and M. Tegmark,
«Omnigrok: Grokking beyond algorithmic data»,
в \textit{International Conference on Learning Representations (ICLR)}, 2023.
DOI: \bibitem{bauer2021ripser}
U. Bauer,
«Ripser: Efficient computation of Vietoris-Rips persistence barcodes»,
\textit{Journal of Applied and Computational Topology}, том 5, № 3, стр. 391--423, 2021.
DOI: \bibitem{maria2014gudhi}
C. Maria, J.-D. Boissonnat, M. Glisse, and M. Yvinec,
«The Gudhi library: Simplicial complexes and persistent homology»,
в \textit{International Congress on Mathematical Software}, стр. 167--174, Springer, 2014.
DOI: \bibitem{levina2005maximum}
E. Levina and P. J. Bickel,
«Maximum likelihood estimation of intrinsic dimension»,
в \textit{Advances in Neural Information Processing Systems (NeurIPS)}, том 17, стр. 777--784, 2005.
\bibitem{wang2018glue}
A. Wang, A. Singh, J. Michael, F. Hill, O. Levy, and S. R. Bowman,
«GLUE: A multi-task benchmark and analysis platform for natural language understanding»,
в \textit{International Conference on Learning Representations (ICLR)}, 2019.
DOI: \bibitem{conley1978isolated}
C. Conley,
\textit{Isolated Invariant Sets and the Morse Index}.
CBMS Regional Conference Series in Mathematics, том 38, American Mathematical Society, 1978.
\bibitem{fenichel1979geometric}
N. Fenichel,
«Geometric singular perturbation theory for ordinary differential equations»,
\textit{Journal of Differential Equations}, том 31, № 1, стр. 53--98, 1979.
DOI: \bibitem{strubell2019energy}
E. Strubell, A. Ganesh, and A. McCallum,
«Energy and policy considerations for deep learning in NLP»,
в \textit{Annual Meeting of the Association for Computational Linguistics (ACL)}, стр. 3645--3650, 2019.
DOI: \bibitem{hao2019ai}
K. Hao,
«Training a single AI model can emit as much carbon as five cars in their lifetimes»,
\textit{MIT Technology Review}, Июнь 2019.
Доступно: \url{https://www.technologyreview.com/2019/06/06/239031/}
\bibitem{schwartz2020green}
R. Schwartz, J. Dodge, N. A. Smith, and O. Etzioni,
«Green AI»,
\textit{Communications of the ACM}, том 63, № 12, стр. 54--63, 2020.
DOI: \href{https://doi.org/10.1145/3381831}{10.1145/3381831}
\end{thebibliography}
\end{document}

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Лев Золотой-Ким

Рецензии

Написать рецензию

Другие произведения автора Лев Золотой-Ким

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.