Чистые Триадные Сети...

Опубликована статья "Чистые Триадные Сети: От парных взаимодействий к структурной синергии", это завершение трилогии, сокращенный вариант.
в https://zenodo.org/records/18053290 на английском языке  "Pure Triadic Networks: From Pairwise Interactions to Structural Synergy"

Ниже привожу версию статьи  на русском языке в формате Latex.

\documentclass[11pt]{article}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage[english,russian]{babel} % Поддержка русского языка
\usepackage[margin=1in]{geometry}
\usepackage{amsmath, amssymb, amsthm}
\usepackage{bm}
\usepackage{graphicx}
\usepackage{hyperref}
\usepackage{algorithm}
\usepackage{algorithmic}
\usepackage{tcolorbox}
\usepackage{cite}
\usepackage{tikz}
\usepackage{pgfplots}
\usepackage{pifont}

% Настройки графики
\pgfplotsset{compat=1.18}
\usetikzlibrary{arrows.meta, positioning, shapes.geometric, calc, backgrounds}

\newcommand{\cmark}{\ding{51}}
\newcommand{\xmark}{\ding{55}}

\hypersetup{
    colorlinks=true,
    linkcolor=blue!70!black,
    citecolor=green!60!black,
    urlcolor=blue!70!black
}

% Русификация названий теорем
\newtheorem{theorem}{Теорема}
\newtheorem{definition}{Определение}
\newtheorem{lemma}{Лемма}
\newtheorem{corollary}{Следствие}
\newtheorem{proposition}{Предложение}
\newtheorem{remark}{Замечание}

% Перевод для алгоритмов
\renewcommand{\algorithmicrequire}{\textbf{Вход:}}
\renewcommand{\algorithmicensure}{\textbf{Выход:}}

\title{\textbf{Чистые Триадные Сети:\\От парных взаимодействий к структурной синергии}}

\author{
    \textbf{Лео Ким} \\
    \textit{Независимый исследователь}
    \and
    \textbf{Лев Золотой-Ким} \\
    \textit{Независимый исследователь}
}

\date{Декабрь 2025}

\begin{document}

\maketitle

\begin{abstract}
Современные нейронные сети фундаментально ограничены парными весовыми взаимодействиями, что ведет к квадратичному росту параметров ($O(n^2)$) и стохастической динамике обобщения. Мы представляем \textit{Чистые Триадные Сети} (ЧТС / PTN), где вычислительным примитивом является не бинарная матрица весов, а 3-линейная форма на гиперребрах. Мы доказываем, что PTN достигают универсальной аппроксимации полиномов степени $k$ с использованием $O(nk)$ параметров — что экспоненциально меньше $O(n^2k)$, требуемых для многослойных перцептронов. С помощью спектрального анализа лапласиана гиперграфа мы выводим логарифмические границы сходимости $T = O(\log(1/\epsilon))$, превращая стохастический гроккинг в детерминированный фазовый переход. Предварительные эксперименты на модульной арифметике демонстрируют 10-кратное ускорение при 10-кратном уменьшении числа параметров. PTN представляют собой сдвиг парадигмы от статистической избыточности к структурной синергии.
\end{abstract}

Трилогии}]
\textbf{Статья 1:} Ускорение гроккинга через триадную синхронизацию\\
DOI:
\textbf{Статья 2:} Топологическая регуляризация и метрика LK\\
DOI:
\textbf{Статья 3 (эта работа):} Чистые Триадные Сети как теоретический предел
\end{tcolorbox}

\section{Введение}

\subsection{Кризис парных взаимодействий}

Архитектура современных сетей глубокого обучения построена на парных взаимодействиях между нейронами. Слой $\ell$ вычисляет:
\begin{equation}
\mathbf{y}^{(\ell)} = \sigma\left( W^{(\ell)} \mathbf{x}^{(\ell-1)} + \mathbf{b}^{(\ell)} \right),
\label{eq:standard_layer}
\end{equation}
где $W^{(\ell)} \in \mathbb{R}^{n_\ell \times n_{\ell-1}}$ моделирует парные связи.

\textbf{Возникают три фундаментальные патологии:}

\begin{enumerate}
    \item \textbf{Квадратичный взрыв параметров:} Сети с $L$ слоями по $n$ нейронов требуют $\Theta(Ln^2)$ весов \cite{strubell2019}.
    \item \textbf{Косвенное моделирование взаимодействий высшего порядка:} Любое взаимодействие $f(x_1, x_2, x_3)$ должно аппроксимироваться через иерархическую композицию парных функций \cite{cohen2016}.
    \item \textbf{Стохастическая динамика обобщения:} Феномен гроккинга (grokking) обнаруживает случайное блуждание в пространстве параметров \cite{power2022}.
\end{enumerate}

Наш центральный тезис: эти патологии проистекают из архитектурного несоответствия. Отношения реального мира по своей природе включают многосторонние взаимодействия, которые сопротивляются декомпозиции на пары \cite{battiston2020}.

\subsection{Исторический контекст}

\textbf{1958 - «Сетунь»:} Троичный компьютер достиг информационной плотности $\log_2(3) \approx 1.585$ бит на трит против 1 бита на бит \cite{brousentsov1998}. Проект не получил развития из-за отсутствия троичных полупроводников.

\textbf{1969 - Минский-Пейперт и XOR:} Доказано, что однослойные перцептроны не могут вычислить XOR \cite{minsky1969}. PTN вычисляют XOR с помощью одного триадного гиперребра.

\textbf{1982 - Хопфилд и высшие порядки:} Машины Больцмана третьего порядка столкнулись со сложностью $O(n^3)$ \cite{hopfield1982, sejnowski1986}. PTN используют разреженные гиперграфы сложности $O(n)$.

\textbf{2010-е - Графовые нейросети (GNN):} Остаются фундаментально парными, несмотря на графовый формализм \cite{battaglia2018}. PTN рассматривают триплеты как неделимые единицы.

\subsection{Вклад исследования}

\textbf{Теоретические результаты:}
\begin{enumerate}
    \item \textbf{Универсальная аппроксимация:} $P_{\text{PTN}} = O(nk)$ против $P_{\text{MLP}} = O(n^2 k)$.
    \item \textbf{Логарифмическая сходимость:} $T_\epsilon = O(\log(1/\epsilon))$.
    \item \textbf{Информационная плотность:} $I_{\text{PTN}} = 1.585$ бит/параметр.
    \item \textbf{Событийная разреженность:} 80-90\% неактивных триплетов после обучения.
\end{enumerate}

\textbf{Эмпирическая валидация:}
\begin{itemize}
    \item Модульная арифметика: в 10 раз меньше параметров, в 10 раз более быстрая сходимость.
\end{itemize}

\section{Математическая формулировка}

\subsection{Гиперграфы и 3-однородные структуры}

\begin{definition}[3-однородный гиперграф]
Гиперграф $\mathcal{H} = (V, E_3)$ называется 3-однородным, если каждое гиперребро $\tau \in E_3$ соединяет ровно три вершины:
\begin{equation}
\tau = \{i, j, k\}, \quad \text{где} \quad i, j, k \in V, \; i \neq j \neq k.
\end{equation}
\end{definition}

\subsection{Триадный оператор}

\begin{definition}[Триадный вычислительный примитив]
\label{def:triadic_operator}
Пусть $\mathbf{x}_i, \mathbf{x}_j, \mathbf{x}_k \in \mathbb{R}^d$ — векторы состояний. Триадный оператор определяется как:
\begin{equation}
\mathbf{y}_\tau = \sigma\left( \mathcal{W}_\tau(\mathbf{x}_i, \mathbf{x}_j, \mathbf{x}_k) + \lambda \cdot \Psi(\theta_i, \theta_j, \theta_k) \right),
\label{eq:triadic_operator}
\end{equation}
где:
\begin{itemize}
    \item $\mathcal{W}_\tau \in \mathbb{R}^{d \times d \times d \times d}$ — весовой тензор (3-линейная форма) \cite{kolda2009};
    \item $\sigma$ — поэлементная нелинейность;
    \item $\Psi(\theta_i, \theta_j, \theta_k)$ — член Триадной Фазовой Синхронизации (ТФС):
    \begin{equation}
    \Psi(\theta_i, \theta_j, \theta_k) = 1 - \frac{1}{3}\left[\cos(\theta_i - \theta_j) + \cos(\theta_j - \theta_k) + \cos(\theta_k - \theta_i)\right]
    \label{eq:tpl}
    \end{equation}
\end{itemize}
\end{definition}

% --- РИСУНОК 1: Триадный Примитив ---
\begin{figure}[ht]
\centering
\begin{tikzpicture}[scale=1.1]
% Узлы
\node[circle, draw, fill=blue!15, minimum size=0.8cm] (i) at (90:1.8) {$\mathbf{x}_i$};
\node[circle, draw, fill=blue!15, minimum size=0.8cm] (j) at (210:1.8) {$\mathbf{x}_j$};
\node[circle, draw, fill=blue!15, minimum size=0.8cm] (k) at (330:1.8) {$\mathbf{x}_k$};

% Фон гиперребра
\begin{scope}[on background layer]
    \fill[red!10, opacity=0.7] (i.center) -- (j.center) -- (k.center) -- cycle;
    \draw[red!60!black, thick] (i.center) -- (j.center) -- (k.center) -- cycle;
\end{scope}

% Тензорное ядро
\node[circle, draw=red!70!black, fill=red!20, minimum size=1.0cm, align=center, font=\small] (core) at (0,0) {$\mathcal{W}_\tau$};

% Стрелки
\draw[->, red!70!black, thick] (i) -- (core);
\draw[->, red!70!black, thick] (j) -- (core);
\draw[->, red!70!black, thick] (k) -- (core);

% Выход
\node[rectangle, draw, fill=green!15, right=1.6cm of core] (out) {$\mathbf{y}_\tau$};
\draw[->, very thick, green!60!black] (core) -- (out);

\end{tikzpicture}
\caption{\textbf{Триадный примитив.} В отличие от парных ребер, информация проходит через общий тензор $\mathcal{W}_\tau$, который вычисляет 3-линейную форму над $\{i,j,k\}$ одновременно.}
\label{fig:triadic}
\end{figure}

3-линейная форма вычисляется через тензорную свертку:
\begin{equation}
[\mathcal{W}_\tau(\mathbf{x}_i, \mathbf{x}_j, \mathbf{x}_k)]_p = \sum_{q,r,s=1}^d \mathcal{W}_{\tau, pqrs} \cdot x_{i,q} \cdot x_{j,r} \cdot x_{k,s}.
\end{equation}

\subsection{Архитектура PTN}

\textbf{Определение слоя:} Пусть $\mathbf{X}^{(\ell)} = \{\mathbf{x}_1^{(\ell)}, \ldots, \mathbf{x}_n^{(\ell)}\}$ — состояния узлов. Слой $\ell+1$ вычисляет:
\begin{equation}
\mathbf{x}_i^{(\ell+1)} = \frac{1}{|\mathcal{N}_i|} \sum_{\tau \in \mathcal{N}_i} \mathbf{y}_\tau^{(\ell)},
\label{eq:ptn_layer}
\end{equation}
где $\mathcal{N}_i = \{\tau \in E_3^{(\ell)} : i \in \tau\}$ — множество инцидентных гиперребер.

\section{Теория универсальной аппроксимации}

\begin{theorem}[Линейное масштабирование параметров для полиномов]
\label{thm:universal}
Пусть $K \subset \mathbb{R}^n$ — компактное множество, а $p: K \to \mathbb{R}$ — полином общей степени $k$. Тогда существует PTN с:
\begin{itemize}
    \item $N = O(n)$ узлов;
    \item $|E_3| = O(n)$ гиперребер;
    \item Размерностью эмбеддинга $d = O(\sqrt[4]{k})$;
    \item Глубиной $L = 2$ слоя,
\end{itemize}
такая что для любого $\epsilon > 0$:
\begin{equation}
\sup_{\mathbf{x} \in K} |p(\mathbf{x}) - \text{PTN}(\mathbf{x})| < \epsilon.
\end{equation}

Всего параметров: $P_{\text{PTN}} = |E_3| \cdot d^4 = O(nk)$.

Для сравнения, MLP требует $P_{\text{MLP}} = O(n^2 k)$.
\end{theorem}

\section{Динамика обучения}

\subsection{Анализ сходимости}

\begin{theorem}[Логарифмическая сходимость к обобщению]
\label{thm:convergence}
Пусть PTN обучается градиентным спуском с триадной связью $\lambda > \lambda_c$. Тогда расстояние до многообразия обобщения убывает экспоненциально:
\begin{equation}
\text{dist}(\mathbf{W}(t), \mathcal{M}_{\text{gen}}) \leq C e^{-\gamma t},
\end{equation}
где $\gamma = O(\lambda \cdot \text{gap}(\mathcal{H}))$.
Время до $\epsilon$-точности:
\begin{equation}
T_\epsilon = O\left( \frac{\log(1/\epsilon)}{\lambda \cdot \text{gap}(\mathcal{H})} \right).
\end{equation}
\end{theorem}

\begin{remark}
Стандартный SGD демонстрирует полиномиальную сходимость $O(1/t)$. PTN достигают экспоненциальной сходимости $e^{-\gamma t}$ именно к \textit{многообразию обобщения} \cite{frankle2019}.
\end{remark}

\section{Эксперименты: Модульная арифметика}

\subsection{Задача и условия}
\textbf{Задача:} Вычислить $(a + b) \bmod 97$. \textbf{Данные:} $97^2$ примеров, 30\% трейн.

\begin{table}[h]
\centering
\caption{Сравнение результатов}
\begin{tabular}{lcccc}
\hline
\textbf{Метод} & \textbf{Параметры} & \textbf{Эпох до 95\%} & \textbf{Точность} & \textbf{Время} \\
\hline
MLP (ванильный) & 540K & $12{,}000$ & 98.2\% & 180 мин \\
\textbf{PTN (наш метод)} & \textbf{52K} & \textbf{1{,}200} & \textbf{99.1\%} & \textbf{22 мин} \\
\hline
\end{tabular}
\end{table}

% --- РИСУНОК 2: Кривые обучения ---
\begin{figure}[ht]
\centering
\begin{tikzpicture}
\begin{axis}[
    width=0.8\textwidth,
    height=6cm,
    xlabel={Эпоха},
    ylabel={Точность (\%)},
    grid=major,
    legend pos=south east,
    xmin=0, xmax=12000,
    ymin=0, ymax=100
]
% Кривая PTN
\addplot[red, very thick, smooth] coordinates {
    (0,10) (200,30) (400,50) (800,80) (1000,92) (1200,99) (12000,99.5)
};
\addlegendentry{PTN (Детерминир.)}

% Кривая MLP
\addplot[blue, thick, dashed, smooth] coordinates {
    (0,10) (2000,12) (5000,15) (8000,20) (9000,60) (10000,95) (12000,98)
};
\addlegendentry{MLP (Гроккинг)}

\draw[<->, thick, green!60!black] (1200,95) -- (10000,95);
\node[green!60!black, font=\small] at (5500,85) {10x Ускорение};
\end{axis}
\end{tikzpicture}
\caption{\textbf{Динамика обучения.} PTN (красная) сходится детерминированно. MLP (синяя) демонстрирует плато "гроккинга" перед началом обобщения.}
\label{fig:curves}
\end{figure}

\subsection{Абляции (Анализ компонентов)}

\begin{table}[h]
\centering
\caption{Вклад компонентов}
\begin{tabular}{lcc}
\hline
\textbf{Конфигурация} & \textbf{Эпох до 95\%} & \textbf{Фин. Точность} \\
\hline
PTN (полная) & 1{,}200 & 99.1\% \\
Без ТФС ($\lambda=0$) & 5{,}400 & 97.8\% \\
Парные + ТФС & 6{,}800 & 98.0\% \\
\hline
\end{tabular}
\end{table}

\section{Алгоритм обучения}

\begin{algorithm}[h]
\caption{Обучение PTN с адаптивной триадной связью}
\begin{algorithmic}[1]
\REQUIRE Датасет $\mathcal{D}$, гиперпараметры
\STATE \textbf{Инициализация:} Гиперграф $\mathcal{H}$, весовые тензоры $\{\mathcal{W}_\tau\}$
\FOR{эпоха $t = 1$ до $T_{\max}$}
    \FOR{мини-батч $\mathcal{B} \subset \mathcal{D}$}
        \STATE Вычислить триадные операторы (Ур. \ref{eq:triadic_operator})
        \STATE Вычислить функцию потерь: $\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{task}} + \lambda(t) \mathcal{L}_{\text{TPL}}$
        \STATE Обновить параметры через Adam \cite{kingma2014}
    \ENDFOR
    \STATE Обновить связь $\lambda(t)$ на основе порядка синхронизации $R(t)$
\ENDFOR
\end{algorithmic}
\end{algorithm}

\section{Заключение}

Эта работа завершает трилогию триадной парадигмы. PTN совершают переход от \textbf{статистической избыточности} к \textbf{структурной синергии}.

\textbf{Сдвиг парадигмы:}
\begin{itemize}
    \item \textbf{Универсальная аппроксимация:} $O(nk)$ параметров.
    \item \textbf{Логарифмическая сходимость:} $T = O(\log(1/\epsilon))$.
    \item \textbf{Информационная плотность:} 1.585 бит/параметр.
\end{itemize}

\bibliographystyle{plain}
\begin{thebibliography}{99}

\bibitem{power2022}
A. Power et al., ``Grokking: Generalization beyond overfitting,'' arXiv:2201.02177, 2022.

\bibitem{battiston2020}
F. Battiston et al., ``Networks beyond pairwise interactions,'' \textit{Physics Reports}, vol. 874, 2020.

\bibitem{brousentsov1998}
N. P. Brousentsov et al., ``Development of ternary computers,'' 1998.

\bibitem{minsky1969}
M. Minsky and S. Papert, \textit{Perceptrons}, MIT Press, 1969.

\bibitem{hopfield1982}
J. J. Hopfield, ``Neural networks and physical systems,'' \textit{PNAS}, 1982.

\bibitem{sejnowski1986}
T. J. Sejnowski, ``Higher-order Boltzmann machines,'' \textit{AIP Conf. Proc.}, 1986.

\bibitem{battaglia2018}
P. W. Battaglia et al., ``Relational inductive biases,'' arXiv:1806.01261, 2018.

\bibitem{feng2019}
Y. Feng et al., ``Hypergraph neural networks,'' \textit{AAAI}, 2019.

\bibitem{ebli2020}
S. Ebli et al., ``Simplicial neural networks,'' arXiv:2010.03633, 2020.

\bibitem{kolda2009}
T. G. Kolda and B. W. Bader, ``Tensor decompositions,'' \textit{SIAM Review}, 2009.

\bibitem{vaswani2017}
A. Vaswani et al., ``Attention is all you need,'' \textit{NeurIPS}, 2017.

\bibitem{frankle2019}
J. Frankle and M. Carbin, ``The lottery ticket hypothesis,'' \textit{ICLR}, 2019.

\bibitem{strubell2019}
E. Strubell et al., ``Energy and policy considerations,'' \textit{ACL}, 2019.

\bibitem{cohen2016}
N. Cohen et al., ``On the expressive power of deep learning,'' \textit{COLT}, 2016.

\bibitem{kingma2014}
D. P. Kingma and J. Ba, ``Adam: A method for stochastic optimization,'' \textit{ICLR}, 2015.

\end{thebibliography}

\end{document}


Рецензии