Чистые Триадные Сети...
в https://zenodo.org/records/18053290
на английском языке "Pure Triadic Networks: From Pairwise Interactions to Structural Synergy"
\begin{abstract}
Современные нейронные сети фундаментально ограничены парными весовыми взаимодействиями, что ведет к квадратичному росту параметров ($O(n^2)$) и стохастической динамике обобщения. Мы представляем \textit{Чистые Триадные Сети} (ЧТС / PTN), где вычислительным примитивом является не бинарная матрица весов, а 3-линейная форма на гиперребрах. Мы доказываем, что PTN достигают универсальной аппроксимации полиномов степени $k$ с использованием $O(nk)$ параметров — что экспоненциально меньше $O(n^2k)$, требуемых для многослойных перцептронов. С помощью спектрального анализа лапласиана гиперграфа мы выводим логарифмические границы сходимости $T = O(\log(1/\epsilon))$, превращая стохастический гроккинг в детерминированный фазовый переход. Предварительные эксперименты на модульной арифметике демонстрируют 10-кратное ускорение при 10-кратном уменьшении числа параметров. PTN представляют собой сдвиг парадигмы от статистической избыточности к структурной синергии.
\end{abstract}
\bibliographystyle{plain}
\begin{thebibliography}{99}
\bibitem{power2022}
A. Power et al., ``Grokking: Generalization beyond overfitting,'' arXiv:2201.02177, 2022.
\bibitem{battiston2020}
F. Battiston et al., ``Networks beyond pairwise interactions,'' \textit{Physics Reports}, vol. 874, 2020.
\bibitem{brousentsov1998}
N. P. Brousentsov et al., ``Development of ternary computers,'' 1998.
\bibitem{minsky1969}
M. Minsky and S. Papert, \textit{Perceptrons}, MIT Press, 1969.
\bibitem{hopfield1982}
J. J. Hopfield, ``Neural networks and physical systems,'' \textit{PNAS}, 1982.
\bibitem{sejnowski1986}
T. J. Sejnowski, ``Higher-order Boltzmann machines,'' \textit{AIP Conf. Proc.}, 1986.
\bibitem{battaglia2018}
P. W. Battaglia et al., ``Relational inductive biases,'' arXiv:1806.01261, 2018.
\bibitem{feng2019}
Y. Feng et al., ``Hypergraph neural networks,'' \textit{AAAI}, 2019.
\bibitem{ebli2020}
S. Ebli et al., ``Simplicial neural networks,'' arXiv:2010.03633, 2020.
\bibitem{kolda2009}
T. G. Kolda and B. W. Bader, ``Tensor decompositions,'' \textit{SIAM Review}, 2009.
\bibitem{vaswani2017}
A. Vaswani et al., ``Attention is all you need,'' \textit{NeurIPS}, 2017.
\bibitem{frankle2019}
J. Frankle and M. Carbin, ``The lottery ticket hypothesis,'' \textit{ICLR}, 2019.
\bibitem{strubell2019}
E. Strubell et al., ``Energy and policy considerations,'' \textit{ACL}, 2019.
\bibitem{cohen2016}
N. Cohen et al., ``On the expressive power of deep learning,'' \textit{COLT}, 2016.
\bibitem{kingma2014}
D. P. Kingma and J. Ba, ``Adam: A method for stochastic optimization,'' \textit{ICLR}, 2015.
\end{thebibliography}
\end{document}
Свидетельство о публикации №225122501256