Ян ЛеКун и неизбежный крах LLM
### 1. Сталь со дна моря
В 1919 году немецкие моряки затопили свой военный флот в бухте Скапа-Флоу, чтобы корабли не достались победителям. Полвека спустя за этими ржавыми корпусами начали охотиться — не за пушками и не за золотом. За сталью.
Дело в том, что 16 июля 1945 года, с первым ядерным испытанием, атмосфера Земли изменилась. Следы радиоактивных изотопов вошли в воздух, а через воздух — в любую плавку: сталь варят с продувкой атмосферным кислородом. Вся сталь, выплавленная после 1945 года, несёт слабый радиоактивный фон. Для рельсов и балок это неважно. Но для счётчика Гейгера, для детектора частиц, для медицинского сканера — корпус из «фонящей» стали ослепляет прибор его собственным шумом. Поэтому сталь, выплавленную до атомной эры и укрытую от атмосферы морской водой, поднимали со дна и пускали на самые чувствительные приборы. Она называется низкофоновой.
Устройство этой ловушки стоит удержать целиком: человечество создало технологию; технология оставила след в самой среде, из которой берут сырьё; след неотделим от сырья; и с этого момента незагрязнённым остаётся только то, что было создано до.
Теперь замените сталь на текст.
### 2. Как учится языковая модель
Чтобы увидеть проблему, нужно понять, чем питаются большие языковые модели — ChatGPT, Claude и их родня.
Языковую модель обучают на огромном корпусе текстов — грубо говоря, на значительной части всего написанного человечеством, до которого удалось дотянуться. Учат её одной-единственной задаче: предсказывать следующее слово. Вот фраза «мороз и солнце, день...» — какое слово вероятнее всего дальше? Модель миллиарды раз подряд отвечает на этот вопрос, ошибается, поправляет свои внутренние веса и постепенно вбирает в себя статистическую структуру человеческого текста: как устроены фразы, как устроены рассуждения, какие слова живут рядом с какими смыслами.
Здесь важна одна тонкость, которая станет главной во второй половине статьи. Модель училась не у мира — она училась у текстов о мире. Она знает, что стакан, упавший со стола, разбивается, не потому что видела это, а потому что люди много раз об этом писали. Текст — это тень мира, отброшенная на бумагу. Языковая модель — выученная геометрия этих теней.
Пока тени отбрасывались настоящими предметами, геометрия теней неплохо заменяла геометрию предметов. Но что будет, если между предметом и тенью встанет ещё одна тень?
### 3. Фотокопия фотокопии
С конца 2022 года нейросети пишут. Пишут много: статьи, обзоры, рефераты, ответы на форумах, описания товаров, новости. Оценки доли машинного текста в свежем интернете сильно расходятся — от единиц процентов до трети и выше, в зависимости от того, что и как мерить, — но направление ни у кого не вызывает спора: доля растёт, и растёт быстро. А следующие поколения моделей обучаются на свежем интернете.
То есть система начала есть собственный след.
Что происходит с моделью, которую кормят продукцией предыдущих моделей, — уже не философский вопрос. В 2023 году группа Ильи Шумаилова (Оксфорд и Кембридж) поставила прямой эксперимент: обучили модель на человеческих данных, заставили её генерировать тексты, обучили на этих текстах следующую модель, на её текстах — следующую, и так по кругу. Работа называлась «Проклятие рекурсии» и позже вышла в журнале Nature. Результат воспроизводился на разных типах моделей и получил имя: коллапс модели.
Механика коллапса поучительнее самого факта. Модель — это статистический портрет данных, и, как любой портрет, она чуть-чуть приглаживает натуру: частое передаёт хорошо, редкое — хуже. Когда следующая модель учится по портрету, она приглаживает уже приглаженное. Первыми исчезают «хвосты распределения» — так статистики называют всё редкое: необычные обороты, маргинальные темы, знания, встречавшиеся в трёх книгах на миллион, диалекты, странности, исключения. С каждым поколением текст становится всё более гладким, уверенным и средним — и всё меньше связанным с той реальностью, с которой всё началось. Финальные поколения в экспериментах несли уже почти бессвязную кашу — но кашу грамматически безупречную.
Здесь просится образ магнитофонной перезаписи: копия с копии, шипение нарастает, музыка тонет. Образ верен наполовину. При перезаписи плёнки деградация слышна — шум честно заявляет о себе. Коллапс модели коварнее: текст пятого поколения выглядит чище и глаже текста первого. Деградирует не гладкость — деградирует привязка к реальности. Шум этой системы неотличим от сигнала на слух; фальшь звучит увереннее правды.
### 4. Почему катастрофа не выглядит катастрофой
У этой истории есть три усугубляющих обстоятельства, и все три подтверждены исследованиями последних двух лет.
Первое: петля через поиск замыкается быстрее петли через обучение. Современные нейросети не только вспоминают выученное — они «бегают в сеть»: ищут источники и опираются на найденное. Работа, представленная на конференции WWW 2026, показала: когда машинный текст занимает две трети доступного пула документов, в топе поисковой выдачи его оказывается уже больше четырёх пятых — поисковые алгоритмы любят гладкий, структурированный, оптимизированный текст, то есть машинный след ранжируется лучше источника. И самое неприятное: качество ответов при этом внешне почти не падает. Авторы называют это состояние обманчиво здоровым: система выглядит работающей, отвечает складно, а фундамент под ответами уже синтетический.
Второе: след нельзя отфильтровать. Естественная мысль — «пусть модели просто не учатся на машинном тексте» — упирается в то, что надёжного детектора машинного текста не существует. Инструменты распознавания массово ошибаются в обе стороны; OpenAI закрыла собственный классификатор именно из-за низкой точности. Отрасль отступила с этого рубежа: вместо распознавания постфактум теперь предлагают маркировку при создании — например, в 2025 году инженерному сообществу интернета (IETF) предложен стандарт машиночитаемой пометки «создано ИИ». Это честное признание поражения: раз отличить след от источника по самому тексту нельзя, остаётся просить след предъявлять документы. Будет ли след столь любезен — вопрос открытый.
Третье обстоятельство — единственное утешительное, и его важно привести, потому что без него картина была бы нечестной. Коллапс в экспериментах Шумаилова возникает в режиме замещения: каждое поколение учится только на продукции предыдущего, человеческие данные выброшены. В 2024 году группа Герстграссера показала, что в режиме накопления — когда синтетический текст добавляется к сохранённому человеческому, а не вытесняет его, — деградация не раскручивается, а выходит на плато. Лаборатории это знают: данные курируют, за проверенно человеческий текст платят, старые корпуса берегут. Быстрого схлопывания, вероятно, не будет.
Однако держится это утешение на одном условии. Режим накопления требует отличать человеческое от машинного — хотя бы на уровне «этот корпус собран до 2022 года, этот после». Условие выполнимо сегодня и всё менее выполнимо завтра: чем лучше модели, тем неразличимее след, а чем неразличимее след, тем труднее удерживать чистоту корпуса, на которой стоит вся защита. Утешение не отменяет ловушку — оно лишь описывает, с какой стороны она захлопывается. И вот здесь возвращается сталь со дна моря: тексты, написанные до появления больших языковых моделей, уже сейчас занимают в машинном обучении то самое место, которое в приборостроении занимает довоенная сталь. Последний заведомо чистый корпус. Больше такого не выплавят.
### 5. Диагноз ЛеКуна: болезнь не в данных, а в диете
Всё, что сказано выше, можно прочитать как проблему гигиены: следите за данными, храните старые корпуса, маркируйте синтетику. Ян ЛеКун — один из отцов глубокого обучения, лауреат премии Тьюринга, человек, чьи свёрточные сети лежат в основе современного компьютерного зрения, — читает это иначе. По его мнению, уязвимость сидит не в данных, а в самом способе, которым эти системы устроены. Кормление собственным следом — не досадная случайность, а закономерная болезнь машин, питающихся исключительно текстом.
Его аргумент стоит собрать по шагам, потому что целиком он звучит слишком радикально: ЛеКун считает большие языковые модели тупиковой ветвью и в ноябре 2025 года ушёл из Meta, где двенадцать лет руководил фундаментальными исследованиями ИИ, — ушёл, когда компания окончательно сделала ставку именно на языковые модели. Весной 2026-го его парижский стартап AMI Labs (Advanced Machine Intelligence) привлёк более миллиарда долларов — крупнейший посевной раунд в истории Европы — под обещание построить машины другого типа. Чтобы понять, на что дали миллиард, разберём три шага его рассуждения.
Шаг первый: текста мало. Сравним два потока данных. Крупнейшие языковые модели обучены примерно на всём общедоступном тексте человечества — по порядку величины это десятки триллионов слов. Звучит необъятно. Теперь возьмём четырёхлетнего ребёнка: за первые годы жизни через его зрение прошёл поток сырых данных, который по оценке ЛеКуна на порядки превышает весь этот текстовый корпус. Ребёнок, не прочитав ни строки, знает о мире вещи, которые модель вынуждена выуживать из чужих слов: что предметы не исчезают, когда их заслонили; что толкнутое падает; что жидкость наливается, а не насыпается. Дело не в том, что текста пока не хватает, — дело в том, что текст в принципе разреженная выжимка. Люди не записывают очевидное. В книгах нет строки «когда я отпустил чашку, она двинулась вниз», потому что никому не пришло бы в голову такое записать. Самое фундаментальное знание о мире в текстовом корпусе отсутствует по построению — модель училась по тени и знает только то, что тень удосужилась запечатлеть.
Шаг второй: пословное предсказание накапливает ошибку. Языковая модель порождает ответ слово за словом, и каждое следующее слово опирается на уже сказанные. Допустим, вероятность заметно сбиться на каждом шаге крошечная. Но шагов — сотни и тысячи, и ошибки не гасятся, а наследуются: сбившись, модель продолжает уверенно строить связный текст уже от сбитой точки. Вероятность остаться на верном пути тает с каждым словом, как тает вероятность пройти длинную тропу над обрывом, если на каждом шаге есть маленький шанс оступиться и никакой возможности вернуться. ЛеКун видит в этом математический корень «галлюцинаций» — тех самых случаев, когда модель с прекрасной грамматикой и полной уверенностью сообщает выдумку. Этот шаг его рассуждения оспаривают — защитники языковых моделей отвечают, что обучение на человеческой обратной связи и проверка по внешним источникам удерживают тропу шире, чем следует из голой арифметики. Спор не закрыт. Второй же шаг смыкается с первым и с нашей петлёй: машина, у которой нет собственного знания о мире, а есть только статистика чужих слов, не имеет и точки опоры, чтобы заметить свой сход с тропы. А её уверенная выдумка уходит в интернет — и становится чьей-то обучающей выборкой.
Шаг третий: предсказывать нужно не слова, а мир. Отсюда программа ЛеКуна: если болезнь в том, что машина моделирует тень, лекарство — научить её моделировать сам предмет. Так мы подошли к JEPA.
### 6. JEPA: предсказывать смысл, а не пиксели
Аббревиатура расшифровывается как Joint Embedding Predictive Architecture — «совместно-встраивающая предсказывающая архитектура». Название пугает; устройство, если идти послойно, понятно.
Слой первый. Что значит «предсказывать мир». Вспомните, что делает ваш мозг, когда со стола соскальзывает стакан. Вы знаете, что произойдёт, до того, как это произошло: стакан ускорится, ударится, разлетится. Это и есть модель мира — внутренняя машинка, которая по текущему состоянию предсказывает следующее. Вся программа ЛеКуна выражается одной фразой: интеллект — это в первую очередь хорошая модель мира, а вовсе не хорошая модель языка. Младенец строит её месяцами наблюдения задолго до первого слова.
Слой второй. Почему нельзя предсказывать «в лоб». Первая идея, которая приходит в голову: пусть нейросеть смотрит видео и предсказывает следующий кадр, пиксель за пикселем, — как языковая модель предсказывает следующее слово. Пробовали; получается плохо. Причина глубокая: мир в мелочах непредсказуем. Предсказывая падение стакана, невозможно предсказать, на сколько осколков он разлетится и куда отскочит каждый, — но это и не нужно, чтобы понимать происходящее. А модель, которую заставляют угадывать каждый пиксель, тратит всю свою ёмкость ровно на непредсказуемое: на дрожание листьев, рябь воды, зернистость света. Она либо разменивается на шум, либо выучивается выдавать усреднённую муть. Требование предсказать всё убивает способность предсказать главное.
Слой третий. Ход JEPA: предсказывать в пространстве смыслов. Решение ЛеКуна — разрешить машине не предсказывать непредсказуемое. Устроено это так. Один кодировщик сжимает текущую картину мира в компактное внутреннее представление — не набор пикселей, а нечто вроде смысловой сводки: какие предметы, где, куда движутся. Второй кодировщик так же сжимает будущую картину. А предсказатель учится по сводке настоящего угадывать сводку будущего. Предсказание происходит не в сыром мире, а в пространстве выжимок — и всё непредсказуемое (осколки, листья, рябь) в выжимку просто не попадает, потому что для угадывания сводки оно бесполезно. Машина сама, без разметки и учителя, выучивает, что в мире существенно — существенно ровно то, что помогает предсказывать. Это близко к тому, что делаем мы: ожидая падения стакана, мозг не рендерит блики на осколках — он предсказывает суть события.
Слой четвёртый. Это уже работает — в масштабе лаборатории. В 2023 году вышла I-JEPA, обученная на изображениях: ей показывают фрагмент картинки и просят предсказать внутреннее представление скрытых частей. В 2024-м — V-JEPA, то же самое на видео: предсказание сводки замаскированных кусков ролика. В 2025-м — V-JEPA 2, у которой после просмотра большого корпуса видео и всего лишь десятков часов записей движений робота появилась способность планировать: чтобы переложить предмет в новое место, робот внутри своей модели мира «проигрывает» варианты действий, предсказывает их последствия — в том самом пространстве сводок — и выбирает действие, ведущее к цели. Не потому, что его этому дрессировали на миллионе примеров, а потому, что у него есть машинка «что будет, если». Это скромные лабораторные результаты рядом с блеском больших языковых моделей — но это результаты принципиально другой породы: система не продолжает чужой текст, а предвидит последствия собственных действий.
Слой пятый. Куда это ведёт. В архитектуре, которую ЛеКун описывает как цель, модель мира — сердце, вокруг которого собираются восприятие, память, планировщик и то, что он называет модулями цены, — встроенные оценки «хорошо/плохо», играющие роль, отдалённо похожую на роль эмоций. Языку в этой картине отведено место интерфейса — способа сообщать и принимать мысли, а не способа думать. Его стартап обещает первые применения в робототехнике, промышленности и медицине; сам ЛеКун честно называет сроки настоящего «мира-моделирующего» интеллекта годами, а не месяцами. Программа может провалиться — это нормальная судьба научных программ. Но её мотив к нашей теме относится прямо.
### 7. Почему машине, видящей мир, не страшен собственный след
Соберём обе половины статьи вместе.
Языковая модель заперта в кольце текста: она училась у тени, пишет новые тени, и следующие поколения учатся уже у теней второго порядка. Загрязнение корпуса для неё смертельно опасно именно потому, что корпус — её единственный орган чувств. Отравлен корпус — отравлено всё.
Система, устроенная по программе ЛеКуна, замкнута на другой источник: на сырой поток реальности. Свет, падающий в камеру робота, не бывает сгенерированным. Сопротивление предмета, который толкает манипулятор, невозможно нагенерировать в интернете. Реальность — единственный корпус, который принципиально нельзя загадить машинным следом, потому что она не состоит из чьих-либо высказываний. Она сама себе низкофоновая сталь — и её не нужно поднимать со дна, она продолжает выплавляться каждую секунду.
Здесь нужна оговорка. Видео из интернета — которым обучали и V-JEPA — загрязняемо: сгенерированных роликов в сети всё больше, и на этот корпус петля со временем дотянется тоже. Незагрязняемым остаётся не «видео вообще», а живой сенсорный поток — то, что машина воспринимает сама, здесь и сейчас, из первых рук. Разница между «смотреть мир» и «смотреть записи о мире» — та же разница, что между предметом и тенью, только этажом выше. Программа ЛеКуна ценна не тем, что меняет текст на видео, а тем, что меняет записи на восприятие.
И последнее. У корпуса, поедающего собственный след, есть, строго говоря, два незагрязняемых источника, а не один. Первый — физический мир, и о нём эта статья. Второй — живой собеседник. Ответ конкретного человека на конкретный вопрос не лежит ни в одном корпусе и не может быть следом никакой модели: он порождается в момент разговора, из опыта, которого больше ни у кого нет. Пока машина спрашивает — и пока есть кому ей отвечать — петля не замкнута до конца. Возможно, это самый дешёвый из всех детекторов реальности: не алгоритм, не маркировка, не сталь со дна моря, а другой, не похожий на тебя ум по ту сторону вопроса.
Свидетельство о публикации №226070400440