Как Хинтон побил Хомского

Машина против грамматики

Как коннекционизм Хинтона вытеснил лингвистику Хомского — и единственная линия, где Хомский всё ещё держится

Полвека лингвистика жила под знаком одной идеи: язык врождён. Ребёнок слышит мало речи, к тому же оборванной и грязной, но за пару лет осваивает бесконечно продуктивную грамматику. Откуда? Из аргумента «бедности стимула» Ноам Хомский вывел радикальный ответ: раз из входных данных правила вывести нельзя, структура языка зашита в мозге заранее — это «универсальная грамматика». Язык в этой картине — система дискретных символьных правил и иерархических структур, а не статистика. Хомский прямо высмеивал вероятностные модели: фраза «Colorless green ideas sleep furiously» грамматична, хотя статистически невероятна, — значит, грамматику нельзя свести к частотам.

Джеффри Хинтон тридцать лет двигал противоположное. Интеллект и язык — не манипуляция символами, а распределённые паттерны активаций в сети простых нейроноподобных единиц, которые учатся на данных. Никаких врождённых правил — только архитектура общего назначения и обучение. Долго это считалось маргинальным. А потом пришли большие языковые модели — прямые потомки идей Хинтона — и стали эмпирически делать то, что Хомский объявлял невозможным: осваивать грамматику чисто из текста, без встроенной универсальной грамматики, генерируя связную грамматичную речь лучше любой символьной системы, когда-либо построенной по программе Хомского.

Отсюда соблазн сказать: модель Хинтона убила идеи Хомского. Это преувеличение — но проверить его на прочность стоит всерьёз. Ниже — последовательный разбор того, чем защищается хомскианская позиция, и что от неё остаётся, если каждую защиту додавить до конца.

Точнее сразу обозначить, что именно произошло. Логически Хинтон Хомского не опроверг — он его вытеснил практически. Инженерный успех глубокого обучения сместил центр тяжести всей области: деньги, таланты и престиж ушли от символьной лингвистики к нейросетям, а главный эмпирический козырь Хомского — «статистика не способна воспроизвести язык» — перестал работать в день, когда заработала первая большая модель. Дальше вопрос только один: остаётся ли у врождённости хоть один аргумент, который этот сдвиг не закрывает?

________________________________________
Защита первая: «меня интересует компетенция, а не производительность»

Вопрос
Успех машины — это успех в генерации текста (производительность). Хомский же всегда говорил, что изучает внутреннее знание языка (компетенцию). Не является ли это различение честным щитом — или это приём, который выводит теорию из-под удара любых данных?

Ответ

Различение «компетенция/производительность» само по себе — законный методологический ход 1965 года. Проблема не в нём, а в том, как его разворачивают против LLM (Large Language Models - Большие Языковые Модели). Логика защиты: «меня интересует только компетенция, а машина демонстрирует лишь производительность, поэтому её успех ко мне не относится». Но это работает, только если компетенцию заранее определить так, что никакой внешний результат в принципе не может её ни подтвердить, ни опровергнуть. А это и есть признак нефальсифицируемого тезиса: теорию ограждают от любых данных, объявляя сами данные «не тем уровнем».

Хуже того, здесь спрятан двойной стандарт. Когда Хомский в 1957-м бил по статистическим моделям, он апеллировал именно к производительности — «вот грамматичная фраза, которую частотная модель породить не может». Способность машины генерировать правильные предложения была законным аргументом, пока работала на него. Как только машина стала генерировать их лучше всех, тот же критерий объявляется нерелевантным. Нельзя использовать один тест как доказательство, когда он проходит в твою пользу, и как «не относящийся к делу», когда проваливается. Это передвижение ворот после удара — риторический щит, а не аргумент.
________________________________________
Защита вторая: «у машины несопоставимо больше данных»
Вопрос
Считать токены ребёнка против триллионов токенов модели — жульнический показатель. У ребёнка триллионы синаптических связей, и один-единственный объект опыта прокатывается эхом по всей сети одновременно, разворачиваясь в гигантское внутреннее представление. Не значит ли это, что бедность входа — иллюзия счёта, а не реальная бедность?

Ответ

Половина этого хода верна, половина — нет, и их надо разнять.

Верно, что счёт слов — жульнический показатель. Вход ребёнка несопоставимо богаче не по объёму, а по типу: он мультимодальный, телесный, активный (ребёнок сам действует и видит последствия), социальный, с обратной связью в реальном времени. Один эпизод «мама дала мяч» — это зрение, проприоцепция, эмоция, интонация, причинность, сшитые в единый объект. По числу слов ребёнок беднее; по плотности и структурированности сигнала — несопоставимо богаче.

Но метафора «триллионного эха» подводит. Прогон одного входа через триллионы связей не создаёт новой информации о языке. Это информационно-теоретический предел: эхо может развернуть и переформатировать то, что во входе уже было, но не может извлечь грамматическое знание, которого там нет. Сколько связей ни задействуй, из «мама дала мяч» нельзя «отразить» правило подчинения придаточных, если его во входе не содержалось. Значит, реверберация — не источник данных, а работа априорной структуры.

И тут ловушка захлопывается. Эти триллионы связей, способность одного объекта прокатиться по всей сети, — это и есть врождённое. Только не в виде символьной грамматики, а в виде архитектуры. А «мощная машина общего назначения, лепящая из бедного входа богатое представление» — это дословно тезис Хинтона. Аргумент переселяет априори из символьного грамматического модуля в нейронный субстрат — то есть бьёт по Хомскому, а не за него.

Плюс фактическая поправка: «у машины такого нет» уже неверно. У современных моделей тоже триллионы параметров, и активация прокатывается по всей сети сразу — это и есть распределённое представление, ради которого всё затевалось. Чего у машины действительно нет — тела, действия и замкнутой петли с миром. Вот это реальная асимметрия. Но это уже другой тезис: не «у ребёнка больше данных из одного объекта», а «у ребёнка другой род данных — активный и воплощённый». Он крепче, но Хомского он тоже не спасает.

________________________________________
Защита третья: «сеть учит возможные и невозможные языки одинаково»

Вопрос

Если нейросеть с равным успехом выучивает и человеческий язык, и язык, который ни один человек выучить не может, — значит, она не моделирует ничего специфически человеческого. Так ли это эмпирически?

Ответ

Этот аргумент я поначалу считал содержательным козырем — и зря, потому что его уже проверили. Работа Kallini и коллег (2024, «Mission: Impossible Language Models») показала обратное: модели типа GPT учат искусственно сконструированные «невозможные» языки хуже, чем естественные. У сети есть структурный уклон в сторону того, что похоже на человеческий язык. Это бьёт по самому тезису Хомского, а не подтверждает его. Карта оказалась битой эмпирически.
________________________________________
Защита четвёртая: «это инженерия, а не наука»

Вопрос

Модель работает, но не объясняет, почему язык устроен именно так. Она — успешный артефакт, а не теория. Разве это не дисквалифицирует её как вклад в науку о языке?
Ответ

Это валидно — но только как ограничение, а не как победа. Нейросеть — чёрный ящик: она генерирует язык, но не даёт теории того, почему язык обладает именно своими свойствами. Замечание справедливо. Однако оно говорит «ты меня не опроверг», а не «я прав». Это защитный аргумент, не наступательный: он ставит предел тому, что LLM доказывает, но не приводит ни единого довода в пользу позитивной теории Хомского. На обороне спор не выигрывают.

________________________________________
Единственная защита, которая держится: грамматика из ничего

Вопрос

Если мы опровергли всё перечисленное, остаётся ли у врождённости хоть один по-настоящему сильный аргумент — или программа Хомского пуста?

Ответ

Один остаётся. И это не «бедность стимула» в пассивном смысле («из бедного входа нельзя выучить»), а нечто более сильное — активное порождение структуры, которой во входе нет вообще.

Есть документированные случаи, где дети не извлекают грамматику из речи, а создают её. Креолизация: дети, выросшие на пиджине — обрубочном контактном языке без устойчивого синтаксиса, — за одно поколение превращают его в полноценный креол с системной грамматикой, которой в речи родителей не было. Никарагуанский жестовый язык: глухих детей собрали вместе без общего языка, и они за несколько когорт спонтанно породили структурированную знаковую систему, причём каждое следующее поколение добавляло грамматическую сложность, которой не видело у предыдущего. То же — «домашние жесты» (homesign) у одиночных глухих детей, изобретающих регулярную структуру в полной изоляции.

Это качественно иной феномен. LLM никогда не выдаёт больше грамматической структуры, чем поддержано её обучающим распределением: она по определению не может выйти за пределы данных вверх по упорядоченности. А ребёнок выходит — берёт недограмматичный вход и навязывает ему иерархию, рекурсию, согласование, которых там не было. Это не извлечение сигнала, а активная регуляризация в сторону структуры. Чистое обучение на данных такого не предсказывает: откуда возьмётся регулярность, которой нет в распределении?

Вот единственная линия фронта, которую машинный успех не закрывает.

________________________________________
Но и она не доносит Хомского до финиша

Честность требует додержать тот же скепсис и здесь. Даже этот аргумент доказывает не то, что нужно Хомскому. Он доказывает, что у человека есть мощный врождённый уклон к иерархической, рекурсивной структуре. Он не доказывает, что этот уклон — символьная, языко-специфичная Универсальная Грамматика с конкретными синтаксическими правилами.

Коннекционист ответит: это просто очень сильный архитектурный прайор к иерархии плюс склонность сетей сглаживать и регуляризовать шумный вход — и будет частично прав. То есть та же развилка, что преследовала весь разбор: структурирующий уклон реален, а вот его природа — символьная или субсимвольная, специальный языковой модуль или общая архитектура — остаётся нерешённой.

Поэтому точная картина такова. Сильный аргумент у Хомского ровно один, и ранит он не столько Хомского, сколько наивную версию Хинтона — «чистый универсальный обучатель, чистый лист». Феномен «грамматика из ничего» показывает, что чистого листа нет: что-то сильное вшито заранее. Но дальше этого аргумент не несёт — он отвоёвывает само существование сильного врождённого априори и тут же отдаёт спор о том, какое именно оно, обратно в открытое поле.

Итог. Хинтон выиграл в инженерии безоговорочно, и вместе с инженерией — институциональную власть над дисциплиной. Большинство хомскианских защит при честном разборе либо оказываются риторическими щитами, либо, додавленные до конца, переселяют априори в архитектуру и тем самым работают на противника. Уцелевает единственная карта — врождённый уклон человека создавать структуру, а не только её усваивать. Но и она доказывает лишь, что какой-то сильный врождённый прайор существует, не говоря, что он символьный. Так что война, которую многие объявили оконченной, на самом деле сузилась до одного вопроса: иерархия, которую человек навязывает миру с рождения, — это грамматика Хомского или архитектура Хинтона? Вот это всё ещё не решено.

Третий слой: дефляция самого вопроса

Вопрос

Уцелевший аргумент гласит, что ребёнок навязывает миру структуру, которой во входе нет, — значит, прайор врождён. Но это та же загадка, что в физике звучит как «почему вселенная познаваема?». Один из ответов — «потому что наше познание выкроено из той же материи, что и мир». И тогда нельзя доказать, что является предпосылкой чего. Не растворяется ли последний аргумент Хомского ровно здесь?

Ответ

Растворяется — но не в ту сторону, в какую кажется на первый взгляд, и это нужно проследить точно.

По структуре возражение безупречно. «Ребёнок навязывает входу свою иерархию» и «коммуникативная задача сама требует этой иерархии, а ребёнок лишь сходится к ней» — наблюдательно эквивалентны. Регулярность, которую набирает креол, может быть не считыванием врождённой грамматики, а тем, к чему вынуждает любая коммуникация: пределы памяти, скорость разбора, очерёдность реплик. Что здесь предпосылка, а что следствие, недоказуемо в принципе, потому что разум и его ниша со-определены: мы не можем выйти за пределы собственного познания, чтобы сверить наши категории с миром-в-себе. Это кантовский тупик, и антропный «ответ» в космологии — его частный случай. «Почему вселенная познаваема? Потому что познающий выкроен из того же материала» — это не объяснение, а указание на то, что вопрос о направлении причинной стрелки поставлен некорректно.

Но кислота эта двусторонняя — и здесь главное. Антропный принцип в физике критикуют именно за то, что он не объясняет ничего: нефальсифицируем, предсказательно пуст, задним числом оправдывает любой исход. То есть антропный ход — не победа одной космологии над другой, а дефляция самого вопроса. Перенесём это сюда честно. Если направление «предпосылка ; следствие» недоказуемо, то это лишает Хинтона чистой победы ровно настолько же, насколько Хомского. Итог не «выиграл коннекционизм», а «вопрос о том, где живёт структура — в разуме или в задаче, — малосодержателен». Это третья позиция над обоими, а не гол в одни ворота. Последняя стена Хомского падает, но за ней оказывается не Хинтон, а обрыв, в который сваливаются оба.

Удерживает спор в эмпирике, а не в чистой метафизике, единственная тонкая зацепка, ломающая полную симметрию. Если структура целиком на стороне задачи, то любой достаточно общий обучатель в той же нише обязан к ней сойтись — проверяемое следствие. А по факту другие животные в богатейшей социально-причинной среде, даже натасканные на языкоподобный вход, рекурсивного иерархического синтаксиса спонтанно не порождают; а нейросети, по результату Kallini и коллег, сходятся к какой-то структуре, но с уклонами, отличными от человеческих. Значит, прайор хотя бы частично на стороне познающего и видоспецифичен — он не выводится целиком из задачи. Зацепка слабая и оспоримая, но это единственное, что не даёт вопросу окончательно раствориться.

И последнее, методологическое. Возражение, которое топит любой эмпирический вывод о направлении объяснения, — а кантовско-антропный аргумент топит именно любой, — не является адресным опровержением врождённости. Применять его выборочно, только против Хомского, нечестно: либо ты глобальный дефляционист и тогда симметрично растворяешь обе теории, либо допускаешь обычные абдуктивные критерии — экономию, предсказательную силу, консилиенс — и тогда снова оказываешься в нормальном нерешённом споре, где этот ход не убивает никого.

Так выстраивается окончательная, трёхслойная картина. На поверхности — разгром Хомского инженерией: машина делает то, что он объявлял невозможным. Слоем глубже — уцелевший факт: человек создаёт структуру, а не только усваивает её, и значит, какой-то сильный врождённый прайор существует. И ещё слоем глубже — подозрение, что сам вопрос «структура в разуме или в мире» некорректен, и тогда проигрывают обе стороны разом. Победителя у этого спора нет. Есть лишь всё более честная диагностика того, насколько глубоко он на самом деле уходит.


Рецензии

С 3 по 5 июля состоится Литературный фестиваль в Этномире. В программе – семинары известных поэтов и писателей, поэтический конкурс, посвященный Году единства народов России, книжная выставкая-ярмарка. Приглашаем принять участие →