Чем отличается галлюцинация от фантазии?
двухэтапный подход с онтологической регуляцией.
Современные генеративные модели, построенные на архитектуре трансформера, демонстрируют способность порождать связные тексты, однако неотъемлемой чертой их работы является возможность выдачи утверждений, которые не соответствуют внешним фактам или логическим следствиям из ранее установленных посылок. В научной литературе это явление чаще всего обозначается термином «галлюцинация». Однако данное понятие не имеет строгого операционального определения, а его использование не позволяет различить нежелательную фактическую ошибку и допустимое гипотетическое порождение (творческий домысел, художественный вымысел, научную гипотезу), которое в ряде контекстов является нормативным требованием.
Ниже предлагается двухэтапный подход управление достоверностью, разделяющий задачи обучения модели и её применения (инференса). На этапе обучения в модель и вспомогательные модули закладываются средства для различения онтологических режимов и оценки семантической когерентности. На этапе инференса эти средства используются для динамической навигации в пространстве смысловых состояний с возможностью плавной регуляции строгости следования фактам, механизмами возврата из тупиков и интеграцией внешней верификации. Такой подход позволяет преодолеть недостатки существующих решений, которые либо ограничиваются постфактумной фильтрацией, либо требуют полной перестройки модели при смене режима работы.
1. Этап обучения: формирование онтологической компетенции.
На этапе обучения решаются две взаимосвязанные задачи: во;первых, обеспечение способности модели различать фактологические и гипотетические контексты; во;вторых, обучение вспомогательных модулей (классификаторов противоречий, детекторов семантической близости), которые будут использоваться на этапе инференса.
1.1. Позиционное кодирование режима порождения.
Для того чтобы модель могла адаптировать свои вероятностные оценки в зависимости от требуемого отношения к фактам, предлагается расширить стандартное позиционное кодирование векторами, представляющими онтологический режим. Входное представление токена формируется как сумма трёх компонентов: собственно эмбеддинга токена, позиционного эмбеддинга и эмбеддинга режима. Режимы определяются тремя категориями:
· Фактологический режим — требуется соответствие высказываний внешней фактологической базе.
· Гипотетический режим — допускаются утверждения, не подтверждённые фактами, но сохраняющие внутреннюю когерентность в рамках заданного конструкта.
· Фиктивный режим — разрешены произвольные отступления от действительности, однако должны соблюдаться правила, явно указанные в запросе.
Эмбеддинги режимов являются обучаемыми параметрами, добавляемыми на этапе дообучения модели на корпусах, размеченных по этим трём категориям. В результате модель учится формировать различные распределения вероятностей в зависимости от активного режима, что впоследствии позволяет на этапе инференса переключать режим без изменения весов.
1.2. Классификатор логической непротиворечивости.
Для оценки того, вступает ли новое утверждение в противоречие с ранее порождённым контекстом, необходим специализированный классификатор. Он обучается на парах предложений (или более крупных фрагментов) с разметкой «противоречивы / непротиворечивы». Входом классификатора служат векторные представления двух фрагментов, получаемые из скрытых слоёв базовой модели (например, усреднение по токенам последнего скрытого слоя). Выходом является вероятность отсутствия противоречия.
Такой классификатор может быть реализован как небольшая нейросетевая надстройка над фиксированными представлениями базовой модели (метод зондирования). Это позволяет использовать его на этапе инференса без существенных вычислительных затрат, поскольку векторные представления состояний уже вычисляются в процессе генерации.
1.3. Обучение детектора энтропийной неуверенности.
Одним из индикаторов потенциальной конфабуляции является высокая энтропия распределения вероятностей следующего токена: если модель не может выбрать одно продолжение с достаточной уверенностью, вероятность порождения произвольного (и потенциально недостоверного) утверждения возрастает. На этапе обучения на корпусе, размеченном экспертами на достоверные и недостоверные утверждения, обучается детектор, который по вектору логитов (или по активациям промежуточных слоёв) предсказывает, приведёт ли текущая точка генерации к достоверному завершению. Такой детектор может быть использован в процессе инференса для раннего отсечения ветвей с высокой вероятностью конфабуляции.
1.4. Функции потерь для онтологической калибровки.
Для согласования поведения модели с введёнными режимами в дообучение добавляются две дополнительные функции потерь.
Первая функция — калибровка фактологической достоверности — применяется в фактологическом режиме. Она штрафует модель за высокую вероятность утверждений, которые не подтверждаются внешней базой знаний. Поскольку внешняя база может быть обширной, на практике используется выборка утверждений, для которых известна истинностная метка (например, из структурированных баз данных). Потеря вычисляется как среднеквадратичное отклонение предсказанной вероятности истинности (получаемой из softmax по токенам) от истинной метки.
Вторая функция — потеря когерентности конструкта — применяется в гипотетическом режиме. Она штрафует генерацию за нарушение правил, заданных в конструкте (виртуальном мире). Конструкт на этапе обучения моделируется как набор векторных ограничений, получаемых из текстового описания вымышленного мира. Генерация считается когерентной, если её векторное представление находится в пределах допустимого расстояния от аксиом конструкта. Потеря включает как штраф за удаление от аксиом, так и поощрение разнообразия, чтобы избежать тривиального повторения.
2. Этап инференса: динамическая навигация с онтологической регуляцией.
На этапе инференса обученная модель и вспомогательные модули используются для управляемого порождения текста. Процесс организуется как поиск в пространстве смысловых состояний с возможностью возврата, накопления ограничений и привлечения внешней верификации.
2.1. Смысловые состояния и пространство поиска.
Смысловое состояние определяется как векторное представление, получаемое из скрытых слоёв модели и агрегирующее информацию о порождённой на данный момент последовательности. Для повышения устойчивости используется не последнее скрытое состояние, а взвешенная сумма по всем позициям, где веса вычисляются через механизм внимания к ключевым семантическим единицам (например, к именным группам). Такое представление обладает свойством: близкие по смыслу фрагменты текста дают близкие векторы в смысловом пространстве.
Поиск ведётся по лучевому алгоритму: на каждом шаге сохраняется фиксированное число наиболее перспективных состояний (ширина луча). Для каждого состояния рассматриваются возможные продолжения — добавление одного токена (или субсловной единицы) — и вычисляется их полезность.
2.2. Функция полезности перехода.
Полезность перехода из состояния s в состояние s' вычисляется как произведение трёх независимых оценок:
U(s \to s') = P_{\text{LM}}(s' \mid s) \cdot P_{\text{onto}}(s' \mid s, M, \mathcal{K}) \cdot P_{\text{mem}}(s' \mid \mathcal{T})
где:
· P_{\text{LM}} — вероятность, возвращаемая языковой моделью (с учётом активного режима, закодированного через позиционные эмбеддинги);
· P_{\text{onto}} — онтологическая оценка, зависящая от активного режима M и, в случае гипотетического режима, от конструкта \mathcal{K};
· P_{\text{mem}} — штрафная компонента, извлекаемая из памяти \mathcal{T} о ранее встреченных тупиках.
Мультипликативное комбинирование обеспечивает, что любая из компонент, близкая к нулю, делает переход практически невозможным, что соответствует строгому соблюдению ограничений.
2.3. Онтологическая оценка и параметр строгости.
Онтологическая оценка P_{\text{onto}} строится как взвешенное среднее между оценкой внутренней когерентности и оценкой соответствия внешним фактам. Внутренняя когерентность вычисляется с помощью обученного классификатора противоречий: для кандидата s' проверяется его совместимость с каждым из ключевых состояний, сохранённых в контексте. Итоговая оценка есть минимум из полученных вероятностей.
Внешняя фактологическая оценка получается от модуля верификации, который обращается к структурированным базам знаний (энциклопедиям, календарю, арифметическому решателю). Верификация инициируется выборочно, когда текущий режим требует высокой строгости или когда энтропия вероятностного распределения превышает порог. Результаты верификации кэшируются.
Параметр строгости \lambda \in [0,1] определяет, какой вклад вносит внешняя верификация по сравнению с внутренней когерентностью. При \lambda = 0 онтологическая оценка определяется только внутренней когерентностью (режим свободного порождения). При \lambda = 1 любое утверждение, которое может быть проверено внешними источниками и не находит в них подтверждения, получает нулевую оценку, что отсекает соответствующие переходы.
2.4. Механизм возврата и распространения штрафов.
Если в процессе поиска достигается состояние, из которого ни один переход не имеет полезности выше заданного порога (тупик), инициируется процедура возврата. В отличие от простого отбрасывания последнего шага, система запоминает векторное представление тупикового состояния и распространяет штраф на семантически близкие состояния, чтобы избежать повторного исследования аналогичных тупиков в будущем.
Память \mathcal{T} представляет собой хеш-таблицу, сопоставляющую векторные представления состояний с коэффициентами P_{\text{mem}}. При обнаружении тупика s_{\text{dead}} для всех состояний s_i, хранящихся в памяти, для которых косинусное расстояние \cos(s_{\text{dead}}, s_i) превышает порог близости, значение P_{\text{mem}}(s_i) уменьшается по формуле:
P_{\text{mem}}^{\text{нов}}(s_i) = P_{\text{mem}}^{\text{стар}}(s_i) \cdot (1 - \alpha \cdot \cos(s_{\text{dead}}, s_i))
где \alpha — скорость обучения штрафа (малая константа). Начальное значение P_{\text{mem}} для всех состояний равно единице. Такой механизм позволяет обобщать опыт, накопленный в одной тупиковой ветви, на целые классы семантически подобных ветвей без экспоненциального роста памяти.
2.5. Конструкт гипотетического мира.
В гипотетическом режиме (M = \text{гипотетический}) система оперирует конструктом \mathcal{K} — явно заданной спецификацией виртуальной онтологии. Конструкт представляется в форме, доступной для вычислений: как набор векторных ограничений, полученных из текстового описания мира (например, «в этом мире гравитация обратно пропорциональна кубу расстояния»), или как набор логических формул, если используется гибридный символьный модуль.
Внутри конструкта онтологическая оценка модифицируется: вместо обращения к внешним фактам проверяется соответствие ограничениям \mathcal{K}. При этом сохраняется проверка внутренней когерентности, но эталонами служат не факты из реального мира, а аксиомы конструкта. Такая организация позволяет модели порождать фантастические тексты, оставаясь непротиворечивой в рамках заданных правил.
3. Взаимодействие этапов и общая архитектура.
Предложенный двухэтапный подход предполагает, что обученная модель и вспомогательные модули (классификатор противоречий, детектор энтропии) являются неизменными во время инференса. Параметры \lambda (строгость) и \alpha (скорость распространения штрафов) могут динамически настраиваться в зависимости от требований задачи. Модуль внешней верификации подключается как отдельный сервис, кэширующий результаты для повышения производительности.
На этапе инференса процесс порождения текста выглядит следующим образом:
1. По запросу пользователя определяется начальный режим M (либо из явных указаний, либо через анализ запроса детектором прагматики).
2. Инициализируется луч из одного состояния (пустой контекст).
3. Для каждого состояния в луче:
· Для каждого кандидата-продолжения вычисляется полезность U с использованием текущего режима, конструкта (если задан) и памяти \mathcal{T}.
· Кандидаты с полезностью ниже порога отсекаются.
· Оставшиеся кандидаты добавляются в новый луч, ограниченный шириной.
4. Если луч становится пустым (тупик), инициируется возврат:
· Тупиковое состояние добавляется в память \mathcal{T} с распространением штрафа.
· Производится откат на один шаг (или более, если используется стратегия глубокого возврата).
· Если после нескольких возвратов луч остаётся пустым, система либо снижает параметр строгости \lambda, либо запрашивает уточнение запроса.
5. Шаги 3–4 повторяются до достижения конечного состояния (например, знака конца текста или достижения заданной длины).
4. Анализ вычислительной сложности.
Основная вычислительная нагрузка приходится на шаг оценки кандидатов, где требуется вычислить три компонента полезности. Оценка P_{\text{LM}} уже выполняется в процессе стандартного инференса. Оценка P_{\text{onto}} требует обращения к классификатору противоречий и, возможно, к модулю верификации. Классификатор противоречий имеет сложность, пропорциональную числу проверяемых пар (на практике ограничивается несколькими ближайшими состояниями в контексте). Верификация выполняется асинхронно, и её результаты кэшируются, поэтому в среднем её вклад в задержку невелик. Оценка P_{\text{mem}} требует поиска в хеш-таблице, что выполняется за константное время.
Поскольку ширина луча B фиксирована, а количество шагов L линейно связано с длиной текста, общее число обработанных состояний составляет O(B \cdot L), что соответствует линейной сложности относительно длины текста. Распространение штрафов происходит только при обнаружении тупиков, число которых обычно значительно меньше общего числа шагов. Таким образом, предложенная архитектура сохраняет вычислительную эффективность, характерную для лучевого поиска, добавляя лишь константные множители.
5. Ограничения и пути их преодоления.
Представленность конструкта. В текущей реализации конструкт задаётся в виде векторных ограничений, что не позволяет выражать сложные логические правила. Расширением могло бы стать использование гибридных символьных модулей, поддерживающих формальную верификацию.
Полнота внешних источников. Отсутствие факта в базе знаний не означает его ложности. Поэтому в работе предусмотрено, что при отсутствии сведений верификация не обнуляет оценку, а оставляет её на уровне, определяемом параметром \lambda.
Чувствительность к порогам. Выбор порогов отсечения и ширины луча влияет на баланс между качеством и скоростью. В перспективе эти параметры могут адаптироваться динамически на основе анализа текущей энтропии и частоты тупиков.
Семантическое распространение штрафов. Использование косинусного расстояния для обобщения тупиков может приводить к ложным срабатываниям, если семантически близкие состояния ведут к разным исходам. Для смягчения этой проблемы предлагается дополнить распространение проверкой через классификатор противоречий, что увеличивает надёжность за счёт некоторого роста вычислений.
6. Заключение.
Предложен двухэтапный подход к управлению достоверностью генеративных моделей текста - на этапах обучения и инференса. При обучении в модель и вспомогательные модули закладываются средства для различения онтологических режимов (позиционные энкодеры режимов), оценки семантической непротиворечивости (классификатор противоречий) и выявления зон неуверенности (детектор энтропии). На этапе инференса эти средства интегрируются в процесс лучевого поиска с динамической регуляцией строгости следования фактам, механизмом возврата и распространения штрафов на семантически близкие тупики, а также с возможностью задания теоретических конструктов для гипотетического порождения виртуальных миров.
Предложенная архитектура позволяет плавно переходить от строгого фактологического режима к творческому домыслу без смены модели, сохраняя вычислительную эффективность за счёт фиксированной ширины луча и кэширования результатов верификации. Различие между нежелательной конфабуляцией и допустимым гипотетическим порождением определяется условиями генерации: активным режимом, параметром строгости и наличием конструкта.
Дальнейшее развитие подхода может быть связано с расширением библиотек конструктов для различных доменов, интеграцией более мощных символьных верификаторов и адаптивным управлением параметрами поиска на основе обратной связи от пользователя. Предложенная концепция открывает путь к созданию генеративных систем, способных сочетать творческую свободу с дисциплиной фактологической достоверности в едином архитектурном замысле.
Свидетельство о публикации №226032600098