Размышления. Миф об избыточности

Неформально, устойчивость Текста к искажениям, то есть его пригодность к восстановлению, называется избыточностью.


По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете.

Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по отдльенотси, а все солво цликеом.


Формальное же определение, которое можно найти в книжках, к сожалению, напрочь расходится и с тем, что сказано выше и со здравым смыслом.

Нередко бывает так, что ради математического формализма или сохранения энергетического баланса, в уравнения вводится некоторый параметр, виртуальная величина, математическая абстракция, такая как корень из минус единицы или нейтрино или центробежная сила, литературный персонаж, обретающий внезапно плоть, кровь и собственную жизнь - уже вне породивших его абстракций.

В Теории Информации таким виртуальным персонажем является "избыточность" сообщения, тщательно рассчитываемая по формулам, которые можно найти в каждом учебнике информатики.


Невжано в ккаом продяке иудт бкувы, а вжано в ккаом продяке иудт мсыли!


Поставим мысленный эксперимент по пересылке сообщения из пункта A в пункт B.

Пусть, например, Алиса пошлет Бобу поздравление ко Дню Святого Валентина.

Разумеется, поздравление написано на естественном языке с высокой избыточностью.

Из экономии, Алиса воспользовалась текстовым компрессором, ужавшим сообщение настолько, что "избыточностью" упакованного сообщения можно пренебречь.

Алиса отправляет сообщение Бобу по e-mail и тот, приняв его, использует тот же самый текстовый компрессор (разделяемая модель) для восстановления сообщения в оригинальном виде (на естественном языке).

Если у вас есть некоторый опыт общения по e-mail, то, вероятно, ничего в этом мысленном эксперименте не покажется вам необычным.

Между тем, случились две престранные вещи.

На передающей стороне - у Алисы.

Текст достаточного размера может быть сжат хорошим текстовым компрессором примерно вчетверо. "Избыточность" его, как мы ранее договорились, при этом исчезла. По каналу связи не было передано ничего, кроме служебной информации из заголовка электронного письма и лишенного избыточности текста.

Первый риторический вопрос:

Куда исчезла (подобно улыбке Чеширского Кота) избыточность сообщения на передающей стороне?

На приемной стороне - у Боба.

Используя (функционально) тот же самый текстовый компрессор, Боб распаковывает лишенное избыточности сообщение и восстанавливает оригинальный текст на естественном языке, тем самым, восстановив и его (немалую) "избыточность".

Второй риторический вопрос:

Откуда взялась у Боба избыточность - причем ровно в том количестве, в каком она ранее загадочно исчезла на передающей стороне - у Алисы?

Если отказаться от теорий Мирового Эфира, Дальнодействия и Передачи Мыслей на Расстояние, то единственным ответом может быть тот, что "избыточность" никуда не исчезала и ниоткуда не появлялась. Ее просто нет. "Избыточность" - это миф, "Мировой эфир" теории информации.


Рецензии
Текст достаточного размера может быть сжат хорошим текстовым компрессором примерно вчетверо.
-------------
Пож., приведите пример: как компрессор сжимает какую-то фразу. Тогда будет легче обсуждать.

Леввер   16.06.2017 11:53     Заявить о нарушении
Избыточность. Числовой пример
http://gazlan.narod.ru/etudes/redundancy_example.html

Инвариант   16.06.2017 13:19   Заявить о нарушении
У вас там целая теория, а я хочу понять, в чём проблема?
Есть какая-то система кодирования букв, но любой КОНКРЕТНЫЙ текст имеет некоторые особенности (если мы его закодируем, в кодограмме будет избыточность). Их можно использовать для более экономного кодирования. Но об этом нужно будет сообщить декодеру (затрата). Если эта затрата окупится, то значит вся процедура выгодна (даст более короткое сообщение). В этом и есть выигрыш от устранения избыточности.

Леввер   16.06.2017 13:45   Заявить о нарушении
> хочу понять, в чём проблема?

Небольшая провокация :-)

Мне кажется неверным сам термин "избыточность" (во всяком случае, без симметричного рассмотрения "недостаточности"). Иными словами, я хочу вернуться к идее Р.Хартли о "согласовании" линий связи и сообщений.

Используя аналогию "начинки" и "тары" можно сказать, что возможны три варианта размещения (с избытком, с недостатком и оптимально) - и я хочу явным образом выделить этот момент: НЕТ "избыточности" сообщения, а есть несогласованность сообщения и системы кодов.

Если ввести понятие спектра: для сообщения - спектра кратностей символов, а для системы кодов - спектра битовых размеров кодов, то можно говорить о согласовании спектров (аналогично согласованию импедансов в электрических цепях).
И, попутно (см. "Размышления. Трансформатор Хаффмана" http://www.proza.ru/2017/06/14/138).

Процесс компрессии/декомпресии (и, более общо, произвольного _обратимого_ кодирования/декодирования) ничем не отличается от классического термодинамического цикла Карно (с упруго деформируемым текстовым сообщением в качестве рабочего тела - аналог идеального газа).

При этом, информационная энтропия является аналогом термодинамической, а размер сообщения - аналогом абсолютной температуры.

Но, цикл Карно может быть описан также в двойственных координатах P,V (давление, объем).

Вопрос (ответа у меня нет): Можно ли указать аналогичные двойственные координаты для цикла компрессии/декомпресии сообщения и приписать (формально) "Энергию" этим процессам? Существует ли "энергетический" (a la Hartley) инвариант преобразования?

Инвариант   16.06.2017 23:32   Заявить о нарушении
Связи теории информации с термодинамикой обсуждаются давно, и вы развиваете этот подход. Но у вас ещё появляется гиперболический поворот -- что же, есть связь с преобразованием Лоренца, теорией относительности?

Леввер   17.06.2017 08:21   Заявить о нарушении
> Связи теории информации с термодинамикой обсуждаются давно, и вы развиваете этот подход.

Не совсем так.

Термодинамика изучает обмен Знергией. В Теории Информации, принципиально нет энергетического обмена.

Но Информацилнный обмен - отражение реального термодинамического процесса. Отсюда вопрос: нельзя ли (формально) приписать информационному процессу энергетические характеристики и существует ли при этом некоторый "энергетический" инвариант (двойственный Энтропии)?
> Но у вас ещё появляется гиперболический поворот -- что же, есть связь с преобразованием Лоренца, теорией относительности

Трансформатор Лоренца в СТО появляется как следствие инвариантности скорости света.

Гиперболический поворот - просто следствие из теоремы Шеннона о существовании Энтропии.

Шенноновская энтропия имеет смысл меры - остается неизменной при деформации сообщения ("Энтропийный предел"). Иными словами, в координатах "размер сообщения - (удельная) энтропия" деформация сообщения (сжатие-растяжение) является гиперболическим поворотом.

Далее, опираясь на энергетический инвариант Хартли (произведение полосы частот сигнала на его длительность), я предполагаю, что существует еще и другая (двойственная) системе параметров (p,d), таких, что p * d = const, и этими параметрами являются ширина спектра кодов и ширина спектра кратностей символов сообщения (и их произведение имеет смысл площади - Знергии сообщения).

Инвариант   17.06.2017 11:33   Заявить о нарушении
Я не всё понял в вашем ответе, но это связано с поверхностью моих познаний в этой области (в книге Бриллюэна читал только первые главы). Успехов вам!

Леввер   17.06.2017 12:16   Заявить о нарушении