Translit

Инвариант

Распространенным примером искажающего преобразования является транслит (translit).

Translit - это сокращение от transliteration - процедуры записи текстов одного языка символами другого. Транслиты часто возникают при смешении племен с различной письменностью, как результат миграции, изгнания или колонизации, и просто как заимствования (кальки) из других языков (амбар, батон, вокзал, директор, жакет, кран, магазин, сарай, трактор, футбол, ярлык итд.)

В качестве культурно и исторически значимого примера транслита, можно назвать идиш - один из жаргонов европейских евреев (возникший после их изгнания из Испании в 1492 г.), в котором слова германского диалекта записывались буквами древнееврейского алфавита. Другим примером может служить воровское арго российского криминального мира ("феня"), в котором русскими буквами передавались многочисленные заимствования из латинского, древнееврейского, французского и венгерского (мент, параша, ксива, малина, порода, хипеш, бан, хаза итд.)

В теории информации транслит столь же удобен, как дрозофила в генетике. Едва ли не все основные понятия могут быть выведены из рассмотрения этой модели коммуникации.

Значимость и популярность транслитов усилилась с развитием (почтовых) средств связи с ограниченным (обычно, только латинским) алфавитом. Например, в GSM- стандарте мобильной связи символы национальных алфавитов могут передаваться только в двухбайтной кодировке (UCS2). Как следствие, кириллические SMS-сообщения обходятся вдвое дороже, чем в транслите.

Возможны ровно три варианта отображения (маппирования) символов одного языка на другой, в зависимости от соотношения мощности (размеров) их алфавитов.

1. Мощность исходного алфавита меньше мощности конечного.

Например, 27-ми буквам древнееврейского языка (22 + 5 "софитов") несложно найти кириллические (33 символа) эквиваленты, тем более, что начертания некоторых кириллических букв (не имевших греческих аналогов) именно оттуда и были заимствованы (например, "заин" -> "з", "шин" -> "ш").

2. Мощности алфавитов совпадают.

Решение тривиально.

3. Мощность исходного алфавита больше мощности конечного.

Например, 33 символа современной кириллицы необходимо отобразить в 26 символов латинского алфавита.

Классическое решение заключается в конструировании многосимвольных супербукв (лигатур). Например, дифтонги английского языка "ae", "ph" и "th" используются для передачи отсутствующих в английском греческих звуков (букв). Кажется, почти во всех алфавитных языках используется удвоение согласной для передачи (звонкого) ударного звука ("суббота"). Некоторые лигатуры возникают для передачи оттенков звучания (неалфавитных звуков). Например, старославянское "io" ("ioлка") или современное "йо" ("йод"), английское "oo" ("Oops!", "book", "moon").

При использовании супербукв (лигатур) возникает непростая проблема их идентификации.

Каким образом декодер должен решить, что означает прочитанный им из потока символ - ординарную букву используемого алфавита или первый символ многосимвольной лигатуры (супербуквы)?

Здесь, опять-таки, возможны три варианта.

1. Значение символа зависит от контекста - то есть от того, сколько и каких символов встретилось до и/или после данного. Этот вариант требует от декодера некоторого интеллекта и определенного объема буферной памяти, достаточной для хранения (грамматически корректной) фразы, используемой при решении. Практически, это означает встраивание в декодер словаря (спелчекера).

Аналогом этой ситуации в естественных языках являются омонимы. Например, невозможно указать значение таких, отдельно стоящих, слов как "ключ" или "коса" - требуется знание контекста.

Если на интернет-форуме вы читаете написанный транслитом текст, то это, как раз вышеописанный вариант. Знание контекста и (встроенный) словарь общей лексики позволяют вам "on-the-fly" декодировать сообщение.

Мне не попадались контекстно-зависимые алгоритмы декодеров транслита, но использование встроенного словаря - классика схем компрессии данных.

2. Назначение одного или нескольких символов алфавита в качестве <ESC>-символов, трактуемых, как имеющих специальное значение.

Классическое решение, уходящее корнями в начало письменности. Например, на дорогом пергаменте текст писался без промежутков (пробелов). Заглавные (прописные) буквы и абзацные отступы - изобретение позднейшего времени. Для облегчения чтения (декодирования) и опознания начала слов модифицировалось написание отдельных букв, в зависимости от того, в какой позиции слова они находились. В некоторых стилях арабской вязи буквы могут иметь до четырех различных вариантов начертания: отдельно стоящая буква, начальная буква слова, конечная буква слова и лигатура, заменяющая сочетание нескольких букв. В иврите пять согласных ("софиты") меняют начертание, если находятся в конечной позиции слова. В английском, по крайней мере, одна буква использовалась таким образом ("i" -> "y").

Обычно, <ESC>-символ помещается в начале маркируемой последовательности. По крайней мере, так, обычно, делается в схемах компрессии данных и сотнях других применений.

Однако, в транслите ("Twoletters", "Volapuyk" и "Universal 2") <ESC>-символы последовательно используются в качестве суффикса для маркируемого символа.

3. "Common context" - использование общей модели. "Высокие договаривающиеся стороны" - оба кодер и декодер используют фиксированный список супербукв (лигатур). Этот вариант выглядит повторением первого, но это не так - взамен знания полной грамматики языка в первом случае (для отбраковки недопустимых языком конструкций), теперь требуется только знание (простейшей) грамматики построения супербукв. Практически, это наиболее распространенный вариант.

Декодер должен использовать "жадный" ("greedy") алгоритм для конструирования супербукв, остаток текста рассматривается при этом как односимвольная транслитерация.

Технически (и именно так устроены многие программы транслитерации), декодирование может быть выполнено в две фазы (в точности инверсные кодированию):

1. Поиск/замена всех многосимвольных последовательностей (лигатур). 2. XLAT - byte-2-byte трансляция полученного на фазе 1 текста.

Быстрый поиск/замену предлагает большинство распространенных библиотек работы со строками и эти алгоритмы относительно просты и более эффективны, чем алгоритмы конструирования конечного автомата для разбора регулярных выражений (ReExp). Конечно, при этом теряется возможность обработки особых случаев (буква в начале, конце, середине слова итд).

В сети Интернет представлено, по крайней мере, с дюжину различных многосимвольных схем транслитерации, лучшая из которых, IMHO, Simplified. Вариант Покровского (EuroTex-92) совершенно непригоден для чтения. LOC (Library of Congress) провальна во всех отношениях (на самом деле, приведена ее устоявшаяся аппроксимация, без акцентированных символов), ГОСТ 16876-71 (которым никто никогда не пользуется) однозначно декодируется, но уродует квотированный текст, Telegram "съедает" буквы 'Ъ' и 'Ь', все остальные просто ужасны. Я слегка модифицировал Simplified и добавил этот вариант под названием "Modern". Я также сконструировал еще одну схему: Funny - смесь традиций транслита и хакерской графики. Обе схемы, в отличие от многих других, однозначно декодируемы.

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Инвариант

Рецензии

Написать рецензию

Вот то что вы описали, и делается, и вы делаете. Это явно все правильно.
Но речь идёт о разпознавание, или различении одного от другого. Когда эта делает машина, компьютер.
И ваш пример удачный. По поводу этих О, если один, то это О, ( точнее, по нашему ближе к А). А если два, ОО, как в book, то это уже по нашему У, точнее даже не У, а нечто средне между У и Ю, где Ю, это как в тЮль,
И чтоб отличить где О как О или А, а где О, как У. Надо цеплять хвост, или связывать первый со вторым, по разному, в зависимости от контекста.
Но это все несколько из другой оперы.
Потому как Грубо говоря идёт разговор научить машину, компьютер, *думать*.
А если говорить об информации, как я это понимаю.
То думать человеческие мозги учить не надо. Они уже умеют это делать. С рождения.
И ему, человеческому мозгу, надо образно говоря, только расчертить цепи управления, что собственно и имеется, в каждом языке, но только схемы этих цепей, а соответственно и сами эти цепи управления, в натуре, в мозгах, разные.
И он будет ими руководствоваться, скажем при своих расчетах. При шифровании и расшифровке.
По сути, человеческие языки, как система кодирования. Как цепи управления. Это примерно тоже самое, что мы имеем и в указанной вами в другом месте цепи управления лифтом.
Но только цепи эти более сложные, и могут само регулироваться. И адаптироваться.
Буду дальше вас читать. Может ещё наклюнется.
Но я Михаил практик, не теоретик.
Мне надо, чтоб все чо я вижу, представляю, не в проекте, не на чертежах, а в натуре защевелилось.
Ну и я некоторые штучки делал, они шевелились. Но не так как бы хотелось.

Сергей Горохов 2 17.01.2019 11:24 • Заявить о нарушении

+ добавить замечания

Вот расцените это как просьбу страждущего. Жаждущего познаний.
Не могли бы вы, все что вы пишите, изложить так, чтоб было понятно, пятикласснику, с таким понятными детям примерами.
Вот в былое время, чтобы дети понимали, о чем речь, по сути это излагалось сказками. На бумаге, холсте, камнях. Рисунками,
И один пример, я вам приводил, Про Сивку-Бурку.
А по большому счёту все древние сказки, за исключением, воспитывающих, прививающих нравственные начала, и устои. Это схемы, тех или иных рече языковых постановок,
Т.е. различных систем кодирования.
Вот эта, дедка за репку, по другому говоря, за базовое значение, бабка, за дедку, внучка за бабку, и т!д. Это такой хвост, что именуется агглютинация в чистом виде. Проще говоря, последовательное приклеивания, при стыковка дополнительных значений.
За счёт чего и происходит сдвиг базового значений.
И такая система, дедка за репку, бабка, за дедку, и т.д. применяется сейчас во многих языках, как системах кодировки единиц информации.
В частности в Табасаранском языке. О принципах которого, очень даже хорошо рассказал Рашид Азизов, здесь, на этом сайте, автор проза.ру.

Сергей Горохов 2 17.01.2019 12:32 Заявить о нарушении

С чем связана эта просьба.
Надо чтоб то что вы пишите понимали, пятиклассники. Т.е. будущее страны.
А то, что вы пишите, что понимают только пенсионеры, дети этого не поймут. Они же не пенсионеры. Ну, а пенсионеры, они это может и поймут, но им это, сто лет не надо.
У них цели и задачи уже несколько иные, и сами знаете какие.
В общем, любой труд, в этой области, должен быть написан для восприятия и понимания, уровня пятого класса. Если не меньше.
Потому как чем моложе человек, тем он более восприимчив.
Вот ребёнок, родным языком чешет уже в два года.
Я знаю такие случаи. Отец, уйгур, и его родственники выше, старше уйгуры.
Мать узбечка, и все родственники выше, старше узбеки.
Живут, в России. Хочешь не хочешь, по русски всем шпрехать надо.
Так вот, девочка, этих мамы и папы, уйгура и узбечки, только пошла в школу, в первый класс, и шпрехает, как на родных, сразу на трёх. Уйгурском, узбекском, и русском.
В общем, все что мы пишем, должно быть понятно, школьникам младше классникам.
И уж во всяком случае, не должно вызывать отторжения.

Сергей Горохов 2 17.01.2019 12:44 Заявить о нарушении

> То думать человеческие мозги учить не надо. Они уже умеют это делать. С рождения.

Еще бы узнать КАК они это делают :-)

> Не могли бы вы, все что вы пишите, изложить так, чтоб было понятно, пятикласснику, с таким понятными детям примерами.

Тут вот какое дело: много лет я таскался с этими идеями по всем форумам, никто и слушать не хотел. Плюнул, работал один. И теперь я просто не знаю - что непонятно другим: ни с кем не обсуждалось, никто не спрашивал.

Тема обширная, я сам когда пишу, вечно что-то забываю сказать. И изложить ее связно в деталях очень трудоемко - начинать надо с Инь и Янь.

Поэтому лучше, просто спросить у меня про неясное место - я постараюсь изложить его более внятно (При условии, конечно, что у меня есть ответ. На очень многое ответа пока нет).

> И такая система, дедка за репку, бабка, за дедку, и т.д. применяется сейчас во многих языках, как системах кодировки единиц информации.

Не только в языках, а - шире - во всем, что именуется "культурный код". Традиции, смена религий итп. Я (невероятно давно) начинал было "копать" эту тему, но все пришлось бросить и больше уже не возвращался ("Морфология сексуального поведения" http://www.proza.ru/2016/12/24/422).

> В частности в Табасаранском языке. О принципах которого, очень даже хорошо рассказал Рашид Азизов, здесь, на этом сайте, автор проза.ру.

Упс! У него там "до фига" написано - 265 произведений. Это надо не на ходу смотреть. Правда, половина на табасаранском - это я не пойму :-)

> Так вот, девочка, этих мамы и папы, уйгура и узбечки, только пошла в школу, в первый класс, и шпрехает, как на родных, сразу на трёх.

Всегда завидовал таким людям. Но, способности не те...

> И уж во всяком случае, не должно вызывать отторжения.

Вот, наверное и тут, способности не те. Потрясаюшие, на мой взгяд, вещи излагаю - не воспринимают.

Инвариант 17.01.2019 22:06 Заявить о нарушении

Вы мне ссылочки даёте. И я вам дам. Как писать по русски.
http://proza.ru/2015/07/14/349
Вот когда прочтете до конца, там немного.
Вы поймёте почему вас не понимают. В том числе, во многих местах и я.

Сергей Горохов 2 17.01.2019 23:18 Заявить о нарушении

> И я вам дам. Как писать по русски

Прочитал. Похвалил.

И все-равно, в непонятках :-)

Инвариант 18.01.2019 00:50 Заявить о нарушении

Писать надо Михаил. Наиболее приближенно к устной речи. Ну и чтоб понял пятиклассник. А значит все эти импортные названия заменить русскими, т.е. теми, которые понятны пятикласснику. Если не можете вы этого сделать. Что очень даже вероятно, так давай те я вам переведу. На русский. Русский кстати, самый мощный по сравнению с другими. Все остальные отдыхают.
Вам бы надо прочитать что такое Койне, по другому суржик, а проще говоря смесь бульдога с носорогом. Когда одна система кодировки, шифрования не вяжется, не состыкуются с другой, и даже ей противоречит. Отчего в голове, шарики за ролики заскакивают.
Это как систему виндовс, сложно состыковать с системой гугл. Чтоб они работали в одной упряжке. Т.е. ты работаешь, либо в одной операционной системе, либо в другой.
Да понятно, что можно сделать переводчики, драйверы. Но зачем это надо?
А не надо потому, что скорость и качество обработки информации, именно информации, того что в голове. Увеличивается многократно. И точности перевода, переложения. добится сложно, если вообще возможно. Это сколько дополнительных ступенек надо.

Сергей Горохов 2 18.01.2019 18:53 Заявить о нарушении

> Вам бы надо прочитать что такое Койне, по другому суржик, а проще говоря смесь бульдога с носорогом. Когда одна система кодировки, шифрования не вяжется, не состыкуются с другой, и даже ей противоречит. Отчего в голове, шарики за ролики заскакивают.

Таки не соглашусь. Креольские языки формируются, в сущности, по тем же правилам. Эсперанто под них не подпадает :-) А вот ладино и идиш оказались вполне живучи. На идиш есть богатая литература. Восток Украины, как я понимаю, весь почти говорит на суржике (считая за эталон полтавский диалект).

Инвариант 18.01.2019 21:02 Заявить о нарушении

Михаил. Язык это та или иная система кодировки, или шифровки единиц информации и их комплексов.
И если говорить о каком то языке, надо приводить какая или какие в совокупности применяются эти самые системы кодировки информации. Этих всполохов в мозгах.
Они бывают разные, в имеющейся терминологии,
Они называются по разному, флективная, наша родимая. Инкорпорация, в общем случае, и чтоб аы поняли, когда одно слово, прям вставляется в другое. В частности по этой системе, образоаано слово Вологда. Инфиксация, в этой системе, скажем предлог, или суффикс, вставляется внутрь корня. Ну и есть ещё масса различных систем.
Вот если говорить о табасаранском, то чтоб вам было понятно, прежний суффикс не убирается, а к нему пристыковывается ещё один. А потом ещё, а потом ещё, и таким образом слово растягивается на полстраницы. У финнов такая штука.
Только в таб. Кодировке, все это на уровне единичных звуков.
А вот у финнов, это несколько звуков, слоговая система, и получается, что то, что мы называем суффиксы, чтоб вы поняли о чем идёт речь, у них скажем за корнем, штук двадцать. А бывает и тридцать суффиксов.
А вот названия суахили, и прочая, это разговор для дилетантов в этом деле.
Ну если взять этот эсперанто, я его систему знаю. Типичное мыло, такой же койне, тумбо юмбо сделанный сознательно.
Вот простой пример.
Есть двигатель карбюраторный, бензиновый, а есть дизель, солянка.
И тот, и другой везёт. И вроде в двигателе поршня и т.д. все одинаково.
Но а система подачи и воспламения топлива, кардинально отличается.
И точно также с языками.
Вот если для меня сказали суахили, или вообще любой.
Значит расскажи какова там система кодировки.
А если сыпать только названиями, это разговор ни о чем, к сожалению. Типа какого цвета Жигули, красный или синий, лучше тянет.
Надо вести речь, ни о том, какого цвета автомобиль, а о его тактико технических характеристиках. Мощность, вес, какие шина, с шипами или нет. Если говорить о проходимости. . И т.д.

Сергей Горохов 2 18.01.2019 21:32 Заявить о нарушении

> если сыпать только названиями, это разговор ни о чем, к сожалению

Я привел их просто, как примеры жизнеспособных жаргонов, не ради анализа грамматики. Скажем идиш - немецкий + иврит.

Инвариант 18.01.2019 21:45 Заявить о нарушении

Я бы повторился, Михаил. И говоря по импортному, это разговор для дилетантов.
Сидишь, мыдиш, супер, пупер и т!д.
А по сути, ни о чем, типа порисоваться.
Система кодировки, вот о чем надо говорить если говорить о языках. Если вспомнить автомобили.
О их тактико технических характеристиках. А не о том какого он цвета, и какой цвет на солнце лучше блестит. Типа играет красками.

Сергей Горохов 2 18.01.2019 21:59 Заявить о нарушении

> Система кодировки, вот о чем надо говорить если говорить о языках

Я разве спорю? Просто об этом надо говорить не со мной.

Инвариант 18.01.2019 23:20 Заявить о нарушении

+ добавить замечания

Написать рецензию Написать личное сообщение Другие произведения автора Инвариант

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.