Универсальный стандарт метаданных

Андрей Полеев

Резюме. Основой сознания является ассоциативная связь понятий, согласованная работа элементов нейрональной сети. Аналогично этому, создание интернета нового поколения (semantic web) невозможно без атрибутов, позволяющих осуществлять семантическую связь документов и интеграцию их в информационный контекст. Для реализации этих целей предлагается ввести Универсальный Стандарт Метаданных (universal metadata standard, ums), который мог бы служить основой документографии (documentography), функционально необходимой для интерпретации документов в автоматических операционных системах.

Ключевые слова: документ, метаданные, классификация, идентификация, ассоциация, документография, метаграфия, стандарт, база метаданных.

English abstract. The creation of a next generation internet (semantic web) is impossible without attributes, allowing the semantic association of documents and their integration into information context. To achieve these goals, the Universal Metadata Standard (ums) may be an ultimative tool, which could serve as a basis for documentography, and is functionally required for interpretation of documents by the automatic operating systems.

Andrej Poleev. Universal Metadata Standard. Scientific and Technical Information Processing, 2011, Vol. 38, No. 2, pp. 119–122. © Allerton Press, Inc., 2011, http://www.springerlink.com/content/p7567mq32v4h0713/

Цель научного познания – объять необъятное. Невозможность достижения этой цели очевидна, однако если принимать её за максиму научно–познавательной деятельности и путеводную звезду в поисках истины, удовлетворение стремления узнать больше и расширить индивидуальный круг знаний представляется вполне разумным и оправданным мотивом любого человека. В сущности, значительную часть времени люди заняты организацией информационного потока, непрерывно поступающего в их мозг через органы чувств и рецепторы как из тела так и извне. Не только их благополучие, но и шансы на выживание, определяются тем, насколько эффективно происходит такое упорядочивание информации, в результате чего сырьё нервных импульсов превращается в достоверное знание.

Появление и развитие сознания связано с совершенствованием средств коммуникации, основанием чего является знаковая передача информации, язык. Непрерывное совершенствование техники коммуникации, преодоление семантических барьеров методом проб и ошибок, привело к возникновению стандартов передачи и восприятия информации, примером чего является книгопечатание (полиграфия). Проделав значительный путь, полиграфическая техника привела к становлению микроэлектроники, которая не только улучшила качество и расширила область достоверного знания, но и ознаменовала собой возможность злонамеренного манипулирования сознанием, поскольку из поля зрения читателей и зрителей, т.е. реципиентов информации, стали исчезать сферы производства и распространения знания, а также те аспекты документов, которые недоступны непосредственному человеческому восприятию, однако могут или должны быть восприняты обрабатывающими информацию машинами (компъютерами). Восполнить возникший пробел восприятия представляется важной задачей информатики.

Рассмотрим пример того, как происходит организация знания. В центре внимания учёного сообщества находится проблема накопления, верификации и систематизации знаний, оформляемых в виде научных публикаций. Однако появлению всякой публикации предшествует значительная деятельность, как правило сокрытая от публики. Черновой вариант научных статей – лабораторный журнал – это не что иное как сборник протоколов о запланированных экспериментах и их результатах. Однако в идеальном случае он должен протоколировать всё, относящееся к проводимой научной работе и отражать всё, что происходит в лаборатории в хронологическом порядке, начиная от целеполагания, гипотезы, экспериментальной проверки, выводов, впечатления об увиденном и услышанном. В формальном плане, лабораторный журнал должен описывать документы различного формата: фотографии, тексты протоколов, тексты публикаций, видеозаписи конференций (lab meetings), указания на источники в интернете и т.д. Все эти документы должны быть связаны между собой, снабжены комментариями, и доступны для просмотра и каталогизации. Например, в хронологическом порядке друг за другом могут следовать эксперименты или мысли, относящиеся к различным темам: теоретическое иследование определённого вопроса и сбор соответствующей информации; написание статьи или книги на основании уже завершённой работы; планирование тематически разнородных экспериментов. В связи с этим эта тематическая разнородность должна быть отражена в списках тем, а также в возможности экстрагировать однородную (родственную) информацию посредством указателей (thematic tags) и ссылок (location tags).

Компъютер MacBook, которым я пользуюсь, предоставляет возможность накоплять и тематически объединять разнородные документы. Однако для их описания, воспроизведения или визуализации необходимо дополнительное программное обеспечение. File Maker только частично удовлетворяет потребности систематизации и описания: на данном этапе отсутствует приемлемая панель обозрения и возможность открывать и использовать документы внутри данной программы, не прибегая к дополнительным программам. Все эти дополнительные программы в идеальном случае должны быть встроены в качестве опций, а не разбросаны по разным местам: web editor, web browser, photoshop, file maker, pdf reader, video or photo visualiser, text editor и т.д..

В связи с многообразием документальной основы научного сознания и познания, проблема документации и систематизации данных приобретает первостепенное значение. Обычно документы классифицируют по алфавиту, по дате, по теме, по проекту, по формату, по местонахождению (local folder, internet address). Для их идентификации служит дата, порядковый или систематический номер, имя (название). Например, изображения (images) имеют формат (file format) jpg, gif, png, psd; тексты (texts) имеют формат pdf, doc, txt. Формат документа – это его идентификационный признак (identification tag), необходимый для опознания в операционных системах и инициации программ (процессирования). Однако в каждом формате до сих пор отсутствует его систематическое описание, необходимое и достаточное для интеграции и переноса в другие описательные системы (например, при копировании из электронной библиотеки в персональный компъютер). Всякий документ отражает реальные предметы и события, является их описанием, отображает определённые качества. Однако фотография не сохраняет информации о размерах объекта, о его происхождении, истории, цели. Всё это в идеальном случае должно входитъ в метаинформационное дополнение документа, по крайней мере в виде ссылок. Однако увеличение количества документов и форматов не сопровождается совершенствованием технических возможностей их восприятия и систематизации. Вместо этого происходит разможение описательных систем (doi, ISBN, URN, PURL, ISNI и др.) и псевдонимов (aliasing). Так например, журнальная статья, как правило в форматах html или pdf, в описательной системе NCBI/NLM получает номер (PUBMED ID), добавляется резюме (abstract) с сопряжённым указанием на время публикации, название журнала, имён авторов, языка, ключевых слов. Необходимо однако, чтобы эта описательная метаинформация добавлялась непосредственно в документ в качестве дополнения или расширения, чтобы было возможно упорядочивание документа при перемещении его в другие описательные системы (например, при переводе на другой язык, или при использовании в другой базе данных), а история такого перемещения (например, при копировании из электронной библиотеки) отображалась бы в документе. Для достижения этой цели следует создать универсальный стандарт для всех типов документов, и договориться о том, какие опции будут присутствовать в каждом формате; как их будут заполнять или модифицировать; что не должно подвергаться изменению. Мне представляются очевидными нижеперечисленные опции метаинформационного описания документов:

имя * (preferably unique name)
формат (format)
дата создания (date)
классификационная система (classification system used)
идентификационный номер (identity number)
язык ** (language)
локализация или место происхождения (position, location)
источник или автор (creator, origin, source)

* Систематическое имя (systematic designation) – это последовательность символов (знаковая секвенция), на основании которой происходит идентификация обозначаемого объекта и установление соответствия между восприятием его посредством органов чувств (сенсорной репрезентацией) и языковой интерпретацией этого восприятия. Систематическое имя должно отличаться качествами, позволяющими отнести его к классу наименований, а также содержать необходимое дополнение, достаточное для однозначной идентификации среди родственных названий, обозначений и имён. Например, в узком круге лиц, достаточным является имя Андрей, в то время как в группе, имеющей в своём составе несколько людей с тем же именем, необходимо указывать родовое имя (фамилию) для раличения. В планетарном масштабе, достаточным является указание имени, даты и места рождения для установления идентичности. Систематическое имя для обозначения персон может состоять из двух или трёх имён, последовательности цифр, и географического определителя. Аналогично этому, систематическое имя организаций может содержать название, указание на дату и место основания, адрес, дату завершения деятельности. Ответ на 3 вопроса: Кто или что? Где? и Когда? является достаточным для идентификации и в других случаях.
Понятия каталог, номенклатура, классификация, регистр в значительной мере синонимичны, и обозначают список имён, объединённых в родственные группы, которые в свою очередь также сгруппированы на основании определённых критериев. Порядок группирования может изменяться в зависмости от выбранных критериев. Имена персон можно группировать по алфавиту, на основании даты или места рождения их прообразов. В динамичном пространстве категоризации, систематическое имя остаётся константой, кристаллизационным пунктом, отправной точкой в процессе семантической ассоциации, поиска и установления отношений и взаимосвязей между именами, понятиями, определениями, категориями.

** язык подразумевает знаковые системы естественных языков, имеющих дескриптивный и индикативный характер; языки программирования являются производными естественных языков, и имеют директивный характер алгоритмов, т.е. инструкций для автоматических операторов

Понятно, что инструкции по производству атомного оружия, или документы порнографического характера не могут быть доступны всем кому не лень. Поэтому для ограничения доступа к документам следует ввести градацию доступности.

Если документ будет претерпевать модификации (перенос в другую описательную систему, изменение размера, формата, названия), то первичные метаданные должны сохраняться, а изменения автоматически или мануально записываться: при переименовании добавляться синонимическое имя; в другой описательной системе (системе классификации) добавляться её обозначение и идентификационный номер в этой системе; при транспозиции записываться новый адрес в интернете или географическое соответствие, и т.д.

Для каждого атрибута стандарта УМ следует определить форму опции, дать её определение и формальное описание. Содержание каждой опции должно соответствовать правилам, на основании которых составлялся бы каталог допустимых значений (metabase: catalog of systematic designations). Например, авторство документов должно быть однозначным на основании списка авторов. Происхождение документа должно указываться на основании списка организаций. Указание типа документа (текст, рисунок, фотография, видео, звук), должно сопровождаться описанием (резюме), и типологической атрибутикой, характерной для каждого типа документов. Каждый документ должен содержать перечень объектов или явлений, отображением или описанием которых он является (биологический вид, астрономический объект, персона или группа лиц, организация, научная публикация и т.д.). Классификационная основа такого перечисления в настоящее время существует, (Encyclopedia of Life, International Plant Names Index, Catalogue of astronomical objects, PubMed, ICD и другие), следует использовать её в стандарте УМ.

Что же происходит в реальности? Рассмотрим показательный пример. Экстракция метаданных для документа octology.pdf, имеющего адрес http://www.enzymes.at/download/octology.pdf, дала следующий результат:
;CreateDate = 2011:03:01 16:35:22Z;Title = octology;PageCount = 76;FileSize = 11 MB;Author = Max Madman;MIMEType = application/pdf;PDFVersion = 1.4;FileType = PDF;Creator = Pages;ModifyDate = 2011:03:01 16:35:22Z;PDFVersion (1) = 1.3;Producer = Mac OS X 10.5.2 Quartz PDFContext

Очевидна бессмысленность такого описания: указание на формат (pdf) присутствует 6 раз; кто создатель и автор документа – неясно; время создания и модификации документа совпадают и ничего не сообщают о времени его появления на свет божий. Пожалуй только указание на количество страниц и размер документа является осмысленным. Метаинформация включённых в текст иллюстраций (если таковая имелась) полностью утрачена в формате pdf. Публикация документа на портале Researchgate.net сопровождается указанием адреса DOI: details/Octology. Что это значит, неясно, поскольку проверка этого адреса в описательной системе DOI не приводит ни к какому результату. Хотя журнал, в котором осуществилась публикация данного документа, включён в базу данных NCBI/NLM, однако информация об этом документе до сих пор не появилась в электронной библиотеке PUBMED. Никакой возможности сделать это мануально нет: всё предоставлено программному обеспечению и автоматам, которые однако не в состоянии осуществить возложенную на них функцию. Сбой системы проявляется ещё и в том, что информация о документе с названием Octology, отсутствует в PUBMED/NCBI/NLM, но присутствует в связанной с нею описательной системе OCLC/WorldCat.

Ещё абсурднее выглядят метаданные документа, наугад выбранного из библиотеки PUBMED:
Palesch D, Sie;czyk M, Oleksyszyn J, Reich M, Wieczerzak E, Boehm BO, Burster T. Was the serine protease cathepsin G discovered by S. G. Hedin in 1903 in bovine spleen? Acta Biochim Pol. 2011 Mar 7, PMID: 21383996 (см. Приложение).

Подводя итоги, следует предложить программистам, терминологам, ISO и индустрии знаний разработать логически выверенную систему метаинформационного обеспечения для всеобщего пользования, чтобы производство документов не превратилось в самоцель, а приобрело бы надёжную основу, позволяющую на новом этапе социального и технического развития эффективно усваивать и организовывать знания. Параллельно, следовало бы дополнить существующие программы модулем, позволяющим визуализировать и редактировать метаданные, а также ввести в употребление универсальные программы для всех типов документов (metadata editors).

Более общей тематической идеей данной статьи является создание комплекса семантических стандартов, частью которых может стать стандарт УМ. Никола Тесла, заложивший технические основы для создания интернета на рубеже 19 и 20 веков, руководствовался мечтой об упразднении границ, препятствующих общению и познанию. Сегодня интернет, став реальностью, сам создаёт виртуальную реальность, на основании которой конструируется действительность, сознание и общество. Необходимо указать на связанные с этим опасности. Так например, смысловое содержание одного из центральных понятий интернета 3 поколения – онтология***, умысленно искажается в идеологических целях: Онтологиями в бизнесе стали обозначать логические схемы, разработанные для манипуляции сознания, вбивания заранее заданных стереотипов мышления, пропаганды групповых интересов. Написанные на непонятном широкой публике искусственном языке, онтологические схемы призваны осуществлять скрытый контроль над обществом узким кругом лиц, определяющих правила их написания. В связи с этим, семантический интернет может стать инструментом тоталитарного управления, имеющего глобальный характер. Понятно, что захват власти может осуществиться конспиративно, а сам тоталитарный процесс в таком случае будет вынесен за рамки юридического регулирования. Чтобы исключить злонамеренное использование технологии интернета, необходимо своевременно принять упреждающие меры. Предлагаемые в данной статье универсальные стандарты позволят избежатъ данного развития и сделать семантический интернет более осмысленным, реалистичным и доступным для регулирования широким кругом его пользователей.

*** Поскольку бытие (сущность) объектов проявляется в действии, то комплексное описание взаимодействия в данном множестве объектов даёт наиболее полное представление об изучаемой области. Онтологическая схема – это формализованое описание связей и взаимодействия между объектами в определённом множестве объектов. Примером применения онтологических схем может служить научная область, включающая всю совокупность изучаемых явлений и объектов, методов изучения и описания, гипотез и теорий. Другой пример: производственное предприятие, являющееся совокупностью оборудования (средств производства), технологического описания производства (методов производства), правил поведения персонала (инструкций управления предприятием) и других условий его функционирования.

В центре онтологической схемы находится описание объектов, включающее наименование или адресацию и установление свойственных им атрибутов (качеств и свойств проявления). Всякое описание основывается на систематизации, позволяющем отнести описываемый объект к группе объектов данной онтологической схемы. При этом атрибуты объектов могут приобретать более общий характер систематических категорий, на основании которых всё множество объектов распределяется на субгруппы. Например, во множестве предметов, некоторые из них могут быть шаровидной формы, отличаться по цвету и т.д. Таким образом, различение объектов происходит путём систематизации на основании индивидуальных признаков, а категоризация является рекурсивной операцией, выделяющей необходимые и достаточные признаки объектов, на основании которых осуществляется их систематизация и распределение внутри данного множества объектов.

Однако онтологические схемы могут не только описывать данность, но и активно влиять на объекты, определять их поведенческий модус посредством установления правил взаимодействия. Субъективный фактор онтологических схем наглядно проявляется в государственном управлении, основывающемся на неполном, искажённом, или неадекватном описании объектов, т.е. людей, социальных групп и их взаимоотношений, а также исключающем из рассмотрения онтологические схемы более общего характера (экология, биосфера, космология, философия). Неудивительно, что люди в таких онтологиях до сих пор рассматриваются как расходный материал, с которым можно обращаться как с неодушевлёнными предметами или домашним скотом.

Неосведомлённый читатель может восполнить пробел знаний, ознакомившись со следующими источниками:

Семантический интернет.
Michael K. Bergman. A Timeline of Information History.
Handbook of Metadata, Semantics and Ontologies, 2012, World Scientific Publishing.
Tom Heath and Christian Bizer (2011) Linked Data: Evolving the Web into a Global Data Space (1st edition). Synthesis Lectures on the Semantic Web: Theory and Technology, 1:1, 1-136. Morgan & Claypool. ISBN: 9781608454310.

Биоонтологии.
Онтология музыки.
Онтологии для электронного правительства.
Конструирование онтологий.

Метаданные документов.
Список форматов документов.
Adobe XMP.
Стандарты метаданных.
eXtended MetaData Registry (XMDR) Project.
Introduction to Metadata, 2008, by Tony Gill, Anne J. Gilliland, Maureen Whalen, and Mary S. Woodley, Murtha Baca (Ed.)
RIP Keywords Meta Tag.

Библиография о метаданных (метаграфия)
Steven J. Miller. Metadata and Cataloging Online Resources, 2010.
Greenberg, Jane. Metadata and Digital Information. In Marcia J. Bates, Mary Niles Maack, Miriam Drake eds. Encyclopedia of Library and Information Science, 2009, New York: Marcel Dekker, Inc.

Метаданные в искусстве, литературе и философии
Mark Amerika META/DATA A Digital Poetics, 2007, MIT Press.
Metaexhibition.
The Handbook of Organization Theory: Meta-theoretical Perspectives by Haridimos Tsoukas, Christian Knudsen. O.rd Un.ty Press, 2003, ISBN: 0199258325.
Metadata Symposium, Academy of Motion Picture Arts and Sciences.

Лабораторный журнал.
Amber Dance. How to choose your lab’s next electronic lab notebook. The Scientist, 2010, vol. 24, 5, p. 71.

Технические средства организации научной литературы
EndNote.
Mekentosj Papers.

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Андрей Полеев

Рецензии

Написать рецензию

Другие произведения автора Андрей Полеев

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.